日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

監(jiān)控報(bào)警最佳實(shí)踐

為確保業(yè)務(wù)的穩(wěn)定運(yùn)行,您需要監(jiān)控實(shí)例的資源使用情況和業(yè)務(wù)請(qǐng)求響應(yīng)情況,并設(shè)定相應(yīng)的報(bào)警規(guī)則。根據(jù)實(shí)際需求,合理配置報(bào)警規(guī)則,以便在資源不足或業(yè)務(wù)受損時(shí)及時(shí)采取措施,確保業(yè)務(wù)可靠性和可用性。

系統(tǒng)指標(biāo)

CPU與負(fù)載

該模塊用于監(jiān)控系統(tǒng)的CPU使用率與負(fù)載,包含指標(biāo):CPU利用率、CPU WIO使用率、CPU空閑率、平均負(fù)載。其中CPU使用率包括用戶使用率(User)和系統(tǒng)使用率(System)。

在設(shè)置報(bào)警規(guī)則時(shí),建議您根據(jù)業(yè)務(wù)特性和對(duì)延遲的敏感程度來(lái)設(shè)置CPU空閑率(%)的報(bào)警值。通常情況下,CPU利用率的升高會(huì)導(dǎo)致響應(yīng)時(shí)間的增加,但不同性質(zhì)的業(yè)務(wù)受影響的程度不同。例如,當(dāng)CPU利用率超過40%時(shí)在線型業(yè)務(wù)的響應(yīng)可能會(huì)受到影響,而對(duì)于部分離線型業(yè)務(wù),即使CPU利用率達(dá)到100%其業(yè)務(wù)運(yùn)行也不會(huì)受到影響。因此,建議您根據(jù)業(yè)務(wù)自身情況來(lái)合理設(shè)置報(bào)警值。當(dāng)CPU使用率過高時(shí),可以通過擴(kuò)容或升配來(lái)滿足業(yè)務(wù)需求。如何擴(kuò)容或升配,請(qǐng)參見管理存儲(chǔ)空間變更實(shí)例配置

CPU WIO使用率(%)表示CPU在等待IO操作時(shí)所占用的時(shí)間比例,該指標(biāo)過高表示讀寫磁盤遇到瓶頸。在判斷機(jī)器的健康狀態(tài)時(shí),可以將CPU WIO使用率(%)每分鐘平均負(fù)載(load1)(下文簡(jiǎn)稱Load指標(biāo))一起分析。Load指標(biāo)綜合了CPU利用率和磁盤使用率。

機(jī)器可以承受的負(fù)載通常與其CPU配置相關(guān)。例如購(gòu)買的機(jī)器CPU為8核,當(dāng)Load指標(biāo)的值大于8即意味著CPU的處理開始排隊(duì),機(jī)器處于亞健康狀態(tài)。如果CPU利用率不高,但Load指標(biāo)偏高,則代表磁盤的使用率過高。當(dāng)CPU負(fù)載過高或WIO使用率過高時(shí),建議您擴(kuò)容或者升配,以免影響業(yè)務(wù)。

網(wǎng)絡(luò)和磁盤

該模塊用于監(jiān)控機(jī)器的網(wǎng)絡(luò)和磁盤情況。您需要關(guān)注機(jī)器的網(wǎng)絡(luò)流量、磁盤讀寫情況和IOPS指標(biāo),避免其超過ECS實(shí)例和云盤的限流閾值。

不同規(guī)格的ECS實(shí)例具備不同的網(wǎng)絡(luò)帶寬,網(wǎng)絡(luò)的限流閾值請(qǐng)參見實(shí)例規(guī)格族。磁盤的限流閾值請(qǐng)參見塊存儲(chǔ)性能。如果對(duì)網(wǎng)絡(luò)和磁盤限制有疑問,請(qǐng)聯(lián)系Lindorm技術(shù)支持(釘釘號(hào):s0s3eg3)為您解答。

說明

您可以根據(jù)Lindorm實(shí)例的存儲(chǔ)類型,參考對(duì)應(yīng)的ECS性能參數(shù):

  • 性能型云存儲(chǔ):請(qǐng)參考SSD云盤相關(guān)的性能參數(shù)。

  • 標(biāo)準(zhǔn)型云存儲(chǔ):請(qǐng)參考高效云盤ESSD相關(guān)的性能參數(shù)。

  • 本地盤:請(qǐng)參考本地盤的性能參數(shù)。

非本地盤機(jī)型的ECS云盤存在總帶寬上限,如果讀加寫的流量超過ECS云盤帶寬,也會(huì)出現(xiàn)限流導(dǎo)致業(yè)務(wù)受損。在使用過程中,您需要密切關(guān)注磁盤和網(wǎng)絡(luò)使用情況,防止超出底層機(jī)器的網(wǎng)絡(luò)或磁盤限制。

集群存儲(chǔ)詳情

集群存儲(chǔ)詳情主要監(jiān)控實(shí)例的存儲(chǔ)空間使用情況。您需要關(guān)注存儲(chǔ)(熱存)水位(%)冷存水位(%)指標(biāo),當(dāng)兩者中的任意一個(gè)水位百分比超過95%,系統(tǒng)將自動(dòng)禁止數(shù)據(jù)寫入。

建議您合理設(shè)置容量告警線(建議75%~80%)并及時(shí)關(guān)注告警消息,存儲(chǔ)空間的已用占比達(dá)到設(shè)置的閾值時(shí),及時(shí)擴(kuò)容避免影響業(yè)務(wù)。

寬表引擎指標(biāo)

集群負(fù)載

集群負(fù)載指標(biāo)主要監(jiān)控以下幾項(xiàng):

  • 寬表計(jì)算節(jié)點(diǎn)內(nèi)存使用比率(%):表示寬表引擎當(dāng)前堆內(nèi)存已使用的比率。如果堆的使用比率長(zhǎng)期過高,可能會(huì)導(dǎo)致寬表引擎OOM或Full GC,進(jìn)而影響業(yè)務(wù)。堆內(nèi)存大小是會(huì)波動(dòng)的,如果您臨時(shí)過度使用了堆內(nèi)存,系統(tǒng)將通過垃圾回收(GC)等方式使堆的大小自然下降。當(dāng)堆內(nèi)存大小持續(xù)超過某個(gè)閾值時(shí),需要進(jìn)行關(guān)注。因此,當(dāng)該數(shù)值過高時(shí),建議升級(jí)寬表節(jié)點(diǎn)的規(guī)格,以增大內(nèi)存。在配置報(bào)警規(guī)則時(shí),建議將規(guī)則配置為:該比率大于85%~90%且持續(xù)30~60分鐘后報(bào)警。如何升級(jí)規(guī)格,請(qǐng)參見變更實(shí)例規(guī)格

  • RS的region數(shù)(個(gè)):每個(gè)寬表節(jié)點(diǎn)上的數(shù)據(jù)分片個(gè)數(shù)。寬表引擎會(huì)把表按范圍切片并分布到各個(gè)機(jī)器上,由master統(tǒng)一管理分配。每個(gè)分片(Region)都會(huì)占用元數(shù)據(jù)內(nèi)存空間,因此Region數(shù)量過多會(huì)導(dǎo)致機(jī)器內(nèi)存不足。您需要控制Region的數(shù)量,例如減少表的數(shù)量、減少建表時(shí)預(yù)分區(qū)的個(gè)數(shù)。

    以下是不同配置下,單個(gè)機(jī)器的Region個(gè)數(shù)建議:

    機(jī)器配置(內(nèi)存大小)

    單機(jī)建議的分片個(gè)數(shù)

    8 GB

    < 500

    16 GB

    < 1000

    32 GB

    < 2000

    64 GB

    < 3000

    128 GB

    < 5000

    以上數(shù)值僅供參考,實(shí)際使用時(shí)您可以通過寬表計(jì)算節(jié)點(diǎn)內(nèi)存使用量 / 寬表計(jì)算節(jié)點(diǎn)內(nèi)存總量來(lái)判斷實(shí)例是否存在內(nèi)存不足的問題。

  • HandlerQueue長(zhǎng)度(個(gè)):表示服務(wù)器上請(qǐng)求排隊(duì)的情況。如果HandlerQueue長(zhǎng)度大于0,則表示請(qǐng)求在服務(wù)器上需排隊(duì)處理,預(yù)示著服務(wù)器資源無(wú)法承載當(dāng)前請(qǐng)求量,因此無(wú)法及時(shí)處理請(qǐng)求,建議您升級(jí)實(shí)例配置來(lái)增加CPU資源。

  • Compaction隊(duì)列長(zhǎng)度(個(gè)):表示服務(wù)器上Compaction任務(wù)的排隊(duì)情況。當(dāng)寫入量增多時(shí),需要執(zhí)行的Compaction操作會(huì)隨之增多,可能會(huì)出現(xiàn)需要排隊(duì)執(zhí)行的現(xiàn)象。

    說明
    • Compaction隊(duì)列長(zhǎng)度大于0不代表實(shí)例一定處于不健康狀態(tài)。假設(shè)業(yè)務(wù)的寫入高峰和寫入低谷有比較明顯的周期,白天寫入高峰,晚上寫入低谷,那么白天Compaction任務(wù)可能存在積壓(即Compaction隊(duì)列長(zhǎng)度大于0),但在晚上的業(yè)務(wù)低谷期,系統(tǒng)將自動(dòng)處理這些積壓的任務(wù),此時(shí)Compaction隊(duì)列長(zhǎng)度會(huì)減少到0,這說明實(shí)例是健康的。此外,如果Compaction隊(duì)列長(zhǎng)度長(zhǎng)期穩(wěn)定在某一個(gè)值,表示實(shí)例處于穩(wěn)定狀態(tài),無(wú)需關(guān)注。

    • 如果Compaction隊(duì)列長(zhǎng)度持續(xù)上漲且沒有下降趨勢(shì),說明實(shí)例資源不足,需要增加節(jié)點(diǎn)或升級(jí)配置來(lái)增加CPU資源,以便及時(shí)處理Compaction任務(wù)。Compaction任務(wù)的積壓在短時(shí)間內(nèi)不會(huì)影響業(yè)務(wù),但長(zhǎng)期積壓會(huì)導(dǎo)致分片內(nèi)文件過多,可能會(huì)影響讀RT。如果文件數(shù)量持續(xù)增長(zhǎng)可能會(huì)出現(xiàn)反壓寫現(xiàn)象,導(dǎo)致寫入RT增加甚至超時(shí)。

  • Region的平均文件數(shù):表示分片內(nèi)平均文件的個(gè)數(shù),數(shù)量越多,讀RT越大。每個(gè)文件元數(shù)據(jù)都會(huì)占用內(nèi)存,如果文件總數(shù)過多可能導(dǎo)致Full GC或OOM。

  • Region的最大文件數(shù):Lindorm對(duì)單個(gè)Region內(nèi)的文件數(shù)量存在限制,如果超過該限制會(huì)出現(xiàn)反壓寫現(xiàn)象導(dǎo)致寫超時(shí)。具體限制說明,請(qǐng)參見數(shù)據(jù)請(qǐng)求的限制

讀請(qǐng)求

主要包含以下幾類監(jiān)控項(xiàng):

  • Get監(jiān)控項(xiàng):包括Get請(qǐng)求量(個(gè)/秒)Get平均RT(毫秒)Get P99 RT(毫秒)三項(xiàng)。該監(jiān)控項(xiàng)是指根據(jù)完整的主鍵信息,在Lindorm服務(wù)器執(zhí)行一次點(diǎn)查調(diào)用,獲取相關(guān)的監(jiān)控指標(biāo),包括QPS,平均RT和P99 RT。如果您使用了BatchGet操作,無(wú)論BatchGet操作中包含多少行,都只會(huì)被視為一次點(diǎn)查調(diào)用。由于BatchGet操作是在單個(gè)服務(wù)器上以串行方式執(zhí)行,因此如果僅使用了BatchGet操作,或同時(shí)使用了BatchGet操作和單行Get操作,平均RT的值會(huì)高于單行Get操作的RT。

  • Scan監(jiān)控項(xiàng):包括Scan請(qǐng)求量(個(gè)/秒)Scan平均RT(毫秒)Scan P99 RT(毫秒)三項(xiàng)。該監(jiān)控項(xiàng)用于監(jiān)控范圍掃描操作(Scan請(qǐng)求)的相關(guān)指標(biāo)。Lindorm服務(wù)器會(huì)將大范圍的Scan請(qǐng)求拆分并以流式的方式返回,Scan請(qǐng)求量(個(gè)/秒)Scan平均RT(毫秒)分別指將Scan請(qǐng)求拆分后,每秒發(fā)送到服務(wù)器的掃描子調(diào)用數(shù)量和每個(gè)掃描操作的平均耗時(shí),因此Scan請(qǐng)求量(個(gè)/秒)顯示的Scan請(qǐng)求的數(shù)量可能會(huì)比實(shí)際使用時(shí)發(fā)起的Scan請(qǐng)求數(shù)量多。同時(shí),完整Scan請(qǐng)求的耗時(shí)也由多個(gè)子掃描請(qǐng)求的耗時(shí)組成。

  • 讀監(jiān)控項(xiàng):包括讀請(qǐng)求量(個(gè)/秒)讀平均RT(毫秒)讀流量三項(xiàng)。該監(jiān)控項(xiàng)同時(shí)包含了Get和Scan請(qǐng)求的監(jiān)控項(xiàng),用于統(tǒng)計(jì)實(shí)例每秒返回多少行數(shù)據(jù)、返回每行數(shù)據(jù)的平均耗時(shí)。Get請(qǐng)求和Scan請(qǐng)求可能一次請(qǐng)求返回多行,因此該監(jiān)控項(xiàng)能夠更真實(shí)地反映實(shí)例的讀吞吐。

寫請(qǐng)求

  • 寫流量:該監(jiān)控項(xiàng)用于監(jiān)控寫入寬表引擎的流量吞吐,單位為KB/s。寬表寫入底層存儲(chǔ)時(shí),寬表的列會(huì)被轉(zhuǎn)化為鍵值對(duì)(KeyValue)形式,因此寫入的列相比于業(yè)務(wù)實(shí)際寫入的列更多,數(shù)據(jù)量更大。建議您通過該指標(biāo)來(lái)判斷Lindorm寬表引擎的寫入吞吐。

    寫入吞吐過大,可能會(huì)導(dǎo)致Compaction任務(wù)積壓,進(jìn)而影響實(shí)例的穩(wěn)定性,請(qǐng)您根據(jù)業(yè)務(wù)需求綜合考慮并選擇合適的CPU配置。

    以下是不同配置下的寫入吞吐參考:

    CPU配置

    建議的寫入吞吐

    4核

    < 5 MB/s

    8核

    < 10 MB/s

    16核

    < 30 MB/s

    32核

    < 60 MB/s

    以上值僅供參考,實(shí)際使用時(shí)您可以進(jìn)一步結(jié)合Compaction隊(duì)列長(zhǎng)度Region的平均文件數(shù)以及Region的最大文件數(shù)來(lái)綜合考慮。

  • 超過Memstore上限次數(shù)(次):Lindorm寬表在寫入時(shí)會(huì)先將數(shù)據(jù)寫入對(duì)應(yīng)Region的內(nèi)存緩存(Memstore)中,當(dāng)Memstore過大時(shí),系統(tǒng)將觸發(fā)一次Flush操作將數(shù)據(jù)刷寫到磁盤上。如果業(yè)務(wù)的寫入熱點(diǎn)過于集中,寫入請(qǐng)求集中在某幾個(gè)Region上,就會(huì)造成這些Region的Memstore過大,會(huì)導(dǎo)致出現(xiàn)反壓寫現(xiàn)象,從而影響寫吞吐。因此當(dāng)該指標(biāo)大于0時(shí),您需要考慮寫入是否存在熱點(diǎn)現(xiàn)象,或?qū)懭隩PS已經(jīng)超過實(shí)例能夠承受的最大值導(dǎo)致來(lái)不及將數(shù)據(jù)刷寫至磁盤上。您可以通過Hash算法將主鍵打散,避免熱點(diǎn)的產(chǎn)生。更多介紹,請(qǐng)參見如何設(shè)計(jì)寬表主鍵