用監(jiān)控軟件時(shí),最煩兩種情況:一種是半夜三點(diǎn)被一條‘CPU占用51%’的告警吵醒,一看啥事沒(méi)有;另一種是服務(wù)器都卡成幻燈片了,系統(tǒng)還一聲不吭。問(wèn)題不在工具不好,而在于——你沒(méi)調(diào)好告警靈敏度。
什么是告警靈敏度?
簡(jiǎn)單說(shuō),就是系統(tǒng)判斷“出問(wèn)題了”有多嚴(yán)格。靈敏度高,風(fēng)吹草動(dòng)都報(bào);靈敏度低,非得等到快崩了才提醒。就像家里的煙霧報(bào)警器,廚房炒個(gè)辣椒就響,那是太敏感;油鍋著火了還不響,那就是太遲鈍。
常見(jiàn)場(chǎng)景怎么調(diào)?
比如你管著一臺(tái)公司官網(wǎng)服務(wù)器。白天訪問(wèn)量大,CPU跑到70%很正常。如果你把告警閾值設(shè)在60%,那從早上九點(diǎn)開(kāi)始,手機(jī)就得響個(gè)不停。這時(shí)候就應(yīng)該把靈敏度調(diào)低點(diǎn),比如改成連續(xù)3次采樣超過(guò)80%再觸發(fā),避免誤報(bào)刷屏。
反過(guò)來(lái),數(shù)據(jù)庫(kù)服務(wù)器平時(shí)負(fù)載很低,突然升到50%,可能就有異常查詢(xún)或者連接泄漏。這種關(guān)鍵服務(wù),就得把靈敏度調(diào)高,早點(diǎn)發(fā)現(xiàn)問(wèn)題苗頭。
結(jié)合時(shí)間策略更聰明
很多工具支持按時(shí)間段設(shè)置不同靈敏度。例如:
{
"service": "web_server",
"alert_rule": {
"working_hours": {
"cpu_threshold": 85,
"duration": "5m"
},
"off_hours": {
"cpu_threshold": 65,
"duration": "2m"
}
}
}
上班時(shí)間閾值放寬,非工作時(shí)間收緊。這樣既不影響日常運(yùn)營(yíng),又能確保夜間的異常不會(huì)被忽略。
別忘了測(cè)試和觀察
改完規(guī)則別撒手不管。先在測(cè)試環(huán)境跑幾天,看新規(guī)則下有沒(méi)有漏報(bào)或誤報(bào)。也可以臨時(shí)把通知發(fā)到測(cè)試群,等穩(wěn)定了再切到正式告警通道。畢竟誰(shuí)也不想因?yàn)檎{(diào)個(gè)參數(shù),結(jié)果真出事時(shí)沒(méi)人知道。
調(diào)靈敏度不是一錘子買(mǎi)賣(mài)。業(yè)務(wù)一變,流量模式一改,老規(guī)則可能就不適用了。定期翻翻告警記錄,哪些是無(wú)效打擾,哪些是事后才發(fā)現(xiàn)的隱患,根據(jù)實(shí)際反饋持續(xù)優(yōu)化,才能讓系統(tǒng)提醒真正靠譜。