云聯壹云企業版新增自動巡檢功能
我們在 v3.10 的企業版中新增了自動巡檢功能,關于設計這個功能的初衷以及效果、客戶收益簡單給大家介紹一下。
自動巡檢功能介紹
該服務具備以下三個方面的監控和檢查:
服務器監控狀態:檢查服務器 CPU/內存/磁盤狀態、系統時間及 qume 版本信息,并且根據檢查結果列出問題清單及建議方案
MySQL 健康狀態:對數據庫進行可用性檢查、異常終止的查詢數幾高可用狀態檢查,并且根據檢查結果列出問題清單及建議方案
k8s 健康檢查:對平臺 k8s pods/ nodes 狀態、證書狀態及無用鏡像列表進行檢查,并自動刪除無用鏡像信息
設計初衷
我們會定期對現有所有客戶的環境進行巡檢,幫助客戶及時發現系統瓶頸或者潛在風險,一般每個客戶從登錄環境到輸出巡檢報告,大概需要一天時間。隨著客戶越來越多,巡檢工作帶來的時間成本就不容忽視,我們希望能夠通過自動化產品化的方式來改善巡檢工作。
功能上線前后的效果對比
上線前
技術支持編寫 shell 腳本,登陸客戶服務器上,通過 ansible 執行 shell 的命令的輸出結果,檢查服務器監控狀態、MySQL 和 k8s 集群狀態。

根據腳本輸出信息,手動繪制巡檢報告

上線后
自動巡檢功能的效果:管理員登錄到控制臺,點擊【巡檢】按鈕,大概 5 分鐘左右的時間(具體時間取決于服務器的規模),我們就可以在系統查看巡檢報告的 PDF,如下圖所示。

客戶收益
第一,安全:產品化后的巡檢功能,全程不需要技術人員的參與,更不需要直接登錄客戶的服務器環境等,這對客戶來說很安全,不會帶來其他的風險。
第二,問題識別和解決:環境巡檢可以幫助發現平臺中的問題和隱患,如服務器磁盤空間不足,負載過高、服務異常等。通過及時識別這些問題,可以采取相應的措施來解決它們,提高系統的可靠性和穩定性。
第三,性能優化和容量規劃:通過巡檢平臺,可以收集關于平臺系統使用情況、資源利用率和負載模式的數據。這些數據可以用于性能優化和容量規劃,幫助組織合理規劃資源投入,并滿足未來的業務需求。
致謝
自動巡檢功能是在盛銀消金運維團隊的建議和不斷反饋下才得以上線和完善。在此對盛銀消金運維團隊表示衷心的感謝。
以上是文章的主要內容,作為融合云/多云管理/私有云/FinOps 廠商,云聯壹云會持續關注這些領域的動態,分享相關的信息和技術,可以通過的官網(yunion.cn)或關注的公眾號(云聯壹云)來獲取最新的信息,感謝大家的時間。
推薦閱讀


