K8s生产运维的一些注意事项

这篇文章总结一些我遇到过的 k8s 故障以及如何防患同样: 仅代表个人观点，如有不对欢迎反馈

介绍

大家可以思考一个问题: 当自己被安排需要对 k8s 配置监控和告警, 你是否知道应该对那些组件或指标配置告警?

这篇文章就试图回答这个问题(如果已会, 可跳过, 也可帮我评阅下😄 )

这里是我对 k8s 配置监控告警时,分析监控点的总结, 希望对你有帮助或启发

如果大家做 K8S 监控, 一般都会了解到这个项目: https://github.com/prometheus-operator/kube-prometheus 这个项目是社区对 k8s 监控指标, 告警指标, 大盘的汇总

那社区都有了部署上不就完事了?

其实不是的, 针对自己的环境和部署方式, 版本 , 使用方式等差异,还是需要自己对监控告警进行查漏补缺, 并且结合故障复盘发现的缺失,持续完善所以大家一般都是基于这个项目,再增加一些自己的监控告警, 才能满足 k8s 监控告警的高覆盖, 真正实现90%问题告警先发现

最后更新于 November 14, 2025