K8s生产运维的一些注意事项
这篇文章总结一些我遇到过的 k8s 故障以及如何防患 同样: 仅代表个人观点,如有不对欢迎反馈
介绍
大家可以思考一个问题: 当自己被安排需要对 k8s 配置监控和告警, 你是否知道 应该对那些组件或指标 配置 告警?
这篇文章就试图回答这个问题(如果已会, 可跳过, 也可帮我评阅下😄 )
这里是我 对 k8s 配置监控告警时,分析监控点的总结, 希望对你有帮助或启发
我建设监控告警的思考
如果大家做 K8S 监控, 一般都会了解到这个项目: https://github.com/prometheus-operator/kube-prometheus 这个项目是社区对 k8s 监控指标, 告警指标, 大盘 的 汇总
那社区都有了部署上不就完事了?
其实不是的, 针对自己的 环境 和部署方式, 版本 , 使用方式 等差异,还是需要自己对监控告警进行查漏补缺, 并且结合故障复盘发现的缺失,持续完善 所以 大家一般都是基于这个项目,再增加一些自己的监控告警, 才能满足 k8s 监控告警的高覆盖, 真正实现90%问题告警先发现
监控点
etcd
k8s 管控面 - apiserver, kube-controller,scheduler
k8s service - kube-proxy
k8s dns - coredns
k8s 节点 - kubelet, containerd
k8s pod 网络 - calico 等
最后更新于