架构规划
单机部署的上限
单台 Zabbix Server 监控项上限约 10 万条,超过这个量数据库会成为瓶颈。
500 台以上设备建议使用分布式架构,部署 Proxy 节点。Proxy 按地理位置就近部署,减少延迟,提升数据传输效率。
监控项配置
清理默认模板中的冗余监控项
Zabbix 自带模板包含大量监控项,很多在实际场景中用不到。直接使用默认模板会产生大量无用数据,浪费存储和计算资源。
合理设置采集频率
- 关键指标(CPU、内存):5-10 秒
- 非关键指标(磁盘使用率):30-60 秒
- 趋势类指标:5 分钟以上
自定义监控项命名规范
使用结构化命名,例如 app.nginx.connections.active,便于后期维护和查询。
告警管理
基于基线设置阈值
不要用通用标准,要基于实际观测的历史数据设置阈值。同一个指标在不同业务场景下的正常范围可能差异很大。
使用触发器依赖关系
当父级故障时,自动抑制子级告警,避免一个根因触发几十条告警。
按严重程度分级通知
- 严重:电话 + 短信 + 企业微信
- 警告:企业微信
- 信息:邮件(或不通知)
数据库维护
定期清理历史数据
- 历史数据保留 7-15 天
- 趋势数据保留 3-6 个月
数据量过大会导致查询变慢,影响 Web 界面响应速度。
数据库参数优化
调整 InnoDB buffer pool 大小,对历史数据表做分区,避免写入瓶颈。
核心原则
Zabbix 用得好不好,取决于配置细节,而不是功能多少。精简、合理的配置,比大而全的配置更有价值。