架构规划

单机部署的上限

单台 Zabbix Server 监控项上限约 10 万条,超过这个量数据库会成为瓶颈。

500 台以上设备建议使用分布式架构,部署 Proxy 节点。Proxy 按地理位置就近部署,减少延迟,提升数据传输效率。


监控项配置

清理默认模板中的冗余监控项

Zabbix 自带模板包含大量监控项,很多在实际场景中用不到。直接使用默认模板会产生大量无用数据,浪费存储和计算资源。

合理设置采集频率

  • 关键指标(CPU、内存):5-10 秒
  • 非关键指标(磁盘使用率):30-60 秒
  • 趋势类指标:5 分钟以上

自定义监控项命名规范

使用结构化命名,例如 app.nginx.connections.active,便于后期维护和查询。


告警管理

基于基线设置阈值

不要用通用标准,要基于实际观测的历史数据设置阈值。同一个指标在不同业务场景下的正常范围可能差异很大。

使用触发器依赖关系

当父级故障时,自动抑制子级告警,避免一个根因触发几十条告警。

按严重程度分级通知

  • 严重:电话 + 短信 + 企业微信
  • 警告:企业微信
  • 信息:邮件(或不通知)

数据库维护

定期清理历史数据

  • 历史数据保留 7-15 天
  • 趋势数据保留 3-6 个月

数据量过大会导致查询变慢,影响 Web 界面响应速度。

数据库参数优化

调整 InnoDB buffer pool 大小,对历史数据表做分区,避免写入瓶颈。


核心原则

Zabbix 用得好不好,取决于配置细节,而不是功能多少。精简、合理的配置,比大而全的配置更有价值。