监控维度 | 关键指标 | 健康阈值(参考) | 说明 |
|---|---|---|---|
集群健康 | ceph -s状态 | HEALTH_OK | 任何 slow ops或 stuck告警都需立即排查。 |
IOPS | client_read/write_op_per_sec | 机械盘单盘 < 200 | *易触达瓶颈。若接近磁盘极限,加盘比换 SSD 更有效。 |
延迟 | op_r_latency/ op_w_latency | < 50ms (机械盘) | 写入延迟高通常意味着 WAL/DB 盘慢或网络拥塞。 |
吞吐 | client_read/write_bytes_per_sec | 受限于网络带宽 | 若接近网卡上限(如千兆网 110MB/s),需升级万兆。 |
OSD 状态 | apply_latency | < 500ms | 若过高,说明后端磁盘(HDD)写入跟不上。 |
ceph osd perf查看 commit_latency。commit_latency持续 > 100ms,说明你的 SSD 加速盘可能已满、过热或性能不足(如用了低端 SATA SSD)。联系电话:4001819668
iostat -x 1查看 %util和 avgqu-sz。%util长期接近 100%,说明 2 块机械盘已满负荷,IOPS 已达物理极限,需扩容 OSD。微信号:RH23CN
ceph mgr module enable dashboard),通过浏览器查看详细的性能 Grafana 图表。# 实时监控 OSD 延迟和 IOPSceph osd perf ceph pg stat# 查看客户端实际读写吞吐(需在 VM 内或宿主机执行)iostat -dx 1
ceph -s检查集群是否在恢复(recovery/backfill),这会导致所有 IO 变慢。ceph osd perf检查是否有某个 OSD 的延迟异常高(通常是机械盘)。top查看 ceph-osd进程 CPU 占用。若 CPU 高但 IOPS 低,通常是网络或加密(如开启 SSL)导致。官网:www.sx267.com
iftop检查 Ceph 后端网络(通常是 br1或 bond1)是否带宽打满。apply_latency持续 > 1s,你的 SSD 加速盘可能并未生效,或者机械盘已严重过载。