如何监控Ceph集群的性能瓶颈？有哪些关键指标？

2026-03-31 1479

监控 Ceph 集群性能，关键在于区分“集群整体健康”与“单 OSD 性能瓶颈”。结合你之前“2 块 8T 机械盘 + SSD 加速”的超融合环境，我为你梳理了*核心的监控指标和排查路径。

Ceph 性能瓶颈通常按 IOPS > 网络 > 延迟 的顺序排查。

监控维度	关键指标	健康阈值（参考）	说明
集群健康	`ceph -s`状态	`HEALTH_OK`	任何 `slow ops`或 `stuck`告警都需立即排查。
IOPS	`client_read/write_op_per_sec`	机械盘单盘 < 200	*易触达瓶颈。若接近磁盘极限，加盘比换 SSD 更有效。
延迟	`op_r_latency`/ `op_w_latency`	< 50ms (机械盘)	写入延迟高通常意味着 WAL/DB 盘慢或网络拥塞。
吞吐	`client_read/write_bytes_per_sec`	受限于网络带宽	若接近网卡上限（如千兆网 110MB/s），需升级万兆。
OSD 状态	`apply_latency`	< 500ms	若过高，说明后端磁盘（HDD）写入跟不上。

你的架构中，SSD 作为 DB/WAL 设备是性能的生命线，需重点监控：

联系电话：4001819668
在 PVE Web 界面点击 “Ceph” > “Monitor”，直接查看 OSD 写入延迟和 PGs 状态。
微信号：RH23CN
开启 “Ceph Dashboard”（ceph mgr module enable dashboard），通过浏览器查看详细的性能 Grafana 图表。

命令行（**）：

# 实时监控 OSD 延迟和 IOPSceph osd perf
ceph pg stat# 查看客户端实际读写吞吐（需在 VM 内或宿主机执行）iostat -dx 1

当发现虚拟机卡顿或写入慢时，按此顺序排查：

一句话建议：在你的小规模集群中，不要过度关注“集群总吞吐”，而要盯着“单 OSD 延迟”。如果 apply_latency持续 > 1s，你的 SSD 加速盘可能并未生效，或者机械盘已严重过载。