欢迎访问荣合科算技术服务官网,我们专注于服务器相关的IT技术服务支持,长期与IT集成商、企业主、政法机关单位、高校科研院校建立良好的合作关系!
服务器 Linux系统 科研软件 HPC集群 硬件评测 硬件参数

如何监控Ceph集群的性能瓶颈?有哪些关键指标?

2026-03-31 1
监控 Ceph 集群性能,关键在于区分“集群整体健康”“单 OSD 性能瓶颈”。结合你之前“2 块 8T 机械盘 + SSD 加速”的超融合环境,我为你梳理了*核心的监控指标和排查路径。

一、核心监控指标(Dashboard / CLI)

Ceph 性能瓶颈通常按 IOPS > 网络 > 延迟 的顺序排查。
监控维度
关键指标
健康阈值(参考)
说明
集群健康
ceph -s状态
HEALTH_OK
任何 slow opsstuck告警都需立即排查。
IOPS
client_read/write_op_per_sec
机械盘单盘 < 200
*易触达瓶颈。若接近磁盘极限,加盘比换 SSD 更有效。
延迟
op_r_latency/ op_w_latency
< 50ms (机械盘)
写入延迟高通常意味着 WAL/DB 盘慢或网络拥塞。
吞吐
client_read/write_bytes_per_sec
受限于网络带宽
若接近网卡上限(如千兆网 110MB/s),需升级万兆。
OSD 状态
apply_latency
< 500ms
若过高,说明后端磁盘(HDD)写入跟不上。

二、针对你“2盘+SSD加速”场景的特别关注点

你的架构中,SSD 作为 DB/WAL 设备是性能的生命线,需重点监控:
  1. SSD 磨损与延迟

    • 指标ceph osd perf查看 commit_latency

    • 判断:若 commit_latency持续 > 100ms,说明你的 SSD 加速盘可能已满、过热或性能不足(如用了低端 SATA SSD)。

  2. 联系电话:4001819668

    HDD 队列深度

    • 指标iostat -x 1查看 %utilavgqu-sz

    • 判断:若 %util长期接近 100%,说明 2 块机械盘已满负荷,IOPS 已达物理极限,需扩容 OSD。

三、推荐监控工具组合

  1. 微信号:RH23CN

    PVE 内置(*便捷)

    • 在 PVE Web 界面点击 “Ceph” > “Monitor”,直接查看 OSD 写入延迟和 PGs 状态。

    • 开启 “Ceph Dashboard”ceph mgr module enable dashboard),通过浏览器查看详细的性能 Grafana 图表。

  2. 命令行(**)
    # 实时监控 OSD 延迟和 IOPSceph osd perf
    ceph pg stat# 查看客户端实际读写吞吐(需在 VM 内或宿主机执行)iostat -dx 1

四、典型瓶颈排查 SOP

当发现虚拟机卡顿或写入慢时,按此顺序排查:
  1. *步ceph -s检查集群是否在恢复(recovery/backfill),这会导致所有 IO 变慢。

  2. 第二步ceph osd perf检查是否有某个 OSD 的延迟异常高(通常是机械盘)。

  3. 第三步top查看 ceph-osd进程 CPU 占用。若 CPU 高但 IOPS 低,通常是网络加密(如开启 SSL)导致。

    官网:www.sx267.com

  4. 第四步iftop检查 Ceph 后端网络(通常是 br1bond1)是否带宽打满。

一句话建议:在你的小规模集群中,不要过度关注“集群总吞吐”,而要盯着“单 OSD 延迟”。如果 apply_latency持续 > 1s,你的 SSD 加速盘可能并未生效,或者机械盘已严重过载。