osd down 处理
检查集群状态
查看osd tree
恢复osd
登录对应节点,重启osd
检查osd up
查看ceph osd
数据recovery流量控制
本质上,用户数据写入ceph时,会被切分成大小相等的object,这些object由PG承载,分布到不同的OSD上(每个OSD一般会对应一块硬盘)。数据的迁移会以PG为单位进行,所以当PG发生变化时,就会有数据rebalance。
后端的数据均衡IO会对client的IO造成影响从而影响到集群的业务IO,所以我们需要对数据均衡IO进行控制,主要是业务优先和恢复优先。
业务优先
恢复优先
在业务繁忙时,完全关闭数据重建及迁移:
在业务空闲时,打开数据重建及迁移
如果想长期有效,可以在进行以上操作立即生效后,修改所有ceph集群节点的配置文件。
注:查看现有recovery配置信息,这里的133为具体osd的id号