《杉岩两语》企业级Ceph之路（二）：使用bcache为Ceph OSD加速的具体实践

几天前的那碗“加了Ceph的热干面”（回复关键词“热干面”获得）还记得吗？希望你记得。当然，如果你还记得bcache是如何让Ceph OSD快速入味的，那就更好了。如果你不记得，没关系，今天，我们将这道佳肴的菜谱倾情奉送，拿走，别谢。

本文作者：花瑞，杉岩数据高级研发工程师。

一、Ceph中使用SSD部署混合式存储的两种方式

目前在使用Ceph中使用SSD的方式主要有两种：cache tiering与OSD cache，众所周知，Ceph的cache tiering机制目前还不成熟，策略比较复杂，IO路径较长，在有些IO场景下甚至还会导致性能下降，promotion的粒度较大也有较多的负面影响。所以在SSD的使用上，我们选择了给OSD所在块设备加速的方式。

二、Linux块层SSD Cache方案的选择

在Linux内核块层，使用SSD给HDD块设备加速，目前较为成熟的方案有：flashcache，enhanceIO，dm-cache，bcache等。

2.1 特性对比

在这几种开源方案中，前三种的cache块索引算法都比较相近，都是基于hash索引，主存数据块到缓存块采用的是组相联的映射方式。下表以flashcache/enhanceIO为例，与bcache作了简单对比。

Bcache与其它几种方式最大的不同之处在于，它采用一棵相对标准的B+树作为索引，命中率会有很大提高，同时，它在架构设计上考虑了SSD本身的一些特性，在最大程度上发挥SSD性能的同时，也保护了SSD的寿命，也就是对SSD闪存介质的亲和性较好。

2.2 可管理性/可维护性对比

在可管理性/可维护性方面，bcache的优势在于可以将SSD资源池化，一块SSD可对应多块HDD，形成一个缓存池（如下图）。

bcache还支持从缓存池中划出瘦分配的纯flash卷（thin-flash LUN）单独使用。

其它几种cache方案都必须将SSD（或分区）绑定到不同的HDD盘。

2.3 性能对比

bcache官方给出的性能对比数据，可参考以下链接：

http://www.accelcloud.com/2012/04/18/linux-flashcache-and-bcache-performance-testing/

下图是杉岩在单机环境做的一个简单的测试，表现了在尽量能命中cache的情况下，二者的性能差异。集群环境下，性能差异接近单机版，在读写都能命中缓存的情况下，比较接近纯SSD集群的性能。

三、Bcache内部技术简介

在Linux内核块层，使用SSD给HDD块设备加速，目前较为成熟的方案有：flashcache，enhanceIO，dm-cache，bcache等。

前面介绍了bcache在Ceph中为OSD加速的方案。现在我们来介绍一下bcache的内部逻辑，便于我们理解bcache性能优势的来源。

3.1 SSD上数据的Layout

如图所示，bcache将SSD空间分成若干个bucket（典型值为512K，最好与SSD本身擦除块大小一致）。缓存数据与元数据都是按bucket来管理的：

分配器：COW式的空间分配，分配的单元是bucket，数据在bucket内部全部都是追加写入的，不会出现覆盖写，当有覆盖写时，会重定向到新的数据块。

元数据部分：B+树节点数据是最主要的元数据，也是COW式分配，对于B+树节点的修改，需要先分配新的节点，将新数据写入，再丢弃老的节点。

3.2 Bcache的索引

bcache用B+树来管理缓存数据与HDD上数据块的对应关系，B+树所索引的k-v结构在bcache中称为bkey。如下图所示：

将一个缓存池中的多块HDD空间编址为一个地址空间
以HDD的id + IO请求的LBA为索引建立B+树
每个B+树的节点对应一个btree bucket，这个bucket里存的就是一个个的bkey
为每个btree bucket申请一块连续内存作为metadata缓存
利用Journal/WAL加速B+tree的修改, 写完journal以及内存中的B+tree节点缓存后写IO就可以返回了

3.3 垃圾回收

前面介绍bcache的分配器是以bucket为单位的COW式的分配，对与已经在SSD中的数据以及元数据，覆盖写时是写到新的空间中的，这样无效的旧数据就会在其所在的bucket内形成“空洞”，但是由于bcache空间回收的单位是bucket，因此需要一个异步的垃圾回收（GC）线程来实现对这些数据的标记与清理，并将含有较多无效数据的多个bucket压缩成一个bucket。

GC分为两个阶段：

1）元数据的GC：即B+树的GC，主要原理是遍历B+树，根据bkey信息标记出无效的缓存数据以及有效的缓存数据（包括脏缓存数据与干净的缓存数据），以及元数据。然后压缩清理元数据bucket。

2）缓存数据的GC：在bcache中被称为Move GC，主要原理是根据元数据GC阶段遍历B+树后生成的数据bucket的标记信息，找出含有较多无效数据的多个bucket，将其中的有效数据搬移到一个新分配的bucket中去，以便及时回收更多的bucket。

3.4 刷脏机制

使用bcache的writeback模式时，bcache会为缓存池中的每个HDD启动一个刷脏线程，负责将SSD中的脏数据刷到后端的HDD盘。

刷脏进程工作原理：

遍历B+树，找出指向本HDD上的脏数据块的所有bkey，按照bkey中包含的HDD上的LBA信息进行排序，这样根据排序后的bkey依次读出SSD上的数据块，写入HDD中，实现了顺序刷盘。

刷脏流控：

为了保证刷脏性能，同时尽量不影响业务IO的读写，bcache会根据脏数据的水位线来调节刷脏速率，具体是通过比例-微分控制器（PD-Controller）来实现的：当水位线越高，或者水位增高速度越快时，刷脏速度也越快。

四、在生产环境中使用bcache的挑战

bcache的内部实现比较复杂，代码复杂度也比flashcache/enhanceIO等要高出不少，而且已经合入内核主线，在高版本内核（4.8及以上）上还是比较稳定可靠的，但是在Ceph系统中为OSD加速，还有一些问题需要解决：

4.1 功能问题

SSD&HDD不支持热插拔
将HDD从缓存池中卸载时需要等待脏数据全部刷完，时间较长
当HDD损坏时，SSD中相应的脏数据无法清除，造成空间浪费
Thin-flash卷在系统重启后无法恢复

4.2 性能问题

当上层的大量随机写IO充满缓存空间后，须等待脏数据全部刷完才能继续为写IO提供缓存
GC线程运行时会造成业务IO的波动
bcache元数据缓存对内存消耗较大，当系统内存不足时会导致大量元数据无法缓存，需要从SSD上读取，影响性能

五、杉岩的具体实践

杉岩在使用bcache加速ceph OSD时，采取如上图所示的方式：

为每块SSD创建一个缓存池, 将相等数量的HDD attach到每个缓存池
从每个缓存池创建一个thin-flash卷将每个OSD的OMAP目录独立出来放入其中
Journal可以独立放到一个SSD, 也可以再从缓存池创建出若干thin-flash卷用于写Journal

杉岩数据通过大量测试及分析使得bcache在Ceph的生产环境上得以稳定运行，既最大限度地发挥了SSD的性能，同时，也提升了SSD的使用寿命，节省用户投资，为客户提供了更具性价比的混合存储方案。限于篇幅问题，这里仅仅列出了一些具体的解决思路，具体实现方法，可在微信后台留言与我们进行交流（我们会继续努力，争取尽快开通评论功能）。

海量对象存储MOS

统一存储平台USP

云原生文件存储CNFS

智能数据融合系统iDataFusion

智能数据管理系统iDataExplorer

多集群管理系统CMS

检测数据管理系统IDM

智能数据处理平台iDataCook

服务体系

产品公告

服务政策

公司简介

新闻中心

技术文章

联系我们

加入我们

《杉岩两语》企业级Ceph之路（二）：使用bcache为Ceph OSD加速的具体实践

我们重视您的隐私