通信世界网消息(CWW)数据可靠性是存储系统的关键要素,对于企业而言,数据的丢失或出错可能导致决策错误等严重后果,因此保障数据存储的可靠性至关重要。在现代数据中心和高性能计算环境中,存储系统不仅需要处理海量的数据,还必须确保数据的完整性和准确性。
在当前的技术背景下,企业级SSD已经成为高性能数据存储的主要选择。SSD的核心存储介质为3D NAND。相较于早期应用的2D NAND,3D NAND拥有更高的存储容量和更低的成本。然而,3D NAND面临的一个重大挑战是其原始比特出错率(RBER, Raw Bit Error Rate)较高。RBER的提升意味着在传输和存储过程中,数据出错的概率增加,这对数据的可靠性构成了威胁。
为了解决这一问题,企业级SSD控制器均采用了LDPC(Low Density Parity Check Code)算法。它不仅在数据纠错性能上优于传统的纠错编码技术,例如汉明码(Hamming Code)和Reed-Solomon码(RS码),而且其逼近香农极限的能力使得它能在给定的带宽和信噪比条件下,传输更多的有效数据。
LDPC算法的核心在于其校验矩阵H的构造。这也是考验控制器设计能力的关键所在。
校验矩阵H是具有稀疏性的,即大多数元素为零,这种特性使得LDPC编码在保持高效率的同时,又能提供强大的纠错能力。具体来说,LDPC算法通过大量的迭代运算,逐步校正数据中的错误,极大地提高了数据传输和存储的可靠性。但是LDPC的计算复杂度较高,对硬件实现带来了较高的挑战。
2023年11月,平头哥发布了旗下首颗企业级SSD主控芯片——镇岳510,在这颗芯片中,技术团队通过对 H矩阵的构造方法进行全新设计,不仅显著减少硬件资源和功耗的开销,还极大地提高了纠错能力。
首先,镇岳510的H矩阵设计使得每行相邻QC块之间的偏移量之差相同,对硬件实现非常友好,有效地减少了硬件开销。
SSD上的码属于长码(4KB+),为了节省硬件资源,业界普遍采用QC(quasi-cyclic)-LDPC码,这样矩阵和向量的乘法可以转换为循环移位,效率很高。但H矩阵的每一行的偏移量一般没有规律,这样硬件需要支持不同的移位配置,消耗了一定资源。
镇岳510的校验矩阵H具有对硬件非常友好的结构:H的基矩阵H0的行可以分成若干组,每组之间两个QC块的偏移量之差是一个定值,这样在译码时只会进行固定偏移量的移位,相比于纯随机构造的矩阵,关键路径上可以节省掉桶形移位器,时序压力减轻从而提升了时钟频率;同时,固定偏移量的设计可以减少矩阵本身的存储资源,也一定程度上降低了芯片资源消耗。
图 1 H0的hardware-friendly结构示意
其次,镇岳510在生成H时,会结合EMD(Extrinsic Message Degree)信息来进行选边,同时在H生成后配合Trapping Set的反向搜索,提高校验矩阵的信息传递效率,有效地保证了纠错能力。
具体来说,业界中一种主流的构造H的方法是基于PEG(Progressive Edge Growth)-ACE(Approximate Cycle EMD)的构造方法。其中PEG的思想是每连接一个变量节点和校验节点时,尽可能使连接后的环长较小,这是一种贪婪搜索算法;ACE的思想基于EMD,EMD可以有效衡量一个环和外界传递信息的畅通程度,ACE是EMD的一种逼近。但是在基于PEG的构造过程中,使用广度优先搜索,EMD很难向下传递(必须逐条路径搜索),使用ACE则可以利用维特比算法高效地向下层传递所有环中最小的ACE值,因此PEG-ACE是一个效率较高的算法,其中PEG侧重环长的控制,ACE侧重环的连通度。
相比于上述算法,镇岳510在构造H时额外做了一些独特设计,当出现环长和ACE相同时,我们会参考经过该变量节点和校验节点的环的个数,同时向上反查所有环的最小EMD(见图 2),将这些信息作为选择校验节点的依据。虽然反查EMD需要指数级的运算量,但由于不是每个节点都会触发反查,因此整体搜索时间仍在可接受范围内,这样做避免了ACE和EMD差异(见图3)导致的搜索结果劣化。
同时在H矩阵搜索完成时,我们还会针对该H矩阵进行Trapping Set的搜索,如果发现了较多的Trapping Set则会重新构造H。
这样,镇岳510最终采用的校验矩阵H是一个信息传递效率很高的校验矩阵。
图 2 改进的PEG-ACE搜索示意
图 3 ACE和EMD差异示意
综上,通过LDPC校验矩阵H的构造的全新设计,镇岳510的LDPC算法模块需要的资源和功耗均得到大幅下降,并同时保持高纠错性能,配合盘内RAID,使得镇岳510的UBER(Uncorrectable Bit Error Rate) 指标可以达到10-18,相当于百亿亿笔数据才可能有一笔数据出错。这一数字相对业内标杆提高了整整一个数量级,更好的保障了企业级SSD的数据可靠性需求。
当然,这个特性只是镇岳510众多技术亮点中的一个代表,后续我们将持续展开阐释,敬请期待。
平头哥希望通过在企业级SSD技术上的深耕和创新,持续为客户和合作伙伴提供坚实的数据存储保障。