提升SSD性能:4μs超低时延背后的创新实践

责任编辑:王鹤迦 2025.08.27 14:16 来源:平头哥公众号

通信世界网消息(CWW)时延,简单来说,就是从发出请求到收到响应所需的时间。时延是评估存储性能的重要指标,它直接影响到系统的响应时间、用户体验和整体工作效率。

例如,在数据库应用中,低时延意味着更快的查询响应,迅速得到检索结果;在金融领域,尤其在高频交易和实时数据分析方面,低时延能提供更快的数据处理能力,帮助投资者提升收益;在游戏领域,低时延不仅带来了更短的游戏加载时间,也使得角色的操作更加流畅,提升了玩家的沉浸感和互动体验。因此,存储时延指标的关键性不言而喻,低时延一直是业界追求的重要方向。

图片

以4KB IO Write命令举例,其数据从主机写入SSD存储设备,需要在Host、SSD Controller、DDR和Nand颗粒中进行多次交互,带来处理时延的累加。

其交互接口如下:

图片

处理步骤如下:

(1)命令准备:Host将写数据写入主机内存,并将写命令根据NVMe格式写入相应的提交队列SQ后,最后更新Doorbell门铃寄存器来通知SSD;(2)命令获取:SSD Controller感知到Doorbell变化,对提交队列进行调度后,向Host发起命令读取;(3)命令解析:SSD Controller获取到SQE(Submission Queue Entry)后,解析命令类型和数据长度;(4)地址解析:对SQE中的PRP或SGL信息,解析计算得到写数据在主机内存的地址;(5)数据获取:SSD向Host发起数据DMA读请求,在获得数据后进行合法性校验后存入内部Buffer或DDR中;(6)FTL改表:修改该笔写命令LBA对应的FTL(Flash Translation Layer)表项内容;(7)地址分配:根据当前的数据收集情况,为该笔数据分配在Nand颗粒中的物理地址;(8)数据运算:为提升数据可靠性,需要根据NAND特性对数据添加CRC,并进行加扰、ECC (Error Correcting Code)编码;(9)Nand编程:SSD Controller向Nand下发编程toggle序列;(10)状态获取:SSD Controller向Nand查询编程完成状态;(11)状态返回:在查询到编程正确完成后,向Host返回命令完成的CQE(Completion Queue Entry)及中断提示。

即使不考虑SSD Controller内部的Hardware和Firmware的多次配合操作引起的时延,其和外部组件便已需要如下交互:Host:6次PCIe接口的命令或数据传递;DDR:1次写入,1次读取;Nand:1次写入,1次状态查询和1次状态返回。

TLC Nand的典型编程时间为500μs,PCIE一次交互需要100ns~600ns,而在时延统计时,所有这些步骤均不能进pipeline操作,只能进行串行处理,所以完成全流程操作的时延在500μs以上。部署在存储系统上的各种应用,显然无法接受如此大的时延,因此需要SSD主控厂家进行优化。常规的优化方法是将CQE(完成队列条目)构造返回时间提前到在FTL改表或物理地址分配,从而节省Nand编程的等待时间,使得4K IO Write时延降低到10μs以下。

为了进一步降低时延,平头哥技术团队在软硬件分工设计、异常处理设计等方面开展一系列优化打磨,取得显著效果。具体设计方法和创新理念如下:

全面硬化以减少Firmware处理延迟

为了实现灵活性和预留协议升级,大部分存储主控厂家会采用以Firmware为主导、Hardware负责加速的策略来处理命令获取、命令解析、地址解析、数据获取、状态返回等步骤,但Firmware是串行处理的,且软硬件交互会带来额外开销。

平头哥技术团队将这些步骤全部调整交由Hardware实现,不再需要Firmware参与,但在各环节检测到异常时,依旧交由Firmware来处理,如此既有效的减少了正常场景下的软硬件交互开销,又保留了异常场景下的处理灵活性。

完备的异常处理流程确保数据100%成功写入Nand

配合CQE提前返回Host的设计理念,平头哥技术团队进一步优化异常处理流程,确保在Nand编程失败、异常下电、热插拔等各种极端场景下,均能将已接收到的数据绝对正确的写入到Nand颗粒中,有效避免出现数据丢失。

最终,镇岳510通过上述技术方案优化,实现了4us的超低4K IO Write时延,已基本接近6次PCIe链路交互的延迟,比当前业界主流SSD主控降低了30%以上。2024年9月3日,国内知名企业级PCIe SSD产品和解决方案供应商---北京忆恒创源科技股份有限公司,发布了基于平头哥镇岳510的全国产PCIe5.0企业级NVMe SSD PBlzae7 7A40系列。PBlaze7 7A40 是业界应用 3D TLC NAND的SSD产品中,首个实现稳态下 4K 随机写超过100万 IOPS 的产品,也是首个将 4K 随机写延迟压缩至5μs以内的产品 ,为国产高性能SSD产品树立了新的标杆。近日专业的第三方测评机构--PCEVA测评室发布了对该款产品的全方位专业测试数据,在QD=1的情况下,4K随机读取/写入延迟分别为55μs和5μs。

图片

作为数据的载体,SSD的时延性能直接关乎着业务的体验。平头哥通过镇岳510在时延方面的极致表现,与合作伙伴共同为各类业务创新带来新的存储解决方案,打造智能化时代最好的存储底座。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容