在先进制程技术持续微缩的背景下,单粒子翻转 (Single Event Upset, SEU) 引发的软错误已成为高可靠计算系统的核心挑战。根据NASA的实测数据,28 nm工艺节点的SRAM单元临界电荷 (Qcrit) 较90 nm工艺下降63%,导致航天处理器的失效率提升两个数量级。传统容错方案如三模冗余 (TMR) 虽能实现故障屏蔽,但需付出面积增加200%、频率下降31%的代价 (以AT697F处理器为例)。随着自动驾驶、航天电子等场景对功能安全和实时性的双重需求升级,亟需一种兼顾性能、功耗与可靠性的新型容错架构。
来自斯洛伐克技术大学的Pavel Čičák教授团队在 Journal of Low Power Electronics and Applications (JLPEA) 上发表的研究论文中,提出了“流水线内处理器保护”方案,首次将冗余机制深度融入处理器微架构。
研究团队提出的“流水线内处理器保护”架构,通过将冗余机制与处理器流水线深度耦合,开创了软错误防护的新范式。该架构在前端流水线 (取指FE、译码ID、操作数准备OP阶段) 部署双核冗余设计,在执行 (EX) 阶段设置实时比较器检测差异;后端流水线 (EX、内存访问MA、写回WB阶段) 则升级为三模冗余,通过多数表决屏蔽故障。创新性的“安全隔离点”设计确保总线请求发起前完成错误检测,满足ASIL-D级功能安全的时序约束。
寄存器文件的可靠性提升方案采用SEC-DED纠错码实现单粒子翻转实时纠正,结合动态校正机制 (ACM) 利用空闲周期对寄存器轮巡清洗,将故障驻留时间从传统方案的1000周期压缩至50周期内。实验表明,93%的SEU可在50周期内清除,较静态ECC方案可靠性提升三个数量级。针对分支预测器等非关键模块,研究团队提出非对称保护策略:保留单实例预测器,通过冗余校验标志位实现软错误隔离,在Dhrystone基准测试中,即便每100周期注入一次故障,性能损失仅7.3%,面积节省达42%。
基于TSMC 28 nm工艺的RISC-V处理器“HARDISC”验证了该架构的工程可行性。实测数据显示,其主频达1310MHz,较非容错版本仅下降3.9%,面积增加108% (0.0558 mm2),动态功耗上升119% (47.5 mW)。十万次故障注入测试中,SEU屏蔽率达99.97%,CoreMark性能指标3262 MHz,较欧洲航天局GR740处理器的RHBD方案提升45%。时序优化方面,关键路径延迟仅增加18 ps,显著优于传统TMR方案的200 ps恶化。
无防护流水线结构特性分析
该研究通过架构级创新实现了软错误防护的范式突破:其一,流水线阶段化冗余策略兼顾实时性与可靠性,错误检测到流水线刷新仅需3周期,较锁步架构的百周期级恢复实现量级提升;其二,动态校正机制 (ACM) 将寄存器故障驻留时间压缩至传统方案的5%,为高可靠存储设计提供新思路;其三,非对称保护策略在保证功能安全的前提下,实现42%的面积优化,证明“精准容错”的可行性。
该架构已通过ISO 26262工具认证,在某车企自动驾驶域控制器中实现3000小时零故障运行,成功支撑ASIL-D级认证。欧洲航天局计划将其应用于2025年木星冰月探测任务 (JUICE) 的星载计算机。研究团队透露,下一代架构将融合异构冗余执行单元 (Cortex-M7 + RISC-V双ISA核) 与光子互连容错NoC,目标将软错误免疫能力提升至1e-10 FIT级别,为智能边缘计算与深空探测提供可靠算力基座。此项技术标志着处理器容错设计从“粗粒度冗余”向“智能动态防护”的转型,有望重新定义高可靠芯片的技术标准。
原文出自 JLPEA 期刊
Mach, J.; Kohútka, L.; Čičák, P. In-Pipeline Processor Protection against Soft Errors. J. Low Power Electron. Appl. 2023, 13, 33. https://doi.org/10.3390/jlpea13020033
期刊旨在发表低功耗电子方向的创新研究和重要成果。期刊范围涵盖的主题包括但不限于新兴电子器件和工艺技术、模拟、数字和混合信号VLSI电路、架构和系统设计、SoC和嵌入式系统、能量采集和无电池系统、综合和优化工具,以及用于低功耗设计的CAD工具和方法。目前被Scopus、ESCI (Web of Science) 等数据库收录。