基于Transformer神经网络的大模型(BERT、GPT等)的广泛应用,让机器具备了更接近人类的理解和表达能力,体现了人工智能在提高生产力上的巨大潜力。注意力机制在Transformer的计算能耗和延迟中起重要作用,针对注意力机制设计高能效和高速的加速器具有较高的研究意义。但现有注意力加速器的硬件架构中存在两个主要局限性,首先,常用的输入固定、权重固定以及输出固定的脉动阵列架构无法在数据复用、寄存器使用和利用率之间取得平衡;其次,逐层计算的操作顺序导致中间结果的 SRAM 访问开销过高。这些局限阻碍了加速器能效和速度进一步提升。
为应对上述挑战,中国科学院微电子研究所集成电路制造技术全国重点实验室科研团队设计了一种高能效、高利用率注意力加速器硬件架构。该架构采用内外积混合的 “平衡脉动阵列”(Balanced Systolic Array)结构。团队基于数据复用理论公式指导,确定最佳的内外积混合阵列形状,其能效相比传统脉动阵列提升了40%,利用率达99.5%。在操作流程上,团队提出了“多行交织”(Multi-Row Interleaved)的操作顺序,使 SRAM 能耗降低了 31.7%。基于上述两种技术,团队设计的注意力加速器在能效方面提升了39%,在吞吐量×能效方面较现有工作提升了38%。
此项研究成果以“An Energy-Efficient High-Utilization Hardware Architecture for Attention Mechanism in Transformer using Balanced Systolic Array and Multi-Row Interleaved Operation Ordering”为题在第62届国际设计自动化会议(DAC)上进行了口头报告。硕士研究生周海洋为第一作者,呼红阳助理研究员为通讯作者。
该工作获得了国家自然科学基金青年基金项目和基础科学中心项目的资助。
、
图1. 传统注意力加速器的局限性
图2. 提出的平衡脉动阵列结构
综合信息