英伟达“最强AI芯片”强在哪里？

2024-03-27 11:15 来源：中国电子报张心怡王信豪

黄仁勋展示Blackwell GPU（左）和Hopper GPU（右）

训练万亿参数级别的大模型，需要多大规模的算力？在3月19日凌晨进行的Nvidia GTC 2024主旨演讲中，英伟达创始人兼首席执行官黄仁勋在现场做了一道数学题。以OpenAI最先进的1.8万亿参数大模型为例，该模型需要几万亿的Token进行训练。万亿参数与数万亿的Token相乘，就是训练OpenAI最先进大模型所需的计算规模。黄仁勋现场估算的计算规模为3×1025，如果用一颗petaflop（每秒钟进行1000万亿次运算）量级的GPU进行运算，需要1000年的时间才能完成。

另外需要注意的是，在Transformer发明后，大模型的规模正在以惊人的速度扩展，平均每六个月就会翻倍，这意味着万亿级别参数并不是大模型的上限。

在这种趋势下，黄仁勋相信，生成式AI的迭代和发展，需要更大的GPU、更快的GPU互连技术、更强大的超级计算机内部连接技术，以及更庞大的超级计算机巨型系统。

本次GTC 2024发布的Blackwell GPU，被黄仁勋描述为“非常非常大的GPU”，在物理意义上，它确实是当前面积最大的GPU，由两颗Blackwell裸片拼接而成，采用台积电4nm工艺，拥有2080亿晶体管，AI性能达到20 petaflops。相比英伟达Hopper，Blackwell GPU的AI性能提升5倍，片上存储提升4倍。

除了更大的GPU，Blackwell架构还包含多项计算加速和安全防护技术。

Blackwell采用的第二代Transformer引擎，可以对AI运算的浮点数精度进行动态缩放，目前覆盖了FP6和FP4。在这两种精度下，Blackwell相较Hopper的算力分别实现了2.5倍和5倍的提升。

在大量GPU共同工作时，需要保证GPU之间的信息能够进行同步和共享，这就需要GPU之间的高速连接。为此，英伟达将NVLink技术更新至第五代，为每块GPU提供了1.8TB/s的双向吞吐量，以确保GPU之间的高速通信。

在大规模部署AI的过程中，由于组件众多，持续运行的能力变得至关重要。为保证运行周期能够延续更久，Blackwell架构包含了可靠性引擎RAS，该引擎通过AI对可靠性、安全性等相关问题进行预测和预先诊断，在稳固运行的同时进一步降低了运营成本。“这就像每个芯片都配备了高级测试仪一样。”黄仁勋比喻道。

同时，英伟达也在Blackwell架构中增加了机密计算功能来强化AI的安全性。在医疗、金融服务等高度重视数据隐私的行业中保护AI模型和客户数据。“我们现在有能力对数据进行加密，使它们在被计算时处在一个可信的引擎环境中。”黄仁勋表示。

考虑到在高速计算中数据的转移效率，Blackwell架构设置了解压缩引擎。据了解，该高线速压缩引擎将数据移入和移出计算机的速度提升了20倍，有效减少了计算机运算时的算力闲置。

基于以上技术，英伟达Blackwell相比前代产品Hopper，能以更少的芯片、更低的功耗完成对OpenAI 1.8万亿参数大模型的一次训练。据黄仁勋测算，如果用Hopper进行训练，需要约8000颗GPU，耗时约90天，产生约15兆瓦的功耗。而用Blackwell进行训练，仅需2000颗GPU，耗时同样约90天，产生约4兆瓦的功耗。

另一个值得关注的点是Blackwell架构的拓展性。从一颗GPU到超级芯片、系统，再到超级计算机——基于英伟达网络、全栈AI软件和存储技术，计算集群中的超级芯片数量可扩展至数万个。

与Hopper架构类似，Blackwell支持通过NVLink技术与CPU互连构建超级芯片。将两颗Blackwell GPU与一颗Grace CPU通过NVlink连接，就构成了GB200超级芯片。与英伟达H100 Tensor Core GPU相比，GB200在大语言模型推理工作负载方面的性能提升了约30倍。

若进一步拓展，36块GB200加速卡——包含72颗Blackwell GPU和36颗Grace CPU，将构成DGX GB200系统。

若将八个或以上DGX GB200通过英伟达Quantum InfiniBand 网络连接，就组成了DGX SuperPOD人工智能超级计算机（包含至少576块Blackwell GPU和288颗Grace CPU），在FP4精度下可提供11.5 exaflops（每秒进行1018次运算）的AI计算性能和240 TB的快速显存。

有意思的是，英伟达与OpenAI结缘，就始于第一代DGX人工智能超级计算机，黄仁勋表示，至今还记得将DGX-1拎在手里递给OpenAI团队的重量。

“2016年，我们发明了一种全新类型的计算机，并称之为DGX-1。我将第一台DGX-1亲手交给一家初创公司，它位于旧金山，名为OpenAI。”黄仁勋说道。彼时，DGX-1由八块GPU连接在一起，拥有170teraflops的算力。而今年2月，英伟达揭晓的基于DGX Super POD架构的AI超级计算机EOS，由10752块英伟达H100 GPU连接在一起，提供总共18.4 exaflops的FP8 AI效能。

除了基于GPU的架构迭代和集群拓展应对算力挑战，英伟达还在尝试从芯片制造环节入手，提升芯片制造效率并助力芯片微缩工艺的发展。黄仁勋在主旨演讲中表示，英伟达推出了计算光刻软件库cuLitho，为了更好地制造芯片，需要将光刻技术推向极限，台积电已经宣布将cuLitho投入生产。据悉，EDA厂商新思科技正在将cuLitho集成到软件、制造工艺和系统中，台积电也将cuLitho投入到生产中，以推动半导体微缩工艺的发展。记者了解到，cuLitho计算光刻平台能够帮助设备和制造厂商调整、优化光刻过程中的参数，以实现更高的制造精度。Synopsys总裁兼首席执行官Sassine Ghazi表示，与台积电、英伟达围绕计算光刻的合作，对于实现埃米级微缩至关重要。