台积电4纳米打造英伟达Blackwell架构GPU，构建迄今最强GB200

darthracer · 2024-4-23 23:52

Blackwell架构GPU的体积庞大，其采用台积电的4纳米（4NP）制程技术打造而成，并集成两个独立制造的裸晶（Die），共有2,080亿个晶体管，然后通过NVLink 5.0界面像拉链一样捆绑住芯片。英伟达使用10 TB/sec NVLink 5.0连接两块裸晶，官方称该界面为NV-HBI。而Blackwell complex的NVLink 5.0界面可提供1.8 TB/秒的带宽，是前一代Hopper架构GPU上NVLink 4.0界面速度的两倍。黄仁勋进一步指出，英伟达最新推出的GB200 AI芯片，其中包含了两个Blackwell GPU和一个采用Arm架构的Grace CPU。推理模型性能比H100提升30倍，成本和能耗降至25分之一。

GPU大厂英伟达在美国加州圣荷西召开的GTC 2024中，正式发布了号称迄今最强AI芯片GB200，并计划于2024年晚些正式出货。由于GB200采用新一代Blackwell架构GPU，英伟达创办人暨首席执行官黄仁勋对此表示，两年前推出的Hopper架构GPU虽然已经非常出色了，但我们需要更强大的GPU。

黄仁勋表示，英伟达目前按照每隔2年的更新频率，升级一次GPU架构，进一步大幅提升AI芯片的性能。英伟达于2022年发布了采用Hopper架构的H100 AI芯片之后，开始引领了全球AI市场的风潮。而如今再推出采用Blackwell架构的AI芯片性能将更加强大，更擅长处理AI相关的任务。而Blackwell架构则是以数学家David Harold Blackwell的名字命名。

黄仁勋表示，Blackwell架构GPU的AI运算性能在FP8及NEW FP6上都可达20 petaflops，是前一代Hopper架构运算性能8 petaflops的2.5倍。在NEW FP4上更可达到40 petaflops，是前一代Hopper架构GPU运算性能8 petaflops的5倍。而取决于各种Blackwell架构GPU设备的内存容量和带宽配置，工作运算执行力的实际性能可能会更高。黄仁勋强调，而有了这些额外的处理能力，将使人工智能企业能够训练更大、更复杂的模型。

英伟达还针对有大型需求的企业提供服务器成品，提供完整的服务器出货，例如GB200 NVL72服务器，提供了36个CPU和72个Blackwell架构GPU，并完善提供一体水冷散热方案，可实现总计720 petaflops的AI训练性能或1,440 petaflops的推理性能。它内部使用电缆长度累积接近2英里，共有5,000条独立电缆。

而目前，亚马逊的AWS已计划采购由2万片GB200芯片组建的服务器集群，可以部署27兆个参数的模型。另外，除了亚马逊的AWS之外，DELL、 Alphabet、Meta、微软、OpenAI、Oracle和TESLA成为Blackwell系列的采用者之一

台积电4纳米打造英伟达Blackwell架构GPU，构建迄今最强GB200

浏览过的版块