NVIDIA与Amazon合作，以GH200 NVL32打造Project Ceiba超级计算机

darthracer · 2024-1-1 12:25

NVIDIA与Amazon在多项大型语言模型、推荐系统等AI应用有着密切合作。GH200 NVL32在单一机柜内集成32组GH200，AI运算性能高达128PFLOPS，具有4.5TB HBM3e高带宽内存与20TB总内存。Project Ceiba超级计算机由16,384组GH200组成，总内存容量高达9.8PB，并具有65EFLOPS的AI运算性能。Amazon也将推出基于H200、L40S、L4等GPU的P5e、G6e、G6等执行实例。NeMo Retriever有助于企业加速生成式AI模型的构建、定制化和部署。举例来说，企业可以快速为大型语言模型“插件”数据库，提高回应的准确度。Isaac Sim机器人开发平台和L40S GPU能加速机器人开发、模拟与训练。Alchemab Therapeutics、Basecamp Research、Character Biosciences、Evozyne、Etcembly和LabGenius等生物科技创业公司已经使用AWS，并借由BioNeMo以生成式AI加速药物开发。此次合作提供更多快速扩展云计算计算资源的方暗，以便开发基于生物分子数据训练的生成AI模型。

NVIDIA在Amazon AWS re:Invent大会宣布GH200 NVL32 GPU与Project Ceiba超级计算机，并与Amazon共同推出多款执行实例与云计算服务。

NVIDIA将这次发布的GH200 NVL32针对生成式AI等应用设计，并定位为机柜尺寸的GPU。它在单一机柜内集成32组GH200Grace Hopper Super Chip，并通过NVLink和NVSwitch技术互联，组成具有4.5TB HBM3e高带宽内存，以及20TB内存总量的大型运算节点，并采用水冷散热方案。

AWS（Amazon Web Services）将成为首间将全新多节点GH200导入云计算的云计算服务供应商，可将32组GH200组成单一Amazon Elastic Compute Cloud（Amazon EC2）执行实例，并推出采用GH200 NVL32的DGX Cloud人工智能训练即服务（Training as a Service，TaaS），让开发者可以在单一执行实例中使用容易极大的共享内存，加速训练生成式人工智能和超过1兆组参数的大型语言模型（LLM）。

对于需要更高的用户，还可进一步由AWS Nitro System高端虚拟化和Amazon EC2 UltraClusters超大规模集群等技术将运算能量进而扩展至上千组GH200，满足不同量级的使用需求。

NVIDIA与Amazon也合作推动Project Ceiba超级计算机计划，它将配备16,384组GH200，并由Amazon EFA技术互联，提供高达65EFLOPS的AI运算性能，将成为全球最快、基于GPU的AI超级计算机。

在其它服务部分，Amazon也将推出基于H200的P5e执行实例，适用于大规模和尖端的生成式AI和HPC（高性能计算）等工作负载，以及基于L40S的G6e执行实例与基于L4的G6执行实例，适用于AI模型微调、推论以及多媒体创作等应用。其中G6e执行实例特别适合搭配NVIDIA Omniverse进行3D开发、数字孪生等应用。

NVIDIA也发布了多款软件与服务，其中NeMo Retriever能用于构建、定制化和部署生成式AI模型，能够借由NVIDIA优化的算法让生成式AI应用程序提供更准确的回应，协助开发人员可以创建定制化的生成式AI聊天机器人、Copilot助理和摘要工具，让这些AI应用程序访问企业数据库，并准确通过生成式AI的智慧提高生产力。

AWS也即将提供Isaac Sim机器人开发平台和L40S GPU，将强大的AI运算与多媒体加速相结合，可在Omniverse带来高于前代产品3.8倍的性能提升，加速工程和机器人团队的工作流程。

此外用于药物研发生成式AI平台BioNeMo也将登陆AWS，让医疗研发人员能在云计算灵活集成多种NVIDIA加速运算单元，加速云计算服务器扩大模型训练和部署规模。

NVIDIA创办人暨首席执行官黄仁勋表示，生成式AI正在改变云计算工作负载，并将加速运算作为多样化内容生成的基础。在向每位客户提供经济高效、最先进生成式AI慧的共同使命驱动下，NVIDIA和AWS将在AI基础设施、加速函数库、基础模型和生成式AI等完整运算堆栈持续。

NVIDIA与Amazon合作，以GH200 NVL32打造Project Ceiba超级计算机

浏览过的版块