黄仁勋GTC演讲全文:推理时代已经到来,2027年收入至少1万亿美元,龙虾将成为新操作系统

2026 年 3 月 16 日,NVIDIA GTC 2026 大会在 NVIDIA 创始人兼首席执行官黄仁勋的主题演讲中正式拉开帷幕。在这场被誉为“AI行业年度朝圣”的大会上,黄仁勋详细介绍了NVIDIA从“芯片公司”向“AI工厂和基础设施公司”的转型。面对市场最担忧的业绩可持续性和增长幅度问题,黄仁勋先生对“代币工厂经济学”进行了详细分析,这是驱动未来增长的底层商业逻辑。该公司的前景极其乐观,预计“到 2027 年,需求将至少达到 1 万亿美元”。过去两年,全球对人工智能计算的需求猛增。随着大规模模型从识别和生成发展到推理和行动(任务执行),计算功耗呈指数级增长。黄仁勋对订单限额和利润表达了非常强烈的期望,这让着实让市场担忧。黄仁勋在演讲中坦言:“去年的这个时候,我告诉布莱克韦尔和鲁宾,我们有一个5000亿美元的高信心需求,涵盖到2026年。而现在,此时此刻,我认为到2027年我们至少需要1万亿美元。黄仁勋的1万亿美元预测一度让英伟达股价上涨了4.3%以上”。不仅如此,他还在号码上加上了一句:“这样合理吗?”这就是我接下来要讲的内容。事实上,它甚至可能丢失。我确信实际的计算要求比这高得多。黄仁勋指出,当前的 NVIDIA 系统已被证明是世界上“成本最低的基础设施”。由于 NVIDIA 几乎可以在任何领域运行 AI 模型,这种多功能性使我们的客户能够从 1 万亿美元的投资中获得最大收益,并保持较长的生命周期。实际情况,NVIDIA 提供 60% 的商业服务,并提供 40% 的服务roviene de enlaces soberanos.Ampliamente distribuido en varios dominios, como la nube, empresarial, Industrial, robótica y computación de vanguardia.在代币工厂经济中,每瓦性能决定了企业的命脉。为了解释这1万亿需求的合理性,黄仁勋向全球企业的CEO们介绍了新的商业思维。他指出,未来的数据中心将不再是存储文件的仓库,而是生产代币(生成人工智能的基本单元)的“工厂”。黄仁勋强调:每个数据中心、每个工厂,顾名思义,都是受到电力限制的。一个1GW(吉瓦)的工厂永远不会变成2GW,这是物理和原子定律。在固定功率的情况下,谁的每瓦象征性输出最高,谁的生产成本就最低。黄仁勋将未来的人工智能服务分为四个业务层: 免费层(高性能,速度慢) 中层(每百万代币约 3 美元) 高级层(约 6 美元)每百万代币) 快速层(每百万代币约 45 美元) 超快速层(每百万代币约 150 美元)指出它会更先进。它很聪明,但它降低了代币生成率。黄仁勋表示,“有了这个代币工厂,代币生成的性能和速度将直接转化为明年的精准收入。”黄仁勋强调,NVIDIA 的架构可以让客户在免费套餐中实现非常高的性能,同时在最高价值推理水平上提供惊人的 35 倍性能提升。 Vera Rubin 在两年内实现了 350 倍的加速,Groq 缩小了极快推理的差距。受限于这种物理限制,NVIDIA 推出了史上最复杂的 AI 计算系统 Vera Rubin。黄仁勋说:“以前提到Hopper的时候,我是拿着一个小费的,太可爱了。但是当谈到Vera Rubin时,大家都会把系统作为一个整体来思考。通过彻底消除传统的c可以看出,与前两天相比,这种 100% 水冷系统现在只需两个小时即可安装机架。黄仁勋指出,通过最新的端到端软硬件协同设计,Vera Rubin在同一个1GW数据中心内实现了令人难以置信的数据突破,在短短两年内,我们将代币生成率从2200万个增加到700个mi.llones,增长了350倍。摩尔定律仅允许在同一时间段内实现约 1.5 倍的改进。为了解决极高推理速度(例如 1000 个令牌/秒)时的带宽瓶颈,NVIDIA 通过集成所收购的公司 Groq 提供了最终的解决方案:非对称分离推理。黄仁勋解释道:这两种处理器具有完全不同的特性。 Groq 芯片有 500 MB 的 SRAM,而 Rubin 芯片有 288 GB 的内存。黄仁勋指出,通过Dynamo软件系统,Nvidia将密集计算和显存“预载”交给了公司。“ing”阶段给Vera Rubin,对延迟敏感的“解码”阶段给Groq。黄仁勋先生还建议了企业计算能力的配置。如果主要做高性能工作,则100%使用Vera Rubin。如果编程层面对高价值代币有大量性别需求,则给Groq 25%的数据中心规模。据报道,三星的Groq LP30芯片已经量产,预计第三季度出货,此外,在光互连技术方面,黄仁勋先生通过演示全球首款量产的并发封装光(CPO)交换机,Spectrum Agent终结了传统SaaS,“年薪加代币”成为硅谷常态。他)。将 OpenClaw 开源项目描述为“人类历史上最受欢迎的开源项目”,并表示其开发只花了几周时间。这比 Linux 在过去 30 年中取得的成就还要多。黄仁勋直言,OpenClaw本质上是一个代理计算机的“操作系统”。黄仁勋认为:“每一个SaaS(软件即服务)公司都会成为AaaS(Agent as a Service,智能即服务)公司。”毫无疑问,为了帮助安全部署此类能够访问敏感数据和执行代码的智能代理,NVIDIA 发布了企业级 NeMo Claw 参考设计,并添加了策略引擎和隐私路由器。对于日常工作者来说,这种变化指日可待。基于此,我们将提供大约一半的数量作为代币分配,使我们能够实现 10 倍的效率提升。这已经是硅谷新一轮招聘谈判中的筹码。我有多少代币恩克鲁耶拉奥弗塔?演讲最后,黄仁勋还表示,他“毁了”下一代费曼计算架构,该架构将第一个实现铜和CPO联合横向扩展。更富有想象力的是,NVIDIA正在开发Vera Rubin Space-1,这是一款基于太空的数据中心计算机,充分利用AI计算能力延伸到地球之外的想象空间。黄仁勋在GTC 2026Peach的全文翻译如下(借助AI工具): 主持人:欢迎上台,我是黄仁勋,Nvidia创始人兼首席执行官。创始人兼首席执行官黄仁勋:欢迎来到 GTC。我想提醒大家,这是一个技术会议。我很高兴看到这么多人一大早就排队来迎接你。 GTC将重点关注三个主题:技术、平台和生态系统。目前,NVIDIA拥有三个主要平台:CUDA-X平台、System平台以及最新的AI Factory平台。之前在我们正式开始之前,我要感谢热身环节的主持人:Conviction 的 SarahGuo、红杉资本的 Alfred Lin(NVIDIA 第一位风险投资家)以及 NVIDIA 第一位主要机构投资者 Gavin Baker。这三个人在整个技术生态系统中拥有深厚的技术视野和广泛的影响力。当然,我还要感谢今天我亲自邀请的所有嘉宾。感谢这支全明星团队。我还要感谢今天在座的所有公司。 NVIDIA是一家拥有技术、单一平台和丰富生态系统的平台公司。今天介绍的公司几乎代表了价值 100 万亿美元的行业中的所有参与者。共有450多家企业赞助了本次活动。我们谨表达最深切的谢意。大会共举办1000场技术论坛、2000名演讲嘉宾,涵盖人工智能“五层蛋糕”架构的各个层面,从地面等基础设施、电力和计算实验室到芯片、平台和模型。最终推动整个行业发展的各种应用。 CUDA:这是20年技术积累的原点,位于今年是CUDA诞生20周年。我们已经研究和开发这个架构20年了。 CUDA 是一项革命性的发明。 SIMT(单指令多线程)技术允许开发人员以标量代码编写程序并将其扩展到多线程应用程序。编程难度远低于以前的SIMD架构。还添加了我们最近推出的 Tiles 功能,以帮助开发人员更方便地对 Tensor Core 和当今人工智能所基于的各种数学运算结构进行编程。如今,CUDA 在开源社区拥有数千种工具、编译器、框架和库,数十万个公共项目,并深度集成在到每个技术生态系统。这张图100%揭示了NVIDIA的战略逻辑。我从一开始就一直在谈论这张幻灯片。最难实现的核心要素是图表底部的“装机容量”。过去 20 年来,我们在全球积累了数亿个运行 GPU 和 CUDA 的计算机系统。我们的GPU覆盖所有云平台,服务几乎所有计算机制造商和行业。 CUDA的巨大装机量是这一趋势持续加速的根本原因。安装量随着吸引开发者而增长,开发者创建新算法并取得突破,突破创造新市场,新市场形成新生态系统并吸引更多公司加入。这个方向盘继续加速。 NVIDIA 库的下载量正在以令人难以置信的速度增长,并且规模还在持续增加。这个飞轮使我们的计算平台能够支持大规模应用程序和一系列新进展。更重要的是,这些基础设施的使用寿命将更长。 The reason is obvious.可以使用 NVIDIA CUDA 运行的应用程序极其丰富,涵盖了 AI 生命周期的各个阶段、不同的数据处理平台和不同的科学原理求解器。因此,一旦安装,NVIDIA GPU 就非常有用。这就是六年前推出的 paAmpre 架构 GPU 云定价不断上涨的原因。这一切的根本原因在于巨大的装机量、强大的方向盘和广泛的开发者生态。随着这些因素的结合以及我们不断更新我们的软件,计算成本不断下降。加速计算可以显着提高应用程序性能,但通过随着时间的推移维护和迭代软件,用户不仅可以享受最初的性能提升,还可以不断降低计算成本。凭借完全的架构兼容性,我们已准备好推出为全球所有 GPU 提供长期支持。我们积极这样做是因为我们的安装基础非常庞大。每次我们发布新的优化,都会吸引数百万用户。这种动态组合使 NVIDIA 架构能够继续扩展其产品范围,加速您自身的发展,同时不断降低 IT 成本并最终刺激新的增长。 CUDA 是一切的中心。从 GeForce 到 CUDA:25 年的演变 我们的 CUDA 之旅实际上开始于 25 年前。 GeForce – 我相信在座的许多人都是伴随着 GeForce 长大的。 GeForce 是 NVIDIA 最成功的营销项目。当未来的客户买不起我们的产品时,我们就开始开发他们。您的父母是您的第一批 NVIDIA 用户,每年都会购买我们的产品,直到您成为一名才华横溢的计算机科学家以及真正的客户和开发人员。这是 GeForce 25 年前建立的基础。 25 年前,我们创建了可编程着色器(加速器),发明了 pixel 着色器,世界上第一个可编程加速器。五年后,我们创建了 CUDA,这是我们迄今为止最大的投资之一。当时,公司财力有限,但我们把大部分利润押在了这上面,并专注于将 CUDA 从 GeForce 扩展到所有计算机。尽管最初遇到困难,该公司13代人、整整20年都坚守着这一信念,如今CUDA已无处不在。像素着色器推动了 GeForce 革命。然后,大约八年前,我们推出了 RTX,它完全重新定义了现代计算机图形的架构。 GeForce 将 CUDA 带到了世界。这使得包括 Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton 和 Andrew Ng 在内的许多学者发现 GPU 可以成为加速深度学习的强大工具,从而在十年前引发了人工智能的爆炸式增长。十年前,我们决定将可编程着色与两个新想法相结合。这就是硬件光线追踪,这是愤世嫉俗地非常困难。这在当时是一个超前的想法。大约十年前,我们预测人工智能将彻底改变计算机图形学。正如 GeForce 将 AI 带给世界一样,AI 现在也将改变计算机图形的整个实现方式。今天我想向你们展示未来。这就是我们的下一代图形技术,称为神经渲染,是 3D 图形和人工智能的深度融合。这是 DLSS 5。检查一下。神经表示:结构化数据和生成式人工智能的结合是不是令人印象深刻?计算机图形学已经变得栩栩如生。我们做了什么?我们将可控 3D 图形(虚拟世界的真正基础)与其结构化数据相结合,生成人工智能并结合概率计算。一种是完全确定性的,另一种是概率性的,但非常真实。我们将这两个概念合二为一,让您能够精确控制结构化数据,同时这就是我们实时生成它们的方式。结果令人难以置信美丽且完全可控的内容。结构化信息和A世代这种I-Integration的概念将继续在各个行业中重复出现。结构化数据是值得信赖的人工智能的基础。结构化和非结构化数据加速平台。我想在这里展示一个技术架构图。结构化数据:除了众所周知的SQL、Spark、Pandas和Velox之外,Snowflake、Databricks、Amazon EMR、Azure Fabric和Google BigQuery等主要平台都可以处理数据帧。这些数据框架就像巨大的电子表格,包含商业世界中的所有信息,并作为企业计算的基础。人工智能时代,需要让人工智能利用结构化数据达到极高的速度。过去,更快的结构化数据处理旨在使您的业务运行更高效。未来,人工智能将比人类更快地使用这些数据结构,人工智能代理也将使数字对结构化数据库的强烈调用。说到非结构化数据,矢量数据库、PDF、视频、音频等构成了全球大部分数据格式,每年产生的数据大约有90%是非结构化的。以前,滥用这些数据几乎是不可能的。我们所要做的就是读取它并将其保存到文件系统中。非结构化数据无法查询且难以检索,因为没有简单的索引方法,并且必须理解其含义和上下文。现在,人工智能可以做到这一点。利用多模态感知和理解技术,人工智能可以读取 PDF 文档、理解它们,并将它们嵌入到更大的可查询结构中。 nvidiayou 为此创建了两个基本库。 cuDF – 用于快速处理数据帧和结构化数据。 cuVS:处理向量存储、语义数据和非结构化人工智能数据。这两个平台将成为未来最重要的基础平台之一。今天我们宣布了合作伙伴与多家公司合作。 SQL 语言的发明者 IBM 使用 cuDF 来加速 WatsonX Data 平台。我们和戴尔共同创建了戴尔 AI 数据平台,该平台集成了 cuDF 和 cuVS,并在 NTT Data 的实际项目中实现了显着的性能改进。 Google Cloud 目前正在加速 Vertex AI 和 BigQuery,并与 Snapchat 合作,将计算成本降低近 80%。加速计算提供三合一的优势:速度、规模和成本。这符合摩尔定律的逻辑,算法不断优化以实现性能提升,通过计算加速实现指数级增长,让每个人都受益于计算成本的持续降低。 NVIDIA 创建了一个加速计算平台,汇集了 RTX、cuDF、cuVS 等众多库。这些库被集成到全球云服务和OEM系统中,共同触达全球用户。与云服务提供商合作与领先的云服务提供商 Google Cloud 合作:我们加速 Vertex AI 和 BigQuery,与 JAX/XLA 紧密集成,并与 PyTorch 良好配合。 NVIDIA 是世界上唯一在 PyTorch 和 JAX/XLA 中都能正常运行的加速器。我们已将 Base10、CrowdStrike、Puma 和 Salesforce 等客户添加到 Google Cloud 生态系统中。后备军。 AWS:EMR、SageMaker 和 Bedrock 加速以及与 AWS 的深度集成。今年让我特别兴奋的是将 OpenAI 引入 AWS。这将极大地促进AWS云计算消费的增长,并将促进区域扩张和OpenAI计算规模的扩大。 Microsoft Azure:NVIDIA 100 PFLOPS超级计算机是我们建造的第一台超级计算机,也是部署在Azure上的第一台超级计算机,为与OpenAI的合作奠定了重要基础。我们将共同加速Azure云服务和AI Foundry,加速Azure区域部署,紧密合作y 在 Bing 搜索上。值得注意的是我们的**秘密计算**功能,甚至可以防止操作员看到用户数据和模型。 NVIDIA GPU是全球首款支持机密计算的GPU,可以支持OpenAI和Anthropic模型在全球不同地区的云环境中的机密部署。例如,通过 Synopsys,我们加速了所有 EDA 和 CAD 工作流程并实施了 Microsoft Azure。甲骨文:我们很荣幸成为甲骨文的第一个人工智能客户,也是第一个向甲骨文解释人工智能云概念的客户。此后,他们迅速成长,还引入了Cohere、Fireworks、OpenAI等众多合作伙伴。 CoreWeave – 全球首个专为 GPU 托管和 AI 云服务而设计的 AI 原生云,拥有令人印象深刻的客户群和强劲的增长势头。 Palantir+戴尔:三者共同打造了全新的人工智能平台。基于Palantir的AI本体和平台,AI可以在任何国家本地全面部署ntry,即使在隔离和沙盒环境中也是如此。从数据处理(矢量化或结构化)到完整的人工智能,一切都包含在内,一直到加速计算堆栈。 NVIDIA 与一家全球云服务提供商建立了这种特殊的合作伙伴关系。向我们的客户介绍云,一个互利共赢的生态系统。垂直整合、横向开放:NVIDIA 的核心战略 NVIDIA 是世界上第一家垂直整合、横向开放的公司。这个模型的需求非常简单。加速计算与芯片或系统无关。完整表达应用加速。 CPU 可以加快计算机的整体运行速度。然而,这条路却遇到了瓶颈。未来,性能提升和成本节约将继续仅通过加速特定应用程序或领域来实现。这就是为什么 NVIDIA 必须深入研究一个又一个库、一个又一个领域、一个又一个垂直行业。我们是一家垂直整合的 IT 公司,我们别无选择。我们需要了解应用程序,我们需要了解领域,我们需要拥有知识,我们必须能够在任何场景中实现它们:数据中心、云、本地、边缘甚至机器人系统。同时,NVIDIA保持横向开放,愿意将其技术集成到任何合作伙伴的平台中,让每个人都能从加速计算中受益。本次GTC的参与者构成完美地体现了这一点。今年的参与者中,金融服务业的比例最高。后代。无论我们成立50年、70年还是150年,去年都是我们历史上最好的一年。我们现在正处于一个非常非常大的事情的开始。 CUDA – “医疗健康”朋友圈:我们正在推出自己的“ChatGPT朋友圈”,涵盖AI辅助药物发现、代理辅助诊断以及AI与医疗客户服务等方向服务。产业:AI工厂、芯片工厂、数据中心全球最大规模的建设浪潮正在进行,越来越多的焦油工厂正在建设中。娱乐游戏:实时AI平台支持翻译、直播、游戏互动、智能代购。机器人:经过10多年的发展,重要的计算机3台。本届展会共有110台机器人亮相,规模约2万亿美元。该基站与诺基亚和 T-Mobile 等公司密切合作。这就是NVIDIA的基础。这些库是公司的核心资产,使其计算平台能够在各个行业提供真正的价值。最重要的库之一是 cuDNN(播放 CUDA-X 演示视频),它彻底改变了人工智能。al 并引起了现代人工智能的爆炸式增长。它是完全模拟的,包括基于物理的求解器、AI 代理的物理模型以及 t 的物理模型。他是人工智能机器人。 NVIDIA 的核心能力:通过算法的有机结合和对计算平台的深入理解来释放这些机会。原生人工智能公司和计算新时代 有许多行业巨头定义了当今社会,包括沃尔玛、欧莱雅、摩根大通、罗氏和丰田。我们将你从未听说过的公司称为人工智能原生公司。该列表非常广泛,包括 OpenAI、Anthropic 以及许多服务于各个垂直领域的初创公司。美元,创人类历史最高纪录。更重要的是,单笔投资规模首次从数百万美元跃升至数亿甚至数十亿美元。只有一个原因。因为,历史上第一次,所有这些公司都需要大量的计算资源和大量的代币。该行业已经从 Anthropic 和 OpenAI 等机构创建了代币。创建、生成代币或为代币增值。正如PC革命、互联网革命、移动云革命都产生了许多创新型公司,这一代计算平台革命也将产生许多有影响力的公司,成为未来世界的主要力量。过去两年里,推动这一切的三项历史性突破到底发生了什么?有三件大事。第一:ChatGPT,生成式人工智能时代的黎明(2022 年底至 2023 年)。您不仅能够识别和理解它,而且还能够生成您的 pow 内容。我们展示了生成式人工智能和计算机图形学的融合。生成式人工智能从根本上改变了我们的计算方式。计算正在从搜索转向生成,对计算机体系结构、实现方法和整体重要性具有重要影响。第二:Inference AI(推理AI)。以o1为代​​表的推理能力,让AI能够自省、规划、分解问题,突破问题将无法直接理解的问题分解为可管理的步骤。 o1 使生成式人工智能变得可靠,并能够根据真实信息进行推理。为此,用于思考的输入上下文标记的数量和输出标记的数量显着增加,计算量也显着增加。第三:Claude Code 是第一个允许您读取文件、编写代码、编译、测试、评估和迭代的代理模型。克劳德·代码彻底改变了软件工程。 100% 的 Nvidia 工程师都使用一种或多种 Claude Code、Codex 和 Cursors,没有一个软件工程师不使用 AI 辅助。这就是新的弯曲点。与其问人工智能要做什么、在哪里做、如何做,不如让它去创造、做、构建,积极使用工具、读取文件、分解问题并采取行动。人工智能现在可以从识别、生成和推理转向完成任务。过去两年,推理需要大约 10,000计算量和使用量增加了大约100倍。增加了a。我一直相信计算需求在过去两年里增长了一百万倍。这是我们所有人共有的感觉,这是 OpenAI 的感觉,也是 Anthropic 的感觉。你能获得的算力越多,你能生成的代币就越多。你的收入就会增加更多,AI也会变得更聪明。推理的转折点已经到来。万亿美元的基于人工智能的基础设施时代 去年的这个时候,我在这里说过,我对 Blackwell 和 Rubin 到 2026 年的需求和订单价值(约 5000 亿美元)非常有信心。今天,GTC 一年后,我在这里告诉大家:2027 年的预计数字至少是 1 万亿美元。我确信现实世界的计算需求将会更进一步。 2025 年:NVIDIA 推理年 2025 年是 NVIDIA 推理年。我们希望确保在培训后和培训后人工智能生活的每个阶段都保持卓越循环,以便我们投资的基础设施继续高效运行,使用寿命更长,单位成本更低。与此同时,Anthropic和Meta正式加入NVIDIA平台,该平台代表了全球三分之一的AI算力需求。开源模型接近最前沿并且无处不在。 NVIDIA 是目前世界上唯一可以运行所有 AI 学科的所有 AI 模型的平台,包括语言、生物学、计算机图形学、计算机视觉、语音、蛋白质和化学、机器人技术等,无论是在边缘还是在云端。 NVIDIA 架构适用于所有这些场景,使其成为最可靠且成本最低的平台。如今,NVIDIA 60% 的业务来自全球排名前五的超大型云服务提供商,其余 40% 分布在多个垂直领域,包括区域云、主权云、企业、工业、机器人和边缘计算。 AI覆盖的广度身体i它的弹性。这绝对是新计算平台的一场革命。 Grace Blackwell 和 NVLink 72:大胆的架构创新当 Hopper 架构还处于鼎盛时期时,我们决定彻底重新设计我们的系统,将 NVLink 从 8 通道扩展到 NVLink 72,并对我们的计算机系统进行全面的拆解和重建。 Grace Blackwell NVLink 72 是一项伟大的技术赌注,这对我们所有的合作伙伴来说并不容易,我们谨向所有合作伙伴表示诚挚的感谢。同时,我们发布了NVFP4。 NVFP4不仅仅是普通的FP4,它是一种全新类型的张量核心和计算单元。我们已经证明,NVFP4 在不影响准确性的情况下实现推理,同时提供显着的性能改进和更高的能源效率,并且还可以应用于培训。此外,Dynamo、TensorRT-LLM等新算法也相继出现。我们投资数十亿美元建造超级计算机叫做DGX Cloud,专门用来优化内核的。结果表明我们的推理性能非常出色。 Semi Analysis 数据是迄今为止对 AI 推理性能最全面的评估,显示 Nvidia 远远超过了每瓦代币数和每代币成本。基本上,得益于摩尔定律,H200 可以提供 1.5 倍的性能提升。但我做了35次。 Dylan Patel,《半分析》,包括:“黄仁勋时代的保护者”。事实上,它保守了 50 倍。”他是对的。我在这里引用它:“Jensen 变成了出气筒(正如黄仁勋保守地报道的那样)。”英伟达的每个代币成本是世界上最低的,目前没有其他公司可以与之匹敌。原因是极端的协同设计。以Fireworks为例,在NVIDIA更新他们的整套软件和算法之前,平均令牌速度约为每秒700个。更新后几乎每秒5000条,增长了7倍左右。这就是力量终极协作设计。 AI工厂:从数据中心到通证工厂 数据中心曾经是存储文件的地方,现在是生产通证的工厂。未来,所有云服务商、所有AI公司都将把“代币工厂效率”作为核心运营指标。这是我的中心论点:纵轴:吞吐量——固定功率下每秒生成的令牌数量横轴:令牌速度——每次推理的响应速度。速度越快,可用模型越大,上下文越长,AI 就越智能。代币是一种新产品。一旦成熟,其价格将按以下阶段确定: 免费层(高性能,缓慢) 中级(约每百万代币 3 美元) 高级层(约每百万代币 6 美元) 快速层(约每百万代币 45 美元) 超快速层(约每百万代币 150 美元) 与 Hopper 相比,Grace Blackwell 在最高价值层的性能提高了 35 倍。我们提出了一个新的层。使用 s通过简化模型估计并将 25% 的能量分配给四个级别,Grace Blackwell 可以产生比 Hopper 多五倍的收入。 Vera Rubin:下一代人工智能计算系统(播放 Vera Rubin 系统介绍视频) Vera Rubin 是一个完整的、端到端优化的系统,专为代理工作负载而设计。大型语言模型计算核心:NVLink 72 GPU 集群、预充电和 KV 缓存 新型 Vera CPU:具有内存 LPDDR5 的超高能效单线程 Puff 专为性能而设计。它是全球唯一使用LPDDR5的数据中心CPU,适合调用AI代理工具。存储系统:BlueField 4 + CX 9,AI时代全新存储平台,全球存储行业100%参与CPO。 Spectrum Kyber Rack:一种新的机架系统,支持144个GPU组成单个NVLink域,前端计算,NVLin后端组成巨大的Rubin Ultra计算机。它是具有垂直插件设计的下一代超级计算节点gn 和支持大规模 NVLink 互连的 Kyber 机架。 Vera Rubin 采用 100% 水冷。安装时间从 2 天减少到 2 小时。采用45℃热水冷却,大幅降低数据中心的制冷压力。现在,Satya(纳德拉)发布了一份文件,确认 Vera Rubin 的第一个机架已经在 Microsoft Azure 上运行。我对此感到非常兴奋。 Groq 集成:终极推理性能改进。我们购买了 Groq 的设备并授权了他们的技术。 Groq 是一个确定性数据流处理器,使用静态编译和编译器调度。它具有大量 SRAM,并针对单一工作负载推理进行了优化。延迟非常低,令牌生成速度非常快。然而,Groq 的内存容量有限(500 MB 片上 SRAM),导致难以独立传输大规模模型参数和 KV 缓存,限制了大规模应用。解决方案是 Dynamo,一个推理机tial 编程软件包。使用 Dynamo 分解您的推理管道。 **张力机制的预填充和未解码是在Vera Rubin中完成的(需要大量的计算能力和KV缓存)。 **前馈网络解码**,即令牌生成部分,是在Groq中完成的(需要非常高的带宽和低延迟)。两者通过以太网紧密耦合,特殊模式可将延迟减少约一半。 Dynamo 的内置调度是一种“AI 工厂操作系统”,可将整体性能提高 35 倍,并解锁 NVLink 72 无法达到的推理性能新水平。结合 Groq 和 Vera Rubin 的建议:如果您的工作负载主要是高性能,请使用 100% Vera Rubin。如果您的很多工作负载都是高价值令牌生成,例如代码生成,您可以部署 Groq。推荐比例约为 25% Groq + 75% Vera Rubin。 Groq LP30 由三星制造并已量产。我们计划开始 shipping在第三季度。我们要感谢三星的全力合作。推理性能的历史性飞跃量化了迄今为止的技术进步。两年内,1GW人工智能工厂的代币生成率将增加350倍,从2200万个代币/秒增加到7亿个代币/秒。这就是终极协作设计的力量。 Blackwell 技术路线图:目前正在生产,Oberon 标准机架系统,铜缆扩展至 NVLink 72,可选光纤扩展至 NVLink 576 Vera Rubin(当前):Kyber 机架,NVLink 144(铜缆); Oberon框架,NVLink 72+光学,可扩展至NVLink 576。 Spectrum 6 Vera Rubin Ultra(即将推出),全球首款CPO交换机:下一代Rubin Ultra GPU,LP35芯片(首次集成NVFP4)和数倍更高的性能Feynman(下一代):新GPU,L芯片P40(NVIDIA和Groq团队联合开发,集成NVFP4)。新CPU:Rosa(罗莎琳);蓝色区域5; CX10;支持 CPO 和铜缆扩容方式方面,Kyber机架的路线图很明确,三种路径并行推进:铜缆扩容、光扩容(Scale-Up)、光扩容(Scale-Out)。我们需要所有合作伙伴继续扩大铜缆、光纤和 CPO 电缆的生产。 NVIDIA DSX:人工智能工厂的数字孪生平台人工智能工厂正变得越来越复杂,但组成它们的各个技术提供商从未在设计阶段相互协作,直到它们在数据中心“相遇”。显然这还不够。为了实现这一目标,我们创建了 Omniverse 以及基于它的 NVIDIA DSX 平台。它是一个让所有合作伙伴在虚拟世界中共同设计和运营千兆瓦级人工智能工厂的平台。 dSX提供机架级机械、热力、电气和附网网络仿真系统,可实现协同节能调度以及功耗和Max-Q-bas的动态优化数据中心的 ed 冷却。保守估计表明,该系统将提高能源使用效率约两倍。就我们正在讨论的规模而言,这是一个巨大的好处。从数字地球开始,Omniverse 成为各种规模的数字双胞胎的家园。我们正在与全球合作伙伴合作建造人类历史上最大的计算机。此外,英伟达正在向太空扩张。雷神芯片已通过放射性认证,并可在卫星内运行。我们正在与合作伙伴合作开发Vera Rubin Space-1,以建设空间数据中心。在太空中,我们只能依靠辐射来散热。热管理是一个重要问题。我们正在召集最优秀的工程师来解决这个问题。 OpenClaw:特工时代的操作系统 Peter Steinberger 开发了名为 OpenClaw 的软件。它是人类历史上最受欢迎的开源项目,在短短几周内就超越了 Linux 30 年的成就。开爪我本质上是一个代理系统,可以管理资源、访问工具、文件系统和大型语言模型,执行编程和同步任务,逐步分解问题,并调用子代理来支持任何模式(语音、视频、文本、电子邮件等)的输入和输出。在操作系统语法中,它就是:操作系统,代理计算机的操作系统。为了允许 Windows 创建个人计算机,OpenClaw 启用个人代理。就像我们都需要一个 Lin 策略、一个 HTML 策略和一个 Kubernetes 策略一样,每个公司都需要制定自己的 OpenClaw 策略。 OpenClaw 之前对企业 IT 的彻底改造:数据和文件进入系统,流经工具和工作流程,最终成为人类使用的工具。软件公司创建工具,系统集成商 (GSI) 和咨询公司帮助公司使用这些工具。 OpenClaw之后的企业IT:每个SaaS公司都将成为AaaS(代理即服务)公司y 不仅提供工具,还提供特定领域的人工智能代理。然而,这里存在一个重大挑战。公司内部的代理可以访问敏感数据、执行代码以及与外界通信。这必须在企业环境中严格管理。为了实现这一目标,我们与 Peter 合作,将安全性融入到获奖级版本中,并开始: NeMo Claw(参考设计):基于 OpenClaw 的企业级框架,集成了 NVIDIA 全套智能 AI 工具包 Open Shield(安全层):与 OpenClaw 集成,提供策略引擎、网络安全屏障和隐私路由,确保企业数据的安全 NeMo Cloud:可以下载并用于连接到您公司的任何策略引擎 SaaS。这是企业 IT 的复兴。原本价值 2 万亿美元的产业即将成为价值数十亿美元的产业。从提供工具转向提供专业的AI代理服务冰。我想未来公司每个工程师都会有一个象征性的年度预算。你的年薪可能有几十万美元,所以给他们额外的象征性津贴,相当于他们工资的一半,让他们的产量增加十倍。 “参加的话能得到多少象征性的费用?”已成为硅谷招聘新话题。未来,所有公司都将既是代币用户(因为他们的工程师使用它们)又是代币创建者(因为他们为客户提供服务)。 OpenClaw 的重要性不可低估。这与 HTML 或 Linux 一样重要。 NVIDIA 开放模型计划 在定制代理(定制离合器)方面,NVIDIA 提供了内部开发的最先进的模型。模型领域 Nemotron 大语言模型 宇宙世界基金会 GROOT 模型 通用人形机器人模型 Alpamayo 自动驾驶 BioNeMo 数字生物 Phys-AIAI 物理 我们在各个领域都处于技术前沿并致力于持续迭代:Nemotron 3 之后是 Nemotron 4,Cosmos 1 之后是 Cosmos 2Continue。 Groq也更新到了第二代。 Nemotron 3被OpenClaw评为全球前三模型,处于前列。 Nemotron 3 Ultra 将成为有史以来最强大的基础模型,并将帮助各国建立主权人工智能。今天,我们宣布成立 Nemotron 联盟,该联盟投资数十亿美元,旨在加速基础人​​工智能模型的研发。联盟成员包括 BlackForest Labs、Cursor、LangChain、Mistral、Perplexity、Reflection、Sarvam(印度)、Thinking Machines(Mira Murati 实验室)等。越来越多的企业软件公司正在联合起来,将 NeMo Claw 参考设计和 NVIDIA Agent AI 工具包集成到他们的产品中。物理人工智能和机器人数字代理在数字世界中运行,编写代码和分析数据。物理人工智能是具体化的代理或机器人t。本届GTC上,共公布了110款机器人,几乎覆盖了全球所有的机器人研发公司。 NVIDIA 将提供三台计算机(一台训练计算机、一台模拟计算机和一台航空计算机)以及完整的软件堆栈和 AI 模型。说到自动驾驶,自动驾驶的“ChatGPT时刻”已经到来。今天,我们宣布 NVIDIA RoboTaxi Ready 平台新增四家合作伙伴:比亚迪、现代、日产和吉利,年产量达到 1800 万辆。随着梅赛德斯-奔驰、丰田和通用汽车的加入,产品范围进一步扩大。我们还宣布与 Uber 开展重大合作,在多个城市部署和连接 RoboTaxi Ready 车辆。在工业机器人领域,ABB、Universal Robotics、KUKA等多家机器人公司与我们合作开发物理模型、AI系统和仿真系统。我们正在推动制造业生产中引入机器人世界各地的线路。在通信领域,卡特彼勒和T-Mobile也榜上有名。未来,无线基站将不仅仅是通信节点;将成为 NVIDIA Aerial AI RAN,一个智能边缘计算平台,可以实时检测流量、调整波束成形、节省能源并提高效率。特别专场:介绍机器人奥拉夫(播放迪士尼机器人奥拉夫演示视频) 黄仁勋:介绍雪人!牛顿工作得很好! Omniverse也表现不错!奥拉夫,你好吗?奥拉夫:很高兴认识你。黄仁勋:是的,因为计算机,¡los Supersonics!奥拉夫:怎么了?黄仁勋:在你的胃里。奥拉夫:太棒了。黄仁勋:你学会在全宇宙中行走。奥拉夫:我喜欢散步。这比骑着驯鹿看着美丽的天空要好得多。黄仁勋:这都要归功于基于 NVID 的物理模拟。 AI Warp 运行与 Disn 共同开发的牛顿求解器ey 和 DeepMind 的结合,使其能够适应真实的物理世界。奥拉夫:这就是我想说的。黄仁勋:这就是你聪明的地方。我不是雪人,我是雪人。范延森:你能想象吗?未来的迪士尼乐园:机器人角色在公园里自由漫步。但说实话,我希望你能更高。我从来没有见过这么短的雪人。奥拉夫:(慢吞吞)黄仁勋:你能帮我完成今天的演讲吗?奥拉夫:太棒了!黄仁勋主题演讲总结:今天我们讨论以下核心话题: 推理的临界点已经到来:推理已经成为人工智能的核心工作量,代币是新商品,推理性能直接决定收益。 AI工厂时代:数据中心中心已从文件存储设施转变为代币生产工厂。未来,所有企业都将通过AI工厂的效率来衡量自己的竞争力。 OpenClaw代理革命:OpenClaw迎来代理合作时代计算。企业IT正在从工具时代转向代理时代。每个公司都应该制定 OpenClaw 战略。物理和机器人人工智能:实体智能正在大规模部署。自动驾驶、工业机器人和人形机器人齐聚一堂,代表着物理人工智能的下一个巨大机遇。谢谢大家。享受 GTC。
特别提示:以上内容(包括图片、视频,如有)由平台用户自有媒体“网易账号”上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注