编者按:本文来自微信公众号 有新Newin(ID:NewinData),创业邦经授权转载。
近日,英伟达 CEO 黄仁勋与 Arm CEO Rene Haas 探讨了技术发展的现状和未来,涵盖了数据中心架构的演进、AI 技术的前景以及企业如何在快速变化的环境中保持竞争力。
黄仁勋指出,随着计算需求的增加,数据中心的功率密度从最初的每机架 12 千瓦迅速增长到 120 千瓦,甚至更高。
这种变化带来了技术上的挑战,包括冷却效率、网络延迟等问题。英伟达通过提高计算密度和改进系统设计,致力于延长电传输时间,减少光传输的转换成本,从而提升能源效率和可靠性。
黄仁勋认为,AI 技术不仅仅是传统计算机行业的一部分,而是正在推动一场新的工业革命。如今,计算机不再只是工具,而是一个“智能制造工厂”,可以 24 小时不间断地生成智能输出。这种转变使得计算机从工具角色演变为生产“智能代币”的机器,推动了整个行业的变革。
面对摩尔定律逐渐失效的现实,黄仁勋强调英伟达通过“协同设计”来实现指数级性能提升。
每年英伟达都会设计六七种新芯片,并改进系统架构,如引入 NVLink 交换机、3D 封装等技术,从而在相同的能耗和成本下实现两到三倍的性能提升,这种策略在很大程度上加速了 AI 计算的普及。
黄仁勋还提到,在塑造市场和引导行业发展时,“教学”比“广告”更重要。英伟达通过教育市场、展示技术应用来获得更多用户和合作伙伴的支持。
这种教学式的市场引导方式有助于让生态系统的各个参与者理解技术的价值,并逐步接受新的计算理念。
以下为这场对话的全部内容,enjoy~
Rene Haas
见到你很开心。这次回到英伟达真是太棒了。我在这里工作的时候,这栋大楼还不存在呢。
Jensen Huang
那是多久前的事了?二十年?
Rene Haas
我 2006 年开始在这里工作,2013 年离开。是的,差不多二十年前。这些大楼当时都还不存在。不过现在回来感觉依旧很亲切。感谢你抽出时间,邀请我来。
如今英伟达已经成长得如此之大,有件事我一直很感兴趣,就是公司的招聘文化确实非常独特。英伟达以一种独特的方式做事,你是如何识别那些在英伟达会取得成功的人才的?
Jensen Huang
我们并不总是能做到这一点。看看你就知道了,这其实总是有点碰运气的成分。我认为面试并不是评估一个人是否合适的最佳方式。
每个人都能在面试时表现得很出色,甚至可以通过观看 YouTube 学习如何面试。当然,技术性的问题,我们会尽可能严格和困难,但这并不容易。我个人的做法通常是回到参考检查,询问我本来打算问候选人的问题。
因为你总可以在某个时刻表现得很出色,但你无法逃避你的过去,所以这种方法还不错。我喜欢问一个深入的问题,然后观察他们的思维过程。
但最终,英伟达对很多人来说都是成功的。正如你所知道的,我们的流失率非常低,公司内部非常多元化,有很多有趣的人和背景。我们有来自几乎所有顶级公司的员工,并且我们在这里让他们都能成功。
因此,从某种意义上说,建立伟大的公司一方面是找到优秀的人才,另一方面则是创造条件,让这些人超越他们自己的预期。
这很大程度上取决于我们对英伟达的愿景和战略进行的透明解释。我花了很多时间在这方面。公司一直以透明著称,会解释我们面临的挑战、机会以及执行的战略。信息在公司内部流通得非常顺畅,大家都清楚公司的战略是什么。
我总觉得,当公司有太多的分隔或需要知道的基础时,情况会有点奇怪。当然,人们确实不需要了解他们不需要知道的事情。但他们知道得越多,就越有能力为公司做出正确的决策。
所以我倾向于更透明,倾向于赋予员工更多的权力。因此,公司成了世界上最小的大公司。这种高生产力来源于我们拥有的 3 万多名员工,他们每天都在做出数百个决定。
如果所有 3 万名员工都在同一个方向上,即使是在模糊的情况下做出决策,但他们的选择都是为了公司的长期最佳利益,那么这种积累是非常有意义的。
Rene Haas
其中一个让我总是惊讶的事情就是,你提到的那一点——我不知道这是因为招聘到合适的人还是自我选择的结果,但拥有那些在面对不确定性时非常自信的高级领导,并且你会深入公司各个层级,把正确的人召集到一起,解决问题。这是如何形成的?
公司成长过程中,你和愿景一致的高级领导一起成长,这一文化自然而然地形成了吗?因为这真的很令人惊叹,当我在英伟达工作时,许多高层领导都非常适应这种情况,你能够直接找到合适的人,一起解决问题。
Jensen Huang
首先,我没有特别询问他,你记得我也记得。而这是因为有些事情是显而易见的,不需要去征求许可。
所以我们设置这样的方式,是因为英伟达从一开始就是设计成一个全栈计算公司,我们的目标是构建 GPU 、 CPU 、网络芯片和交换机,我们会设计芯片架构,开发系统软件,创造算法,甚至求解器。
如何组织这样的事情呢?一方面所有东西必须协同工作,另一方面又需要分阶段构建。因此,我们解决这个问题的方法是,避免组织上的孤立,将组织视为一个地方,领导者可以培养人才,为他们创造成功的条件,帮助他们排除障碍等等。
而真正的老板是任务本身,它横跨整个公司,涉及系统、芯片、网络交换机、软件和算法等领域。通过这样的组织方式,我们还实现了透明化,打破了各个孤立的部门。
组织结构越开放,往往会越好,因为有更多人可以帮你批评和改进。我非常喜欢我们公司的开放性,一切都是透明的,每个人都在帮助我改进。
Rene Haas
差点就被你们收购了,那应该会很有趣。但你们收购了 Mellanox 。
Jensen Huang
你还为此难过吗?
Rene Haas
是啊,每天我都会小小地伤心一下,但我还是在这里,谢谢。
Jensen Huang
但你们表现得非常好。
Rene Haas
你们收购了 Mellanox ,这不仅在战略上是一次极好的收购,而且从外部来看,你们的执行看起来非常无缝。这样的整合是怎么做到的?并购过程通常非常艰难。
Jensen Huang
确实非常艰难。首先, Mellanox 管理团队中有十到十二人现在是英伟达以色列管理团队的成员,参与了公司高层会议。
我们涵盖了架构、研究、软件系统、芯片、网络接口控制器和交换机。我们现在有 NVLink 交换机,最初只有 Infiniband 产品线,现在还有完整的以太网产品线。
在这短短的时间内, Mellanox 的产品组合已经增长了四倍,并整合到了我们所做的每一个方面。
如果你回顾这次转型和收购,我们的愿景是计算单元不再仅仅是一个 GPU (以前是辅助设备)。
实际上,收购帮助我们从算法公司,也就是 GPU 公司,过渡为一家真正的计算公司。这是我们进入的第一步。
最初,构建 SoC(片上系统)对我们来说并不容易,现在我们已经做得很好。接下来的演进是构建系统, DGX1 是我们的第一个产品。我对 Shield(我们的 Android 电视)也非常有感情,因为它是我们最初创建的完整系统。
Rene Haas
开发 Shield 的过程肯定很令人难忘。当时我们还在摸索如何做到这一点。
Jensen Huang
是的,它至今仍是最受欢迎的 Android 电视盒。回想起来,当时它就像是 PlayStation 或 Xbox 控制器带显示器,我们都在思考如何实现这一切。这是英伟达最让我喜欢的产品之一。
Rene Haas
几乎都快忘了这段经历,但这确实是个系统性学习的过程。
Jensen Huang
我学到了很多,至今我们还在维护相关的软件。
Rene Haas
最初很难看出市场对此有需求,团队突然需要为整个产品线采购零部件,真是让人措手不及。
Jensen Huang
这是我让英伟达转型为系统公司的借口, DGX1 是改变一切的计算机。
Rene Haas
很大的 Shield。
Jensen Huang
没错。所以对我来说,虽然Shield是用塑料做的,而 DGX1 重达 600 磅,这种转变并不算什么大事。真正重要的是,我们现在能够构建系统。
而当我们收购 Mellanox 时,真正的理念是计算机不再仅仅是一个节点,而是整个数据中心成为计算的单位。
如果你不设计好 GPU 、 CPU 、网络接口、交换机、所有的收发器,并把它们全部连接在一起,能够从无到有启动这个系统,将所有组件有序地运行并分布工作负载,那么你就无法真正理解构建这些 AI 超级集群的意义。
这个转型和愿景非常清晰,以至于能够团结两支团队。为了凝聚团队,你需要有一个非常清晰的愿景,对吧?
我们的愿景非常明确,而且这个愿景也是非常具体的,因为你可以看到它在你面前运行,有超级集群,有来自两家公司的所有设备,所以这个愿景是清晰且鼓舞人心的。
对于 CEO 来说,需要将抽象的事物变得具体化,然后我们就去构建它了。不仅如此,我也认为他们的文化也很棒。
Rene Haas
这种清晰性确实帮助很大。不过回到愿景本身,还有一个故事我想说说,比如早期 CUDA 的应用追逐油气行业,这完全不明显。
Jensen Huang
大家当时并没有意识到,那其实是我们的第一个项目。
Rene Haas
确实,那是第一个,完全看不出真正的杀手级应用或最终状态是什么。然而,你们对早期的创意和实验展现了惊人的韧性,哪怕市场似乎没有准备好,甚至对这个定义还不明确。这是直觉的体现吗?还是说这种能力从何而来?
Jensen Huang
我们确实有很好的直觉,你知道,公司成立以来有大约十次这样的时刻。英伟达的优势在于我们周围都是非凡的人才,世界上最优秀的计算机科学家、战略家和商业人士,他们没有自负之心,想要做伟大的事情。
我认为我们起点很好。其次,我们的直觉也很好,特别是在判断哪些问题需要解决,以及如何从现在走向我们想成为的公司。我们对于要实现的各种阶段性目标有很好的直觉。
比如当有人问我,为什么要打造 Shield,这不是浪费时间吗?我说,总有一天我们会成为一家系统公司,而所有这些系统都会连接到云服务上。为什么要在最庞大的系统上消耗精力,不如先做这个小的。
如果我们连这个都做不好,那么更大的就更不用说了。我们需要为公司创造条件,让它可以学习新技能、尝试失败,而不会对自身造成损害。
Rene Haas
这种情况只有在公司领导者是创始人的时候才能发生吗?毕竟,很少有公司能做到你刚才描述的这些,无论是在愿景的清晰性方面,还是在持续理解前进方向的韧性上。最近关于“创始人模式”和“管理者模式”的讨论很多。
显然,你作为创始人,在公司成立30年后仍然领导着公司,并取得了巨大的成功。那么,你所描述的这种成就是否只能由创始人领导公司时才能实现?
Jensen Huang
我不这么认为。我认为你在 Arm 做得很出色。看到你在工作时的表现,我非常自豪。
Rene Haas
这是真的,我从你身上学到了很多。
Jensen Huang
看到你工作让我感到快乐和骄傲。我不认为只有创始人能做到这些。我认为确实需要极大的韧性和坚持。我通常把它描述为痛苦和折磨,这是成长的过程。痛苦和折磨是不可避免的,我深有体会,而且你必须习惯这种感觉。
通向成功的道路并不是一个接一个的成就,而是有巨大的挫折,有时甚至是令人尴尬的时刻。作为 CEO ,你还没经历这些,但它会发生。我希望它发生,因为这对你有好处。
你知道,那些时刻,我不确定学到了什么,但它确实让我变得更强大。我知道我可以挺过去。当时我可能不喜欢这些经历,但回头看,那些就是让你为自己和公司感到骄傲的时刻。
所以我认为我们的公司之所以强大,是因为我们有很多这样的故事。这家公司里充满了一次又一次挫折的非凡故事。
Rene Haas
而且经历过这些的领导者很多。
Jensen Huang
是的,大多数人都会觉得:“这不算什么,这比起以前的某个挫折轻多了。”每次遇到挑战时,我们都会想起那些更艰难的时刻,反而让公司更有能力应对当前的挑战。
Rene Haas
你我在这个行业的时间差不多长。现在 AI 的某些进展让我感到,这是我以前从未想过的,我原以为只有下一代人才能见证这种变革。现在的感觉,就像进入了“终极前沿”,我无法想象 AI 之后还会有什么。
你怎么看?我们是不是加速进入了一个前所未有的变革时期?还有什么能在这之后到来吗?现在所看到的一切真是令人难以置信。
Jensen Huang
我一直认为计算机会表现出智能行为,我们可以编写出非常好的软件,我以为我们会手动编写这些算法,让它们最终解决问题,使得计算机看起来很智能。但我从未想过这会引发一场工业革命。
我的意思是,你听我说过的,现在计算机行业首次超越了传统的计算机行业。我们不再仅仅是一个工具或仪器,而是一个制造行业。就像现在,我们的手机在口袋里没有被使用时,它对我们没有任何作用。
大多数计算机也是这样的,比如我的笔记本电脑放在办公室时没在运行。你需要工具时,才去使用它。
然而,现在的 AI 工厂则不一样,这是我们正在构建的一个新行业,它们始终在运行,无论你是否在使用。它们在处理数据、生成“智能代币”,以非常大规模制造智能。这种计算机从工具转变为制造设备,并大规模生产极有价值的东西,这是一次全新的工业革命。
Rene Haas
你参与了从 AlexNet 到 DGX1 的整个过程,见证了这一切。AI 的进展速度比我想象的要快得多,比两年半前甚至一年前的预测要快得多。作为其中的核心人物,这是否比你想象的还要迅速?
Jensen Huang
我们正努力加快进展,现在已经进入了一年一个周期。原因是技术有机会快速发展,特别是因为我们现在不仅仅是在制造芯片。
芯片的进展速度是有限的,就算使用新工艺节点,能够获得几个百分点的提升已经很了不起了。那么,我们如何在每一代中实现指数级的性能提升呢?
我们的方法是为每个系统设计六七种新芯片,然后通过协同设计重新发明整个系统,发明新的东西,比如 NVLink 交换机、新的系统机架,使我们能够通过系统的整个背板驱动铜缆连接所有 GPU ,以及使用大型封装、3D封装等各种技术。
通过这些技术手段,我们每年可以在相同的能量和成本下实现两到三倍的性能提升。这也相当于每年将 AI 的成本降低两到三倍,这个速度远远超过摩尔定律。
因此,如果你将这种进步持续五六年甚至十年,我们就能够极大地降低智能计算的成本。
我们之所以这样做,是因为现在大家都认识到了这一技术的价值。如果我们能够大幅降低成本,我们可以在推理时做一些事情,比如推理过程。
像现在使用ChatGPT时,它加载提示并生成输出。但未来,它将会迭代推理出答案,或许会进行树搜索,也可能会自我反思答案,最终得出结果。
它可能会进行数百次甚至上千次推理,但答案的质量会显著提升。我们希望降低成本,以便能够以与过去相同的成本和响应速度提供这种新的推理推理。
Rene Haas
我看到过 OpenAI 模型的演示,它进行推理时令人震惊。它使用了逻辑树,做出了权衡决策,就像人类一样,但速度完全超越了人类的思考方式。
Rene Haas
现在情况更有趣了。你们正在以一个前所未有的速度引入系统和整个数据中心基础设施。以前 CPU 每两三年更新一次,最终被折旧。现在你们每年都在构建系统,人们都迫切希望尽快部署这些系统。
Jensen Huang
是的,现在说起来很简单,但你知道,我们每年都在交付像这个房间大小的新计算机,包括所有的电缆、网络、交换机、软件,这真的很疯狂。
Rene Haas
我想问一个更具前瞻性的问题,这不仅仅是技术吸收的问题,这样的速度还能继续保持吗?
Jensen Huang
我认为可以,但必须以系统化的方式进行。也就是说,我们在架构上的一切操作都要系统化。这意味着为昨天的集群(比如 Hopper )开发的软件也可以在 Blackwell 上运行,并且 Ruben 上的软件也可以运行在 Hopper 上。
这种架构兼容性非常关键,因为行业在软件上的投资是硬件的 1000 倍,而且软件永远不会过时。如果你开发了软件,并发布了它,那么你就必须一直维护它。所以, CUDA 的想法不仅仅是有数百万人在为其编程,而是数亿个兼容的 GPU ,软件不会消亡。
Rene Haas
软件永远不会消亡。
Jensen Huang
所以,你在一个 GPU 上的投资可以延续到所有其他 GPU 上。今天编写的所有软件将来会变得更好,未来的所有软件也能在现有的安装基础上运行。
因此,首先我们必须在架构上保持严谨。其次,即使在系统层面,我们也能在不抛弃之前成果的情况下改进技术。
例如,当我们首次进入数据中心业务时,超大规模数据中心的电力分配大约是每机架 12 千瓦。而 Blackwell 的电力分配是每机架 120 千瓦,是密度的 10 倍。
当然,密度的提升使得服务器数量减少了数百万台,全部压缩到一个机架中,因此节省的能量、空间简直是不可思议的。
Rene Haas
这与我们的故事很相似。Arm 架构已经存在了 30 年,为它编写的软件也有几十年了。这是人们有时没有意识到的。
Jensen Huang
没错,我们关心每一个 Arm 芯片上的开发成果。最近有人做了基准测试,Grace 每瓦性能是世界上最好的 CPU 的四倍。是的,能效至关重要。
Rene Haas
是的,这一切都很重要。你认为当数据中心从 500 兆瓦增长到 5 吉瓦时,从架构角度上是否会出现什么问题,比如网络延迟之类的?不涉及机密内容的话,从物理的角度来看,是否会开始出现一些瓶颈?
Jensen Huang
当然会,一切都会遇到问题。物理规律必须遵循,这就是挑战所在。首先,我们正在快速推进功率密度曲线,从 12 千瓦到 40 千瓦,再到 120 千瓦,这还会继续增加。因此,我们尽可能地压缩和提高计算密度。
在这个过程中,液冷的效率更高,并且我们可以更长时间地使用铜缆。尽可能长时间地使用电传输是有利的,因为一旦转换为光传输,成本和复杂性都会增加。
所以,我们会尽量保持电传输的状态。这种策略更加经济高效、节能且可靠,因此我们会继续提高密度。
另一个提高密度的好处是,位于同一机架或相邻机架的所有 GPU 可以像一个统一的设备一样运行,真是相当惊人。
Rene Haas
我一直很好奇,Jensen,你在 Computex 的主题演讲。我记得你有一次是在星期天晚上进行的,演讲内容的体量和深度令人难以置信。
作为一个也会做主题演讲的人,我的内容远没有那么长和深入,我真的很佩服你是怎么做到的。
你是进行了大量的排练吗?我记得当我们以前一起工作的时候,有时会在演讲前一天晚上还在修改内容,你依然能出色地完成。现在你的演讲尤其涉及数据中心架构,并且涵盖了更多内容,你是如何准备这些的?
Jensen Huang
我们每天都在为此准备。我们的工作和演员不同,实际上我们是在生活中做这些事情,对吧?所以首先,我们每天都在准备。
坦率地说,我们所做的很多事情本质上是教学,为了引导行业、塑造市场并引入新思想,我们的工作很多是教学。
我们不是做广告,因为我们是一个平台公司,这意味着我们不能独自完成我们的工作,需要其他人的参与和合作。
所以,我们的工作是教学、启发、展示、演示,并希望一步步地吸引更多人加入,从 CUDA 的早期,到今天的英伟达加速计算,以及 AI 的发展旅程。
现在,我们正在研究的下一个大事是“物理 AI ”,即如何让 AI 既遵循物理规律,又理解物理规律。
我认为这个旅程相当漫长,而 GTC 和 Computex 给了我们这样的机会,让我们庆祝我们的生态系统和他们的成果,启发他们展望未来。
Rene Haas
很相似。我做季度业务回顾和演讲时,团队会说,幻灯片很简单,感觉是你整天都在讲的东西。我会想,怎么可能不一样呢?但事实上还是很难的。
Jensen Huang
说实话,确实不容易。因为我们实际上没有时间排练。并不是因为我们选择不排练,而是当所有内容都准备好时,已经没有时间去排练了。所以,我们只能“即兴发挥”。
>>> 5 个硅谷最新 AI 共识:未来将是多模型共存局面,单一 AI 模型不再占据主导地位,杀手级应用已悄然出现......
>>> 文末参与硅谷最新 2024 AI 峰会,超 100 个专题讨论,500多家参展初创企业,150+ 重量级演讲嘉宾,包括来自 Google、Microsoft、Meta 等科技巨头的高层管理者,以及 Glean、Interdimensional、Forethought、Weights & Biases、Mistral AI、Typeface AI 等AI领域领军公司的创始人、CEO、CTO。