英伟达筑起新高墙

  日前,英伟达须臾解密了六颗芯片,惹起了环球振动。但本来早正在旧年腊尾,就有一则重磅动静正在AI芯片圈炸响:推理芯片首创公司 Groq 公告,已与英伟达告终一项“非独 家许可订定”。布告只要寥寥数语,但随之而来的音信却急迅调换了这笔贸易的分量——Groq 创始人兼 CEO Jonathan Ross、总裁 Sunny Madra 以及众名中心成员,将一并插手英伟达,参加授权技能的促进与界限化。

  假设只看花样,这并不是一次收购;假设只看结果,它却简直具备了收购的扫数因素。技能被许可,团队被吸纳,枢纽人物离场,Groq 固然外面上接连运营,但其最 具断定性的资产——技能道途与魂魄人物——已然改变。这是一种榜样的“收购式任用”,也是英伟达近年来愈发娴熟的一种操作体例:正在不触碰囚禁红线的条件下,把潜正在威迫纳入本身的系统之中。

  更主要的是,这一步产生正在一个极其敏锐的时辰点。AI 芯片的竞赛,正正在从“教练为王”转向“推理决胜”。英伟达的 GPU 照旧牢牢统治着教练市集,但正在推理端,AMD、定制 ASIC、云厂商自研芯片正正在疾捷接近,本钱与供应链众元化成为大客户最实际的诉求。Groq 的 LPU 恰是为推理而生,主打极 致低延迟和本能确定性,其创始人 Jonathan Ross 更被视为谷歌 TPU 背后的枢纽推手——这不是一家能够被大意的公司。

  于是,与其说英伟达“买”下了 Groq,不如说它正在竞赛真正白热化之前,提前拆掉了一段不妨威迫本身根柢的城梯。回看史乘,从 Mellanox 到未遂的 Arm,再到这日的 Groq,英伟达并非只是正在扩张幅员,而是正在一砖一瓦地加高本身的防御系统。英伟达正在乎的,仿佛已不再是某一笔贸易的得失,而是怎样正在教练、推理、搜集、软件与生态的众条阵线上,同时修建起一道简直无法绕开的“城墙”。

  英伟达与 Groq 告终贸易,这件事自己的主要性,并不正在于它是否会推出一款“非 GPU 的 AI 芯片”,而正在于它揭破了英伟达真正的焦急泉源。这日的英伟达,简直依然正在教练算力层面赢得了毕竟上的统治位置,但 AI 物业的重心正正在寂静转移——从“谁能堆更众 FLOPS”,转向“谁能更高效、更确定性地交付推理结果”。

  Groq 的价钱并不正在算力界限,而正在编制玄学。它夸大确定性延迟、夸大编译器对施行途径的绝 对节制、夸大“推理不是硬件题目,而是编制题目”。这套思绪,与 GPU 全邦中永恒存正在的动态调整、非确定性施行造成明晰比照。

  Groq 的创始人 Jonathan Ross 是 Google 第 一代 TPU 的首席架构师。他正在 2016 年脱节 Google 后,试图打制一个比 TPU 更疾、更可控的“通用 AI 措置器”。Groq 的中心技能是自研的 LPU(Language Processing Unit)架构,这种架构扔掉了古板的乱序施行和动态调整机制,采用静态调整、数据途径固定、施行流程可预测的“确定性计划”(deterministic design)。芯片内部采用 SRAM 技能,而非英伟达 GPU 依赖的片外 HBM 显存,这让 Groq 正在某些场景下告竣了极 致的低延迟。

  Groq 最初也曾试图进入教练市集,但很疾觉察这是一条绝途:教练市集的竞赛逻辑是“大生态+大资金+大客户”。Groq 的架构对主流 AI 框架(如 PyTorch、TensorFlow)的兼容性有限,也缺乏成熟的编译东西链,使得教练义务的转移本钱极高。

  从 2023 年下半年初步,Groq 明了转向推理即任事(Inference-as-a-Service)宗旨。2024 年,Groq 映现了其编制运转 Llama 2-70B 模子时,告竣每秒凌驾 300 个 Token 的天生速率,远超主流 GPU 编制。这一上风让 Groq 急迅吸引到一批对延迟敏锐的笔直行业用户,如金融贸易编制、军事音信措置、语音/视频同步字幕天生。Groq 将产物定位从“AI 芯片”扩展为“AI 措置平台”,通过 GroqCloud 平台向拓荒者供给 API 访谒权限,与 LangChain、LlamaIndex 等生态集成。

  恰是这种“异类”,凑巧点中了英伟达的软肋。跟着大模子进入界限化落地阶段,越来越众客户初步亲切延迟、能效、TCO 和编制杂乱度,而不再只是显卡型号。推理正正在走向碎片化:云厂商自研 ASIC(AWS 的 Trainium 和 Inferentia、Google TPU、Microsoft Maia)、CPU+加快器搀杂陈设、边沿侧异构编制层见迭出。假设英伟达只停息正在“卖最强 GPU”,它正在推理端的话语权,早晚会被编制层缓缓腐蚀。

  关于英伟达和黄仁勋而言,Groq 的意旨并不是“补一块芯片”,而是补一块英伟达尚未十足掌控的编制才略:对施行途径的强牵制、对延迟的可预测性、以及编译器主导的算力应用体例。换句话说,假设说 GPU 是英伟达的地基,那么 Groq 代外的,是它试图插入编制顶层的一根“节制梁”。

  良众黎民风从操作编制的角度剖释算力生态,以为谁节制了 Linux 发行版、谁节制了内核,谁就负责了推算全邦的话语权。但正在 AI 期间,这种逻辑依然初步失效。英伟达对此看得绝顶明了:真正主要的,不是节点上的操作编制,而是节点之上的集群节制体例。

  这恰是英伟达正在 2022 年 1 月收购 Bright Computing 的根底缘由。当时这笔贸易的金额未公然,但 Bright Computing 已告竣两轮融资,共筹集 1650 万美元,其集群管制东西 BCM 正在环球具有凌驾 700 家用户。Bright Cluster Manager 并不是一个摩登的新东西,它出生于古板 HPC 全邦,最初用于管制高度杂乱、对不变性和可预测性条件极高的超等推算编制。正由于如斯,它并不追赶某一种特定技能潮水,而是永恒环绕“怎样正在大界限集群中同一陈设、监控、修复和调整”这个中心题目演进。

  BCM 最初是为管制古板高本能推算(HPC)编制而计划的,但众年来,为了将其打变成为一款通用集群节制器,BCM 也举办了适配,以援手 Hadoop、Spark、OpenStack、Kubernetes 和 VMware ESX 等对节制条件极高的散布式编制。

  正在被英伟达收购并改名为 Base Command Manager 之后,这套东西被无缺纳入 AI Enterprise 软件客栈,成为英伟达 AI 编制的“底层节制平面”。通过许可证形式,英伟达不再只是交付硬件,而是初步按 GPU、按年份出售“编制才略”——AI Enterprise 许可证蕴涵英伟达系缚并援手正在其 GPU 加快编制上的库、框架和其他东西,每个 GPU 每年的用度为 4500 美元。

  这一步的意旨极其枢纽:它意味着英伟达正式把“集群管制”酿成了本身的贸易资产,而不是留给客户或第三方去治理。

  英伟达还设定了一个精妙的贸易战略:关于每个节点蕴涵 8 个 GPU 以内的集群,供给免费的 BCM 许可证,但不供给任何技能援手,且“随时不妨被取消”。这意味着企业假设念要不变的临盆境遇,就必需置备 AI Enterprise 许可证。免费版本不是大方,而是一种“试用即绑定”的战略。

  更主要的是,Base Command Manager 并不是独处存正在的。正在其之上,英伟达叠加了 Mission Control,用于主动陈设所谓的“AI 工场”:框架、东西、模子、容器运转境遇、强壮反省和功耗优化一体化。Mission Control 蕴涵 Run:ai 告竣的 Kubernetes,用于编排容器;还蕴涵 Docker,用于正在容器内运转推算;其它,它还能够虚拟化 GPU,以供给更精巧的推算粒度。Mission Control 会对编制举办强壮反省,并遵循编制上运转的事情负载优化功耗。

  这套系统的方针并不是让客户具有更众拣选,而是让客户正在默认境况下就运转正在英伟达界说的最 优途径上。

  当然,这里绕不开英伟达正在2024年对Run.ai的收购,Run.ai的中心价钱不是又一个Kubernetes插件,而是告竣了GPU资源的空洞化管制:众租户、弹性调整、优先级节制、GPU虚拟化。正在Run.ai的编制中,一个物理GPU能够被切分成众个虚拟实例,让差别用户、差别义务按需应用,同时确保远隔性和本能。

  为什么英伟达提前拿下了 Run:ai?由于调整权假设不正在本身手里,CUDA 生态的上风就会被“平台化”稀释。云厂商能够通过调整层,让客户感知不终究层是谁的 GPU,以至能够正在调整中插入自研芯片举动取代选项。

  但就高本能推算(HPC)和人工智能(AI)事情负载的裸机事情负载管制而言,英伟达依然须要一款东西。毕竟注明,BCM 恰是施行这些强壮反省的东西,而治理题目的操作则通过 Slurm 事情负载管制器告竣。

  英伟达并没有强行条件一齐客户扔掉既有系统,而优劣常务实地采纳了一个实际:正在豪爽从 HPC 演进而来的 AI 集群中,Slurm 照旧是毕竟法式。很众高本能推算和人工智能机构不念练习新东西——例如 Run:ai——而是念接连应用 Slurm。关于那些最初以高本能推算中央发迹的搀杂型人工智能/高本能推算中央来说,这种境况不妨尤为卓绝。

  2025 年 12 月,英伟达补上了这道墙的结尾一块砖:收购了 SchedMD,得到了 Slurm 事情负载管制器背后的中心团队和技能援手权。

  Slurm 项目始于 2001 年,由劳伦斯·利弗莫尔邦度尝试室、Linux Network(已被 SGI 收购)、惠普以及 Groupe Bull(已被 Atos 收购并创办 Eviden)合营拓荒。据称,Slurm 的计划灵感泉源于超等推算机互连装备成立商 Quadrics 拓荒的 RMS 集群资源管制器。2010 年,该项目标两位创始人 Morris Jette 和 Danny Auble 创立了 SchedMD,旨正在为 Slurm 供给技能援手,从而为事情负载管制器的进一步拓荒供给资金。

  Slurm 最主要的上风正在于,过去十年中,正在 Top500 超等推算机排行榜上闪现的推算机中,约有 60% 应用 Slurm 举动其事情负载管制器,而不是 IBM/Platform Computing 的负载共享东西(LSF)、Altair 的便携式批措置编制(PBS)、Adaptive Computing 的 Maui 和 Moab 以及 Sun/Univa Grid Engine。一齐这些事情负载管制器/功课调整器都邑将一组具有特定推算才略需求的事情负载举办“俄罗斯方块”式的调整,最终使它们遵从既定的优先级纪律高效运转。

  Slurm 过去十众年里成为超等推算界限的毕竟法式,并不是由于它最激进,而是由于它足够不变、足够中立,也足够适配不竭转折的硬件境遇。SchedMD 已向环球数百家 HPC 中央、云构修商、超大界限数据中央和企业出售了 Slurm 事情负载管制器的援手任事。过去十年,英伟达和 SchedMD 不断正在合营拓荒 Slurm。

  正在英伟达收购 Bright Computing 之前,BCM 援手差别的事情负载管制器,但跟着 Slurm 慢慢成为高本能推算中央以致人工智能界限事情负载管制的本质法式,它被选为 Bright Cluster Manager 的默认事情负载管制器,并正在过去几年中不断是英伟达 Base Command Manager 的默认事情负载管制器。

  对英伟达而言,真正危殆的并不是 Slurm 开源,而是假设 Slurm 的演进宗旨、援手才略和企业级整合权负责正在本身节制之外,那么扫数 Base Command Manager 和 Mission Control 系统,都邑留下一个无法掌控的“底座”。

  通过收购 SchedMD,英伟达并没有否认 Slurm 的开源属性,反而正在公然后相中几次夸大其“厂商中立性”。英伟达外现,它将“接连拓荒和分发 Slurm,使其成为开源、厂商中立的软件,使其正在种种硬件和软件境遇下都能被更渊博的 HPC 和 AI 社区渊博应用和援手”。

  但须要看清的是:开源并不等于没有职权布局。谁来保卫主干代码、谁来供给企业级援手、谁来断定新性格的优先级,这些题目,比许可证自己主要得众。

  英伟达已制定为 SchedMD 的现有客户供给援手,据料想,他们将通过聘请 SchedMD 的员工来告竣这一点。但即使 Slurm 开源,也不料味着英伟达会为开源版本的代码供给援手,或者将 Slurm 的一齐改日效用都开源。英伟达具有豪爽专有驱动标准、框架和算法,这个形式很不妨会延续到 Slurm 身上。

  英伟达明晰生气做到两点:一方面,维系 Slurm 正在 CPU、非英伟达加快器等境遇中的渊博合用性,避免激励社区反弹;另一方面,把 Slurm 的贸易援手、编制集成和 AI 宗旨演进,与本身的 AI Enterprise 系统深度绑定。这是一种极其榜样的“高阶节制”:欠亨过封锁代码来垄断,而通过编制杂乱度和任事整合来设立门槛。

  目前尚不明了的是,Run:ai 和 Slurm 的效用将怎样与 Base Command Manager 整合,从而为高本能推算(HPC)和人工智能(AI)集群供给一个自上而下的集群和事情负载管制东西——况且不单限于 AI 集群,还要思考到很众集群中不妨存正在少少仅应用 CPU 的机械以及非英伟达加快器。

  假设英伟达试图以任何体例节制它,其他人能够获取 Slurm 代码(该代码以 GNU GPL v2.0 许可证供给),举办 fork 并接连拓荒。但实际是,fork 代码容易,竖立援手才略难。当一齐人都正在用统一套开源东西,但只要英伟达能供给最 优的集成计划时,开源自己就成了英伟达生态的扩展。

  2024 年 10 月,英伟达休止独自出售 Bright Cluster Manager,而仅将其举动 AI Enterprise Stack 的一一面供给。目前尚不明了 AI Enterprise 的代价是高于如故低于之前独自置备 Bright Cluster Manager 的许可,也不明了有众少客户曾正在纯 CPU 编制或其他类型的加快器上应用过这款早期东西。但这个作为的信号意旨很明了:英伟达正正在把一齐编制组件打包成一个弗成割裂的合座。

  也恰是正在这里,Run:ai、Slurm 和 Base Command Manager 的联系变得微妙而枢纽。前者代外云原生和容器化全邦,后者代外 HPC 古板,而英伟达的方针,是让这两套系统正在本身的框架内告竣调和,而不是互相竞赛。

  把Groq、Bright Computing、Run:ai 和 SchedMD 放正在统一条时辰线上看,英伟达近几年的收购逻辑就变得十分了然:它正正在编制性地收回 AI 推算系统中的“非硬件节制权”。

  GPU 依然是英伟达最犀利的军火,但依然不再是唯 一的壁垒。真正的新城墙,竖立正在三个层面之上:

  第 一层:对集群资源的调整权。从 Mellanox 的搜集互联技能,到 Bright Computing 的集群管制,再到 SchedMD 的事情负载调整,英伟达节制了算力怎样相连、怎样分派、怎样列队施行的无缺链条。这不是方便的硬件整合,而是把搜集从“外设”酿成了“AI 编制的一一面”。

  第二层:对事情负载施行途径的界说权。Run:ai 供给的 GPU 虚拟化和资源空洞,Mission Control 供给的主动化陈设和强壮反省,Slurm 供给的功课调整——这些东西配合界说了“义务该当若何跑、跑正在哪里、用众少资源”。当施行途径被英伟达界说时,假使客户外面上能够应用其他硬件,正在实验中也会觉察转移本钱高得难以接受。

  第三层:对企业级援手与编制杂乱度的掌控权。英伟达通过 AI Enterprise 许可证形式,把一齐这些东西打包成一个贸易任事。客户置备的不是单个组件,而是一整套“编制集成才略”。开源代码能够 fork,但企业级援手、优化体验、最 佳实验,都负责正在英伟达手中。

  一朝这三层叠加告竣,客户即使外面上“能够拣选此外硬件”,正在实验中也会觉察转移本钱高得难以接受。

  从卖芯片到卖生态,英伟达的贸易形式依然产生质变。过去的英伟达,GPU 是产物,卖出去就告竣了贸易。现正在的英伟达,GPU 是生态入口,是用户进入英伟达编制的第 一步。收购实在切逻辑不是界限并购,而是精准补洞:正在 AI 推算的无缺链条中,哪一环还没有被节制?

  这也是为什么说,英伟达正正在构修的依然不是古板意旨上的护城河,而是一座生态城墙。它不靠封闭入口,而是通过编制整合,让脱节变得不再理性。正在 AI 进入根本方法阶段之后,这种才略,也许比任何一代 GPU,都加倍长久。

  从 Groq 到 SchedMD,从推理架构到事情负载管制,从硬件到编制,英伟达用几年时辰告竣了一次贸易史上罕睹的“生态围城”。这座城墙的高度,依然不是用技能目标能够权衡的,而是用转移本钱、练习弧线、生态粘性来界说的。

  当一齐人还正在商议“谁能挑拨英伟达的 GPU”时,英伟达依然正在思索:怎样让“挑拨”这件事自己变得不再不妨。