资讯
作家|高飞开云体育
英伟达的GTC2026开幕前几天,看到Wired 杂志报了一个猛料:英伟达操办在畴昔五年参预260亿好意思元去开发开源模子。是以,等GTC真开起来的时代,我在现场就额外怜惜这方面的音信。
开源模子也如着实本次大会上,占了很大的篇幅。
黄仁勋先是在主题演讲顶用无数篇幅驳倒这个话题,有六个模子眷属的最新施展,有 Nemotron 定约(稍后咱们会细讲)的建设。之后,他又在GTC时代主合手了一场Open Model圆桌。开源模子显着照旧成为英伟达最高优先级的策略主义之一。
一家以芯片、加快狡计有名的公司,为什么要在模子上参预如斯大的力量?

NVIDIA AI 软件副总裁 Kari Briski(右)、至顶科技CEO高飞(左)
在GTC 时代,我把这个问题抛给英伟达 AI 软件副总裁 Kari Briski ,她给了我一个类比算作回话:
“咱们把模子当成一个库来对待。开发者以依赖它,咱们有澄莹的道路图,会合手续迭代,会合手续维持它。”
一个库。这个类比,唯有理会 CUDA 的东谈主才气十足体会。
CUDA对英伟达的迫切性其实照旧无需多言。它的全称是 Compute Unified Device Architecture(长入狡计开荒架构),2007 年发布,领先的操办是闪开发者用 C 谈话平直编写 GPU 圭臬,而不必懂图形渲染。
在那之前,GPU 只可跑游戏画面;CUDA 出现后,GPU 变成了一台通用并行狡计机。此后近二十年,英伟达围绕 CUDA 构建了一个巨大的生态系统。这个生态系统的中枢,等于 Briski 所说的“库”。平常来说,CUDA 的库等于英伟达替开发者写好的现成器具包,开发者不需要从零运行,调用 CUDA 中对应的库就能完成特定任务。
最主流的 AI 框架,底层齐对 CUDA 作念了深度优化。这意味着全球绝大多数 AI 模子的稽查和推理,骨子上齐在 CUDA 的轨谈上运行。
这些库的重要特征是:英伟达应承弥远钦慕,每一代新硬件发布时同步更新,保证向后兼容。开发者不错省心肠把统共这个词技巧栈建在上头。是以,当 Briski 用“库”来类比绽开模子时,咱们当然就很容易感受到绽开模子在英伟达业务中的“权重”了。
那么具体来说,绽开模子具体能在英伟达的体系里演出什么变装,起何种作用呢?在后续的采访中,Briski 从稽查、生态、器具链和 agent 等维度张开了解说。
极致协同联想:稽查模子的两重操办
Briski 在采访中起初强调了一个词:extreme co-design(极致协同联想)。这个表述最近也时常出现时黄仁勋的公开演讲中。它态状的不是某一个居品,而是一种联想形而上学:GPU、CPU、汇注交换芯片、存储处理器等不同组件,在联想阶段就深度耦合,而非各作念各的。芯片的架构联想会探讨模子稽查的需求,模子的稽查有操办也会额外利用芯片的新特质,连结它们的软件栈则在两头之间作念桥梁。英伟达合计这种样子是它区别于纯芯片公司或纯模子公司的根柢地方。
在这种形而上学下,英伟达躬行稽查模子当然就有了两重操办。
第一重,面向外部:稽查出的模子自身成为生态系统的大众资源。“咱们不错把模子绽开出去,让统共这个词生态系统去使用、在上头微调、构建我方的业务”,Briski 说。
第二重,面向里面:稽查进程自身是对整套基础设施的极限压力测试。“咱们需要通过稽查模子来把基础设施逼到极限”,她说,“不仅仅算力,还包括存储和汇注。”当数千块、数万块 GPU 协同稽查一个模子时,系统中任何一个要津的瓶颈齐会暴知道来。
她举了一个具体的技巧细节来讲明第二点:NVFP4。这是英伟达随 Blackwell GPU 架构推出的一种 4 位浮点精度体式。平常来说,AI 模子稽查中的每个数值经常需要 16 位(FP16)以致 32 位(FP32)来存储,精度越高后果越准确,但狡计量和内存占用也越大。英伟达的 NVFP4 把每个数值压缩到仅 4 位,并通过一种“双层缩放”机制(每 16 个数值分享一个高精度缩放因子)来弥补精度亏本。根据英伟达的技巧文档,NVFP4 比较 FP16 不错将模子内存占用缩减约 3.5 倍,比较 FP8 缩减约 1.8 倍,同期在重要谈话建模任务上的精度亏本限定在 1% 以内。Blackwell Ultra GPU 的 NVFP4 峰值算力达到 15 petaFLOPS,是 FP8 的 3 倍。
“任何东谈主八成齐能用 NVFP4 稽查一个基础模子”,Briski 说,“但你能作念到在如斯低的精度下仍然达到业界最高的准确率吗?如若不行,莫得东谈主会用它。”这恰是“极致协同联想”要照管的问题:4 位精度能不行用,不取决于体式自身的界说,而取决于从芯片的张量中枢(Tensor Core)到稽查框架(如 NeMo Megatron)再到模子架构的整条链路是否全部作念了针对性优化。
是以,稽查一个绽开模子,对英伟达来说,还起到了系统性能试金石的作用。
六个模子眷属和一个定约
如若说 CUDA已有的 400 多个库袒护了狡计层面的多样需求,那英伟达现时正在用不同尺寸的模子袒护不同层面的需求。
GTC 2026 上,英伟达讲了模子眷属:Nemotron 追究谈话理会与推理,是接近 ChatGPT 或 Claude 的通用模子;Cosmos 是“宇宙基础模子”,为机器东谈主提供对物理宇宙的理会才略,包括重力、阻力和空间感知;Isaac GR00T 专为东谈主形机器东谈主联想,让它们能够同期移动和操作物体;Alpamayo 面向自动驾驶,匡助车辆在复杂路况中进行推理和决策(在GTC大会时代,我也体验了Alpamayo的45分钟自动驾驶,全程0给与,乘坐体验很丝滑);BioNeMo 用于生命科学,维持卵白质结构瞻望和药物发现;Earth-2 则专注欣忭与天气模拟。六条线从数字宇宙延长到物理宇宙,袒护了 AI 可能触达的险些统共前沿范畴。
Briski 还提到了一个容易被疏远的细节:这六个模子眷属之间会分享数据。“比如 Cosmos 团队就在为 Nemotron 模子孝敬视觉理会数据。咱们里面合作出奇良好。”
围绕这些模子,英伟达如实构建了一种 CUDA 开发者出奇老练的节拍:澄莹的道路图和可预期的迭代。Briski 提到,英伟达在 2025 年 12 月就发布了 Nemotron 模子的道路图:Nano、Super、Ultra 三个规格,别离对应轻量级、中等限度和前沿级。
现时,Ultra 版块(约5000 亿参数)的基础稽查照旧完成,进入后稽查阶段。同期,英伟达文牍建设 Nemotron Coalition(Nemotron 定约)。这个定约的成员包括法国的 Mistral AI(欧洲最具影响力的模子公司之一)、AI 搜索引擎 Perplexity、AI 代码裁剪器 Cursor,以及 agent 开发框架 LangChain、前OpenAI CTO Mira Murati创立的Thinking Machines Lab、Black Forest Labs、Reflection AI、Sarvam等。它们将使用英伟达的 DGX Cloud 算力资源,别离参与下一代 Nemotron 4 的模子稽查、数据孝敬、评估框架和范畴专长等使命。
“道路图越澄莹、应承越明确,大众就越会结实到:这是一个不错弥远依赖的库。”Briski 回想。
比绽开权重更绽开:把器具链也给你
说到绽开模子,咱们还有必要先厘清两个容易浑浊的成见:绽开权重(open weight)和开源(open source)。
Open-weight model(绽开权重模子):只公开稽查后的参数(权重),不公开稽查代码、数据集和架构细节。Llama等齐属于这类。
Open-source AI model(开源 AI 模子):按照 OSI 2024 年的界说,需要同期公开 data information、code、parameters 三者。OLMo、BLOOM 属于这类。
行业里常把这两个词混着用,但它们指向不同端倪的“绽开”。
绽开权重,是指把模子稽查完成后的参数(即“权重”)公开发布,任何东谈主不错下载、部署和微调。你拿到的是沿路作念好的菜,不错加盐加醋调味,但看不到完好意思的食谱。
开源则更进一步:除了模子权重,还公开稽查代码、数据集组成、架构细节,以致稽查进程中的中间稽查点。你拿到的是整套食谱,包括原料清单、烹调技艺和厨房开荒讲明。
而英伟达的Nemotron的开源就出奇绝对,其绽开了后稽查有操办(recipes)、强化学习的环境和考证器(verifiers)。根据英伟达公开的技巧文档,其绽开的预稽查数据集限度达到 10 万亿 token。
这里需要解说一下“后稽查”和“强化学习环境”。AI 模子的稽查经常分为两个阶段:预稽查(pre-training)是让模子阅读海量文本,学会谈话的基本规则;后稽查(post-training)则是在预稽查的基础上,通过东谈主类响应或强化学习来调教模子的行径,让它变得更有效、更安全。后稽查阶段中,“稽查环境”是指模子训导解题的场景集合(比如数学题库、代码测试用例),“考证器”则是判断模子回话是否正确的评分系统。
现时行业内大多数公司绽开模子时只发布最终的权重,尔后稽查阶段使用的稽查环境和考证器经常不会公开。
不外,英伟达的作念法不同。“咱们正在和数据供应商合作,共同构建新的环境和考证器,并把它们绽开出去,让大众能够理会怎样我方创建这些环境。”Briski 告诉我。
Briski 合计,绽开这些资源的价值在于镌汰统共这个词行业的重迭职业。“算力即智能。咱们公开这些,是因为咱们结实到这不错为大众简约狡计资源。”企业毋庸我方从零搭建稽查环境,不错平直在英伟达提供的器具链上运讹诈命,把元气心灵聚会在我方最擅长的垂直范畴。
她举了两个企业强化学习的例子。SAP 是全球最大的企业软件公司之一,其 ERP 系统中有至少 2000 个器具接口,需要稽查模子学会在复杂的企业环境中正确调用这些器具。另一个例子是 Edison Scientific,Briski 提到他们用自界说模子稽查了一套针对科学器具的 agent。
据公开贵府,Edison Scientific 运营着一个叫 Kosmos 的 AI 科学家平台。这些企业不可能依赖通用模子的绽开权重完成使命,它们需要在我方的环境中作念强化学习。模子的绽开权重仅仅起初,完好意思的稽查器具链才是让企业合手续受益、合手续参预的基础。
从 OpenClaw 到 NemoClaw:当 Agent 成为模子的主要用户
聊完模子的绽开策略,我在采访中向 Briski 建议了一个不雅察:如今无数的模子调用照旧不是来自东谈主类对话,而是来自 agent。Agent 对模子的破钞量以致照旧跳跃了东谈主类用户,这对模子的联想和稽查意味着什么?
Briski 说趋势如实如斯。现时,AI 算力需求的演进不错笼统为四个阶段:预稽查、后稽查、推理时彭胀(test-time compute),再加上 agent 之间的互助。前三种照旧被行业畴昔盘问,第四种是新的。“念念念念昨年,东谈主们还对‘一个推理模子生成 10000 个 token 才得出谜底’感到诧异。现时照旧没东谈主再质疑这个了。而 agent 之间的互助可能波及数十万 token。”
而说到 agent,就不行不提 OpenClaw。就在此次采访的前一天,黄仁勋在 GTC 2026 主题演讲中花了无数篇幅驳倒这只“龙虾”。他把 OpenClaw 比作 Linux的产业影响,称其为“个东谈主 AI 的操作系统”,并赶快发布了英伟达为它打造的企业级有操办 NemoClaw。在会场,我正值碰到了 OpenClaw 的首创东谈主 Peter Steinberger。我也和Briski 出奇聊到了安全关系话题。
因为OpenClaw 的爆发增长,让企业级安全需求提前浮出水面。显着,一个能探问邮箱、日期、音信平台的自主 agent,显着需要比传统软件更严格的权限管控和数据梗阻。以致,关于个东谈主消费者也如斯。现时好多装配龙虾的东谈主,是莫得技巧布景的,一朝操作失当,很容易形成阴私裸露等问题。
Briski说,英伟达的 NemoClaw 恰是为此而来。
NemoClaw 是英伟达版的OpenClaw,包含两个中枢组件:OpenShell 是一个安全运行时,追究沙箱梗阻、策略成就、安全路由和权限管控,它经受了一种“阴私路由器”机制,在将数据发送到外部云霄模子之前自动剥离个东谈主身份信息;内置的 Nemotron 模子则提供腹地推理才略,不需要联网也能运行。统共这个词有操办一条敕令即可装配。
Briski 又作念了一个类比:“就像咱们对 TensorFlow、PyTorch、Kubernetes、OpenGL 所作念的,咱们钦慕维持这些开源平台的完好意思性,同期孝敬力量,确保它们在英伟达的硬件和软件库上运行得最佳。”
之前我看到OpenClaw首创东谈主Peter也在X上说,感谢英伟达带着安全大众,为OpenClaw提供匡助。
不外,尽管有了这些保险门径。OpenClaw的企业级部署仍处于早期阶段。“企业需要我方界说策略,然后回话三个问题:它被允许作念什么?代表谁来作念?使用什么字据?”
这三个问题纰漏得像沿路形而上学题,却是统共这个词 agent 经济能否落地的重要。技巧不是瓶颈,信任才是。
采访临了,我问了一个跳出具体居品的问题。Briski 在企业IT这个范畴很资深,亲历了云狡计、ERP 等屡次技巧波澜。是以,“比较那些周期,生成式 AI 处在什么位置?”
她给了我一个出奇纰漏但详情的态状:“它的增长弧线是竖直的开云体育。这是咱们见过的增长速率最快的使命负载之一。”

