对话VAST曹炎培：2秒才是3D生成本该有的速度

– 量子位

听雨

AI 3D的2.0范式来了

完全零基础，自己手搓一个权游里龙妈的3D模型，需要多久？

2秒。

接着再给它贴上纹理，大概10秒以内，我就无痛得到了一个3D龙妈。

不仅快，而且细节丰富、拓扑干净、布线稳定。

同样，只甩一张参考图，我还可以快速生成《底特律：变人》里的康纳。

这是贴上纹理之后的效果：人物的面部表情，衣服的细节，都跟参考图里别无二致。

或者我还可以输入提示词：

一位森林精灵角色，身穿树叶服饰，脚踩靴子，背着小挎包。

然后再给它一张图做参考：

接着，我就得到了一个非常可爱的森林小精灵！

仔细看看，从人物发型、面部再到服饰，每一处细节都被精准刻画了出来。

这就是VAST在Tripo Studio中最新上线的 Smart Mesh 功能，也是放眼全球断层领先的能力。

它可以实现仅靠提示词或参考图， 2秒内极速生成3D模型，水平堪比专业建模师。

Smart Mesh背后的模型是VAST最新发布的 Tripo P1.0 ，它取得了一项惊人的⾏业范式级突破：⾸次在原⽣三维空间中实现概率⽣成，从底层重构了AI 3D⽣成的算法架构。

如果你追求极致精度，那么VAST最近更新的另一款模型—— Tripo H3.1 可以帮上你的忙。作为高精模型，它的每一次迭代都做到了行业SOTA，更新后的版本在输入对齐、结构精度、贴图质量等核心指标上又有了进一步提升。

就在上周，VAST还宣布完成 5000万美元A轮融资，领投方为阿里和恒旭资本，元禾璞华、BV百度风投、东方嘉富跟投，老股东春华创投和北京市人工智能产业投资基金也在继续加注。

手握突破性技术和5000万美元融资，VAST向他们成立之初的愿景又迈进了一步——让每个人都能创造属于自己的互动世界。

借此机会，量子位也与 VAST首席科学家曹炎培展开了一次对话，聊聊他们为什么要推出Tripo P1.0、它的范式重构体现在什么地方，以及VAST在UGC和世界模型领域的下一步动向。

曹炎培告诉我们，P1.0模型对传统AI 3D底层范式的“重构”体现在两方面：

第一，业内主流的高模生成流程是将多边形网格转化成高模的表达形式，比如SDF，或者VAST之前提出的SparseFlex，进而生成高模。如果想用在轻量级应用中，还需要减面和重拓扑。这其实是在原始数据和最终想要的资产之间绕了远路。

第二，行业内过去一段时间存在一个很大的误区：由于语言模型取得了巨大的成功，使得研究员们会更愿意借鉴自回归建模和生成模型，即“强行”将3D数据序列化，将其变成一个个排序后的token。这实际上非常反直觉，也违背了3D空间的各向同性。

简单来说，在对token排列定义顺序后，排序会让几何图形之间产生因果，待要生成的几何将仅依赖于之前已经生成出来的信号。但三维空间本身并没有绝对的前后左右之分，它是全对称的，没有一种天然的方式对其中的信号进行排序。

序列生成的方法不仅反直觉、不自然，也打破了三维数据本身的规律，无法取得好的生成效果和速度：

如果想在秒级内生成高质量网格，不可能走自回归路线——要生成几万个多边形，以当下的算力和范式不可能在一秒内自回归生成数万token。

而Tripo P1.0的关键技术创新，就是采用 “整体生成” 的方法：对三角形或多边形的点线面进行统一的概率建模，生成出来的模型同时具有几何和拓扑结构。

基于这一方法，Tripo P1.0可以做到 2秒内极速生成。曹炎培表示，传统方法慢得不合理，生成三维网格信号本就不需要几百秒的时间，而 VAST只是让它进入了对的路径，达到了本该有的速度。

一些用户试用Tripo P1.0后给出的评价是：它生成出的模型，已经几乎和经验丰富的专业建模师设计出来的模型毫无区别。

而曹炎培透露，VAST内部评估，在部分细节展现及造型要求非常严格的工业场景，模型还有提升空间，但整体已经达到了多年工作经验设计师的九成水平。

我们对P1.0的期待，也是它实际能做到的，是让更多以前不了解什么是3D模型的用户跳过对建模工具的学习，甚至不需要知道世界上有建模工具的存在，就可以得到一个在目标场景里、符合用户意图的3D资产。

当获取内容的门槛降到无限低之后，UGC平台自然就会爆发。AI时代限制大家创作的不再是技能或工具本身，只要有想象力，就有各种各样的模型和AI可以帮助完成创作。

曹炎培透露，今年VAST将推出自己的UGC 3D平台。H系列和P系列模型负责创造世界中的实体，世界模型及代码生成模型负责模拟这些实体随时间的变化和空间交互。在这些计算能力之上，他们希望打造一个比Roblox和Minecraft门槛更低的AI原生UGC互动平台。

在这个UGC平台上，用户可以创作和浏览可互动的3D内容，并在社区分享与传播，类似一个 “3D版TikTok”。

另外，曹炎培也向我们透露了VAST研究世界模型的最新进展：很快会有demo公布，它会是一个具备交互能力的世界。

在曹炎培看来，Tripo P1.0的发布，标志着 AI 3D⼤模型算法范式正式进⼊2.0阶段。他认为，AI 3D的1.0时代可以定义为追求视觉或几何拟真的时代：

过去几年大家追求的，就是让AI生成的3D看起来更真实更细节，包括纹理层面和几何层面都要精细。技术路线经历了几波发展，但归根到底追求的是“看起来好”。

而2.0时代具备三个特征：第一，原生资产，不需要再做复杂转化；第二，生成的资产具有功能性，具备可以参与交互和运动的特性，比如机器人中的关节结构或动画制作中的骨骼结构；第三，打破速度、质量、可用性的“不可能三角” 。

这三点，Tripo P1.0都可以做到。

关键技术的创新和突破，也给足了VAST底气。当被问及“VAST目前处于行业什么地位”时，曹炎培毫不犹豫地表示：现在VAST处在全球3D领域全栈领军的位置。

在生成质量方面，H3.1是此时此刻最好的高模生成模型。在底层思考和整个范式重构方面，我们不只是率先提出原生网格生成的思想，更是快速地把它做成了大家可以在产品上体验的P1.0模型，定义了极速生成的速度和性能天花板。

某种程度上它确立了现代3D生成和引擎工具、图形标准之间的一种底层连接，背后是定义和发明新的原生3D表征的能力，这在整个赛道是很强的话语权。

以下是量子位与曹炎培的部分对话实录，在不改变原意的基础上，进行了适当的整理和润色，各位enjoy~

Tripo P1.0：重构AI 3D底层范式

量子位：过去几年，Tripo的H系列不断迭代，在行业中也达到了SOTA水平，为什么团队现在仍然决定从底层重新设计一套P系列模型？最初是基于什么问题重新思考3D生成算法架构的？

曹炎培：先讲一下H系列的历史和迭代。早期3D生成能力普遍一般时，大家首先追求外观上尽可能高质量、可用，和图像、视频生成的目标一样——分辨率高、条件对齐好、可控、可编辑。Tripo从1.0到1.4、2.0、2.5、3.0、3.1，整个H系列都在解决解析度、保真度、分辨率极限的问题，也做了很强的模型、算力、数据scaling。

H系列确实已经在很多场景用起来了，比如拓竹MakerWorld等消费级3D打印社区，用户可以直接调用我们的API生成模型再打印；H3.0之后，很多影视特效或3A角色的参考建模也够用了。

但在实时图形领域，大家更关注效率和渲染预算，非常追求网格本身的性质。原因有几个：一方面GPU能同时渲染的三角形和多边形数量仍然有限，为了节约成本，做游戏或交互内容时要尽可能用更少的多边形表示资产，以让场景容量更大、帧率更高、画面更流畅。

另一方面，整个3D行业的纹理、动画等工作流都建立在多边形网格基础上——比如动画对拓扑质量要求格外高，希望肩膀、肘部等大形变部位有规整的拓扑线；UV的分界也需要和几何分界强对应，方便贴图。

（注：UV指UV映射，是把3D模型表面“展开”到二维平面上的坐标系统，用来贴纹理）

所以传统高模生成面对这些问题局限性很大。过去几个月也有人用自回归方式逐个token、逐个三角形来生成，但效率和效果都不尽如人意。市面上能提供智能拓扑能力的服务，可能需要好几百秒才能从高模得到精细拓扑，严重限制了广泛使用的可能性。

基于这些观察，我们从很早之前就在思考：如果最终想生成多边形网格，为什么要经过那么多中间表示的转化，为什么不能直接在原始信号上学习、做完整全局的生成？

最终在诸多数学巧思、训练基础设施和数据的支持下，我们得到了Tripo P1.0——它能在几秒内生成一个与艺术家制作质量相当的多边形网格，支持几万面的高面数，也能在面数敏感的环境下生成三五百面的模型，并很好地表达形状，真正打开了3D资产的应用场景。

量子位：所以H系列的局限性主要在于它需要的渲染预算比较多，以及大家需要追求网格本身的性质，是这个意思吗？

曹炎培：是的。H系列的追求目标不同，可以认为H是生成雕塑级的三维表现。某些生成结果下，消费级3D打印机已经没法完整展现H3.1的细节，要工业级3D打印才能完整体现非常精细的表面——比如胡须、地毯纹路、精密机械结构、齿轮等，追求的是无损、高保真、高分辨率的还原。

但这样生成出来的资产势必比较“重”，细节要体现在几何上，多边形数就会很高。这不算缺陷，只是这类模型的特点，不特别适配直接用在实时图形中——比如游戏、robotics仿真模拟等环境需要用尽可能少的多边形来表达近似目标的几何形状，而且对多边形排布也有一套艺术家的标准。

量子位：P1.0被定义为重构了底层算法的技术，为什么这样去定义？

曹炎培：这个“重构”有两方面。

第一，以前训练高模要经过很多数据转化。绝大多数训练数据其实都是多边形网格，但为了适应之前的训练范式，需要先转化为SDF或SparseFlex等中间表示再做生成，生成出来又是较重的高模，想用在轻量级应用中还需减面或重拓扑—— 这其实是在原始数据和最终资产之间绕了很远的路径。

Tripo P1.0直接在原始的、世界上广泛存在的多边形网格或三角网格数据上做原生训练，输出结果也是原生的三角网格，绕过了中间表示，生成结果直接可用。

第二方面更偏具体的技术和数学构造思路。过去也有一些方法能做多边形网格生成，比如我们自己的Smart Low Poly的功能，个别友商也有类似的，但问题是很慢，且完整性和形状还原度不理想。

（注：Smart Low Poly指智能低多边形生成，对高多边形模型进行优化，保留轮廓和重要细节，使其非常适合游戏、AR/VR和实时应用程序。）

它的核心误区在于把三维数据强行序列化 ——为什么这么做？因为LLM太成功了，自回归范式太成功了，大家自然想把所有东西变成序列来复用经验。但三维空间本身并不存在一个天然的线性排序。它不会自带先后，也没有哪一个方向在本体上更优先。很多我们习惯使用的方向性描述，其实都建立在特定观察视角、坐标系或任务定义之上，而不是三维空间自身的属性。

强

对话VAST曹炎培：2秒才是3D生成本该有的速度

AI 助手

AI 浏览器助手