跳到主内容
AI
AI产品库AIProductHub.cn
彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器
✦ AI 文章

彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

📅2026/3/5·👁2,630 阅读·🔗 查看原文
#AI资讯#量子位

– 量子位

彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

思邈

2B规模吊打传统范式

公众号 QbitAI

多模态大模型的研发范式,正在被彻底重构。

今天, 商汤科技 联合 南洋理工大学 发布了最新技术成果: NEO-unify 。

这是一套真正实现“原生、统一、端到端”的多模态模型架构,其最核心的突破在于:

彻底砍掉了长期以来行业依赖的 视觉编码器(VE)和变分自编码器(VAE) 。不再通过“组件拼凑”来实现感知与生成,回归第一性原理,直接以近乎无损的像素和文字作为原生输入。

通过创新的 混合变换器(Mixture-of-Transformer, MoT) 架构,该模型在同一个体系内打通了视觉与语言的“理解+生成”双向能力。

技术要点一览:

无编码器设计 :越过视觉表征争论,摆脱预训练先验与规模定律瓶颈;

MoT架构 :统一实现视觉与语言的深度融合;

高效利用 :在保持高保真细节恢复的同时,显著提升了数据与算力的利用效率。

这套架构的出现,标志着多模态AI正在从“模态连接”进化为 “原生统一智能体” 。

其无编码器、端到端、多模态统一学习的新路径,也为未来实现 跨模态认知与生成一体化 的智能系统奠定了基础。

当前多模态智能架构困境

长期以来,多模态研究领域普遍遵循着一种默认范式:

视觉编码器(Vision Encoder, VE)负责感知与理解;

变分自编码器(Variational Autoencoder, VAE)用于内容生成。

这种架构虽然在初期推动了领域发展,但也在感知与生成之间划下了一道天然的鸿沟。

为了弥合这一裂痕,近期业界涌现出一系列尝试构建 “共享编码器” 的研究工作。然而,这种折衷方案往往陷入了新的结构性设计权衡。

面对这一挑战,研究视角开始回归第一性原理: 能否构建一个直接处理原生输入(即像素本身与文字本身)的一体化模型?

基于这一思考,商汤科技联合南洋理工大学提出了一种全新的架构范式: NEO-unify(preview) 。

作为一个原生、统一、端到端的多模态模型架构,NEO-unify不仅越过了当前视觉表征的争论,也摆脱了预训练先验和规模定律瓶颈的限制。

最关键的是: 不需要VE,也不需要VAE,NEO-unify实现了多模态处理的真正归一 。

NEO-unify原生一体化架构新范式

NEO-unify第一次迈向真正的端到端统一框架,能够直接从近乎无损的信息输入中学习,并由模型自身塑造内部表征空间。

首先,引入 近似无损的视觉接口 ,用于统一图像的输入与输出表示。

其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架构,使理解与生成能够在同一体系中协同进行。

最终,通过 统一学习框架 实现跨模态训练:文本采用自回归交叉熵目标,视觉通过像素流匹配进行优化。

模型效果

1、定量结果分析

2、生图效果展示

技术发现

1、无编码器设计能够同时保留抽象语义与细粒度表征

图像重建任务

该团队先前的工作NEO(Diao et al., ICLR 2026)表明,原生端到端模型同样能够学习到丰富的语义表征。

在此基础上,他们进一步观察到一个有趣的现象:即使在 冻结理解分支 的情况下,独立的生成分支仍然能够从表示中抽取并恢复 细粒度的视觉细节 。

基于这一发现,团队训练了 NEO-unify(2B) 。

在 初步9万步预训练 后,模型在MS COCO 2017上取得 31.56 PSNR 和 0.85 SSIM ,而Flux VAE的对应指标为 32.65 和 0.91 。

这一结果表明,即使不依赖预训练VE或VAE, 近似无损的原生输入 仍能够同时支持高质量的语义理解与像素级细节保真。

△域外图像重建(2B NEO-unify,理解分支冻结)

图像编辑任务

据此,团队进一步开展探索:NEO-unify将所有全模态条件信息统一输入到理解分支,而生成分支仅负责生成新的图像。

即使在 冻结理解分支 的情况下,NEO-unify(2B) 仍展现出强大的图像编辑能力,同时显著减少了输入图像令牌的数量。

在使用开源生成与图像编辑数据集并进行 初步6万步混合训练 后,模型在ImgEdit基准上取得 3.32 的成绩,且理解分支在整个训练过程中保持冻结。

△小规模数据验证(2B NEO-unify,理解分支冻结)

△ImgEdit提示词编辑(2B NEO-unify,理解分支冻结)

2、无编码器架构与MoT主干高度协同大幅降低内在冲突

借助预训练的理解分支与生成分支,NEO-unify使用相同的中期训练(MT)与监督微调(SFT)数据进行联合训练。

即使在较低的数据比例和损失权重下,理解能力依然保持稳定,而生成能力则收敛很快。二者在MoT主干中协同提升,整体冲突极小。

3、无编码器架构,展现更高数据训练效率

此外,团队先进行了web-scale预训练,随后在多样且高质量的数据语料上依次进行中期训练(MT) 和 监督微调(SFT)。

与Bagel模型相比,NEO-unify展现出 更高的数据训练效率 ,在使用 更少训练token 的情况下取得了更优的性能。

迈向原生统一的下一代智能范式

NEO-unify的意义不止于一次模型架构的创新,它实际上预示着多模态智能正从“组件堆叠”迈向“本质统一”。

这种范式的演进,正在勾勒出通往下一代智能形态的清晰路径:

感知与生成交织的闭环;

全模态与深层视觉推理;

空间智能与世界模型的涌现。

……

这标志着一条全新的技术路线图正在展开:

模型不再在模态之间进行转换,而是能够 原生地跨模态思考 。

在这一愿景下,多模态AI不再只是连接不同系统,而是构建一个 从未被割裂的、高度集成的统一智能体 ,并让所需能力从其内部自然涌现。

据悉,目前相关的研发工作正处于规模化扩张与持续迭代的关键期。一系列基于该架构的模型成果与开源贡献,将在近期陆续向业界发布。

Hugging Face地址:

https://huggingface.co/blog/sensenova/neo-unify

官方博客地址:

https://www.sensetime.com/en/news-detail/51170542?categoryId=1072

https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

AI 助手

页面代理

AI 浏览器助手

下方「上网助手」可读外链、搜全网、RSS、GitHub;本页操作可输入指令,或点快捷指令。

需安装扩展点击按钮安装后使用
快捷指令