– 量子位
彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器
思邈
2B规模吊打传统范式
公众号 QbitAI
多模态大模型的研发范式,正在被彻底重构。
今天, 商汤科技 联合 南洋理工大学 发布了最新技术成果: NEO-unify 。
这是一套真正实现“原生、统一、端到端”的多模态模型架构,其最核心的突破在于:
彻底砍掉了长期以来行业依赖的 视觉编码器(VE)和变分自编码器(VAE) 。不再通过“组件拼凑”来实现感知与生成,回归第一性原理,直接以近乎无损的像素和文字作为原生输入。
通过创新的 混合变换器(Mixture-of-Transformer, MoT) 架构,该模型在同一个体系内打通了视觉与语言的“理解+生成”双向能力。
技术要点一览:
无编码器设计 :越过视觉表征争论,摆脱预训练先验与规模定律瓶颈;
MoT架构 :统一实现视觉与语言的深度融合;
高效利用 :在保持高保真细节恢复的同时,显著提升了数据与算力的利用效率。
这套架构的出现,标志着多模态AI正在从“模态连接”进化为 “原生统一智能体” 。
其无编码器、端到端、多模态统一学习的新路径,也为未来实现 跨模态认知与生成一体化 的智能系统奠定了基础。
当前多模态智能架构困境
长期以来,多模态研究领域普遍遵循着一种默认范式:
视觉编码器(Vision Encoder, VE)负责感知与理解;
变分自编码器(Variational Autoencoder, VAE)用于内容生成。
这种架构虽然在初期推动了领域发展,但也在感知与生成之间划下了一道天然的鸿沟。
为了弥合这一裂痕,近期业界涌现出一系列尝试构建 “共享编码器” 的研究工作。然而,这种折衷方案往往陷入了新的结构性设计权衡。
面对这一挑战,研究视角开始回归第一性原理: 能否构建一个直接处理原生输入(即像素本身与文字本身)的一体化模型?
基于这一思考,商汤科技联合南洋理工大学提出了一种全新的架构范式: NEO-unify(preview) 。
作为一个原生、统一、端到端的多模态模型架构,NEO-unify不仅越过了当前视觉表征的争论,也摆脱了预训练先验和规模定律瓶颈的限制。
最关键的是: 不需要VE,也不需要VAE,NEO-unify实现了多模态处理的真正归一 。
NEO-unify原生一体化架构新范式
NEO-unify第一次迈向真正的端到端统一框架,能够直接从近乎无损的信息输入中学习,并由模型自身塑造内部表征空间。
首先,引入 近似无损的视觉接口 ,用于统一图像的输入与输出表示。
其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架构,使理解与生成能够在同一体系中协同进行。
最终,通过 统一学习框架 实现跨模态训练:文本采用自回归交叉熵目标,视觉通过像素流匹配进行优化。
模型效果
1、定量结果分析
2、生图效果展示
技术发现
1、无编码器设计能够同时保留抽象语义与细粒度表征
图像重建任务
该团队先前的工作NEO(Diao et al., ICLR 2026)表明,原生端到端模型同样能够学习到丰富的语义表征。
在此基础上,他们进一步观察到一个有趣的现象:即使在 冻结理解分支 的情况下,独立的生成分支仍然能够从表示中抽取并恢复 细粒度的视觉细节 。
基于这一发现,团队训练了 NEO-unify(2B) 。
在 初步9万步预训练 后,模型在MS COCO 2017上取得 31.56 PSNR 和 0.85 SSIM ,而Flux VAE的对应指标为 32.65 和 0.91 。
这一结果表明,即使不依赖预训练VE或VAE, 近似无损的原生输入 仍能够同时支持高质量的语义理解与像素级细节保真。
△域外图像重建(2B NEO-unify,理解分支冻结)
图像编辑任务
据此,团队进一步开展探索:NEO-unify将所有全模态条件信息统一输入到理解分支,而生成分支仅负责生成新的图像。
即使在 冻结理解分支 的情况下,NEO-unify(2B) 仍展现出强大的图像编辑能力,同时显著减少了输入图像令牌的数量。
在使用开源生成与图像编辑数据集并进行 初步6万步混合训练 后,模型在ImgEdit基准上取得 3.32 的成绩,且理解分支在整个训练过程中保持冻结。
△小规模数据验证(2B NEO-unify,理解分支冻结)
△ImgEdit提示词编辑(2B NEO-unify,理解分支冻结)
2、无编码器架构与MoT主干高度协同大幅降低内在冲突
借助预训练的理解分支与生成分支,NEO-unify使用相同的中期训练(MT)与监督微调(SFT)数据进行联合训练。
即使在较低的数据比例和损失权重下,理解能力依然保持稳定,而生成能力则收敛很快。二者在MoT主干中协同提升,整体冲突极小。
3、无编码器架构,展现更高数据训练效率
此外,团队先进行了web-scale预训练,随后在多样且高质量的数据语料上依次进行中期训练(MT) 和 监督微调(SFT)。
与Bagel模型相比,NEO-unify展现出 更高的数据训练效率 ,在使用 更少训练token 的情况下取得了更优的性能。
迈向原生统一的下一代智能范式
NEO-unify的意义不止于一次模型架构的创新,它实际上预示着多模态智能正从“组件堆叠”迈向“本质统一”。
这种范式的演进,正在勾勒出通往下一代智能形态的清晰路径:
感知与生成交织的闭环;
全模态与深层视觉推理;
空间智能与世界模型的涌现。
……
这标志着一条全新的技术路线图正在展开:
模型不再在模态之间进行转换,而是能够 原生地跨模态思考 。
在这一愿景下,多模态AI不再只是连接不同系统,而是构建一个 从未被割裂的、高度集成的统一智能体 ,并让所需能力从其内部自然涌现。
据悉,目前相关的研发工作正处于规模化扩张与持续迭代的关键期。一系列基于该架构的模型成果与开源贡献,将在近期陆续向业界发布。
Hugging Face地址:
https://huggingface.co/blog/sensenova/neo-unify
官方博客地址:
https://www.sensetime.com/en/news-detail/51170542?categoryId=1072
https://www.sensetime.com/cn/news-detail/51170543?categoryId=72
