姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲！基模四杰中关村论英雄

大模型清华论剑

清华攒了个局，把AI圈大半边天聚到了一块。

基模四杰全员到场：智谱唐杰、Kimi杨植麟、阿里林俊旸，还有……

突然贴脸跳屏的姚顺雨。

这场由清华大学基础模型北京市重点实验室发起的AGI-Next前沿峰会，相当硬核。

各位大咖的演讲简直像是在做技术报告，信息密度极高，而且用词相当犀利。

唐杰：DeepSeek横空出世后，Chat已经基本结束了，下一步是走向做事。

杨植麟：做模型，本质上是在创造一种世界观。

林俊旸：中国想在AI赛道反超，很难。20%这个数字已经很乐观。

姚顺雨：toC的话，大部分人其实用不着那么强的智能。

以下附上演讲原文，为提升可读性，量子位在不改变原意的前提下做了适当调整。

清华论剑

唐杰

我的题目是「让机器像人一样思考」。

2019年，我们在清华的支持下完成成果转化，成立了智谱。

同一时期，我们也持续推动开源，既有模型和工具层面的项目，也有面向开发者的大模型 API 体系。

我在清华待了将近二十年。

回头看，我做的事情其实很简单，主要就两件：

一是早年做AMiner；二是大模型。

有一个对我影响很深的观念，我称之为「像喝咖啡一样做研究」。这件事和今天在座的一位嘉宾密切相关——杨强教授。

刚毕业那会儿我去港科大，学校几乎所有空间都在一栋楼里：教室、实验室、会议室、咖啡厅都在一起。

有一次在咖啡厅遇到杨老师，我说最近咖啡喝得有点多，可能该戒一戒。

他先说「对，应该戒一戒」，接着又说，如果我们做研究也能像喝咖啡一样上瘾，那研究大概就真的能做好了。

这句话对我触动很大，从2008年一直影响到现在。

做研究，本质上需要长期专注和持续投入。AGI正是这样一件事，它并不追求短期见效，而是一项多年投入的工程。

2019 年，我们实验室在图神经网络和知识图谱方向已经有一定国际影响力，但当时还是下定决心阶段性按下暂停键，几乎所有人都转向大模型相关研究。到今天，算是做出了一点点成果。

如果从大模型的发展轨迹来看，用「智能水平」来描述会比较直观。

2020年前后，模型主要解决的是MMU、QA等相对简单的问题；到2021、2022 年，开始进入数学计算和基础推理阶段；通过后训练，这些能力逐步被补齐。

到2023、2024年，模型从知识记忆走向复杂推理，甚至可以处理研究生层级的问题，并开始在SWE-bench这类真实世界编程任务中表现出可用性。

这个过程很像人的成长：从阅读、算术，到更复杂的推理，再到走向真实工作场景。

今年开始，大家也看到 HLE，也就是「人类终极测试」，其中不少问题连搜索引擎都无法直接给出答案，要求模型具备更强的泛化能力。

如何解决，目前仍然没有确定答案，但可以确认的是，到2025年，模型的整体能力仍在快速提升。

从另一个角度看，一个核心问题是：模型如何从Scaling走向真正的泛化能力。

人类一直期待机器具备泛化能力。教它少量例子，就能举一反三，解决更多甚至未见过的问题。

这和我们教孩子的期望一致：学会三个问题，就能解出第四个、第十个，甚至超出原本教学范围。

当前的路径，是希望通过Scaling提升这种泛化能力。但客观来说，模型的泛化水平仍有很大提升空间，我们只能在不同层面持续推进。

最早期的阶段，是用Transformer训练模型，通过大规模数据和算力，把大量知识「记住」。

第二个阶段，是对模型进行对齐和推理能力强化，让它更好地理解人类意图，并完成更复杂的推理任务。

这需要持续ScalingSFT，甚至引入强化学习。通过大量人类反馈数据，不断扩大反馈规模，使模型更准确、更可靠。

今年一个重要变化是RLVR。

过去强化学习难以大规模推进，核心原因在于依赖人类反馈，而人类反馈存在噪音大、覆盖场景有限的问题。如果引入可验证环境，模型就可以自主探索、自动获得反馈，在闭环中持续成长。

但这里的难点也非常明显。所谓「可验证」，在数学、编程等领域相对容易定义；可一旦扩展到更广泛的任务，比如网页是否美观、交互是否合理，仍需人工判断。

因此，当前RLVR面临的挑战在于：可验证场景正在逐渐耗尽。接下来是否能进入半自动验证，甚至不可验证的任务空间，让模型能力继续泛化，这是一个关键问题。

再往前看，当机器开始进入物理世界、执行真实任务时，如何构建智能体的环境、如何设计反馈机制，会带来更多挑战。可以看到，AI的发展已经不再局限于单一模型或Transformer结构，而是在演变为一个复杂的、系统化的智能体系。

从能力结构上看，模型最初集中在数理化等推理任务，从小学、初中、高中层级，逐步提升到GPQA等高难度理化生问题，再到接近奥赛金牌水平。今年HLE这一极高难度的智能评测基准，也开始出现明显进展。

在真实环境中，代码能力是另一个典型例子。2021年已经存在代码模型，当时也和俊旸、Kimi植麟等有过合作，那一阶段模型具备基础编程能力，但成功率和稳定性有限，往往写十个程序才能跑通一个。

如今情况发生了明显变化，模型在复杂任务中往往可以一次性跑通，已经开始实质性地辅助高级工程师完成更复杂的工程工作。

很多人会问，智能不断增强，是否只要持续把模型训练下去就可以了？

DeepSeek横空出世，当时我们在内部反复讨论一个问题：

Chat这一代问题基本已经被解决得差不多。继续优化，大概率也只是做到性能接近，或在个性化、情感化上做一些改进。从整体范式看，空间正在迅速收敛，剩下更多是工程和实现层面的挑战。

这迫使我们思考下一步方向。我们的判断是，新的范式不再只是「对话」，而是让每个人真正用AI完成一件具体的事情。

从Chat走向做事，这是一个明显的转折点。

当时摆在我们面前的，主要有两条思路：一条是围绕Thinking能力，结合Coding与Agent；

另一条是让模型更深度地与环境交互，用AI直接辅助研究，例如DeepResearch，生成复杂研究报告。这是一次取舍。

我们最终优先选择了前一条路径，强化Thinking能力并引入Coding场景，同时并未完全放弃与环境交互的方向。

7月28日，我们做了一次尝试，将Coding、Agentic和Reasoning能力整合在同一个模型中。

在7月28日发布的4.5版本中，我们用12个Benchmark做了系统评测，在智能体、推理和代码任务上取得了当时相对领先的结果。

随后我们很快将4.5开放给用户使用，让大家在真实场景中编程。

问题很快暴露出来。比如有用户希望一句话生成一个可玩的植物大战僵尸游戏，包含完整界面、交互逻辑、得分机制和后台系统。4.5在这类真实复杂环境中频繁出Bug，难以完成任务。

这正好指向RLVR可验证强化学习的价值。我们构建了大量真实编程环境，将其作为强化学习的可验证反馈源，同时结合SFT数据进行双向优化，使模型在真实交互中逐步提升稳定性。

类似的方法也被引入到Web场景中，通过Web环境反馈增强可验证性。

在这一策略下，我们在SWE-bench等真实世界评测中取得了较好的成绩，近期也持续保持不错表现。

但Benchmark成绩并不等同于主模型能力。如何将这些能力可靠地回灌到主模型，仍是一个巨大挑战。很多模型在单项Benchmark上表现突出，但用户真实体感未必提升。

另一个挑战在于训练体系本身。RL任务种类多样，序列长度和时间尺度差异极大，难以统一调度。为此，我们开发了一个全异步强化学习训练框架，使不同任务能够并行运行、动态收敛。这一框架也在今年完成了开源。

在此基础上，Agent和Coding能力获得了明显提升。近期发布的4.7版本，相比4.6和4.5，在这两个维度上都有显著进步。

体感评估同样关键。真实用户并不关心模型分数，而关心自己的程序能否跑通、结果是否可靠。为此，我们组织了大量人工评测，邀请经验丰富的工程师对真实编程任务进行主观评估。目前仍有不少问题有待解决，但方向已经逐渐清晰。

在整合这些能力之后，到2025年底，我们在ArtificialAnalysis榜单上取得了一个相对不错的综合成绩，算是阶段性的结果。

再往前一步，当模型真正进入Agent环境并尝试大规模落地时，问题会变得更加复杂。

可以把Agent的最基础能力理解为编程。程序写好后即可执行，对应到Agent中就是一个或几个action。但当任务复杂度继续提升，就会出现完全不同的形态。

左边是Claude提出的computer use，中间是豆包的手机Agent，右边是Manus所做的异步、超长链路任务。

如果你希望AI完成几十步、上百步的任务，比如全天候监控小红书上关于清华大学的讨论，自动整理主题并生成文档，这类任务本质上是完全异步的，也极其复杂。它不可能依赖人工盯着设备执行，更接近于一种Device use层面的能力。

这类问题带来的更大挑战，并不完全在于数据规模。很多应用场景本身几乎没有现成数据，更多是代码逻辑，典型的冷启动问题。

早期我们确实采集并整合了大量数据，通过SFT和特定领域的强化学习，在部分场景中取得了较好效果，但很快会发现一个现实问题：传统的iphone use或手机交互，本质是点按钮，而AI的交互对象并非人。

如果从系统角度看，AI并不需要操作手机界面，最理想的方式是直接调用API。但现实是，设备不可能完全API化，GUI依然存在。

这就需要一种混合方案。在对AI友好的场景下，优先采用API；在对人友好的场景下，让AI模拟人完成GUI操作。通过将API与GUI结合，我们在大量真实环境中采集交互数据，并进行全异步强化学习，使模型逐步获得一定程度的泛化能力。

需要强调的是，这种泛化能力仍然非常有限，与理想状态存在明显差距，但已经具备初步迁移和适应能力。

冷启动带来的另一个问题，是强化学习本身的风险。如果数据不足，模型容易在强化过程中陷入局部最优，表现为策略固化、路径收窄，最终整体效果偏移。

为应对这一问题，我们在训练过程中引入交替机制，在强化学习过程中周期性插入SFT，用以校正方向、恢复多样性，使模型具备一定的容错能力和回拉能力，从而形成可扩展的训练范式。

在移动端环境中，这一策略已经在安卓场景下取得了相对明显的效果提升。

另外在多任务的大模型强调学习上，我们也做了一定的工作，在算法上主要采用多轮的强化学习，工程上本质上就是Scaling，让它更大规模的往下。

今年我们大概在12月份的时候开源了AutoGLM，把里面所有的东西都开源。这个模型是9B模型，可以在人机交互里面动作特别快。

我们在9B规模的模型上引入了大量Agent相关数据，模型在Agent任务上的能力显著增强，但原有的一部分通用语言能力和推理能力会出现下降。它不再是一个完全通用的模型，而是更偏向Agent取向。

在未来更大规模的Agent模型中，如何在强化Agent能力的同时，避免损害通用能力，这是一个需要解决的问题。

2025年也是GLM的开源年。从1月到12月，我们陆续开源了多条模型线，涵盖语言模型、智能体模型以及多模态模型，包括GLM-4.6、4.6V、4.5V等一系列版本。

在Artificial Analysis榜单上，前五名中的蓝色模型几乎全部来自中国，说明中国在开源大模型领域已经形成了非常显著的影响力。

下面一个问题，我们还能否继续Scaling？下一个AGI范式可能是什么？同时也面临更多现实挑战。

在开源取得进展之后，容易产生一种乐观情绪，觉得中国大模型已经在某些维度上超过了美国。但差距未必在缩小，甚至可能在扩大。

下一步我们应该怎么做？

从大模型的发展路径看，它本质上一直在借鉴人脑认知的学习过程。最早阶段，是把世界的长期

…（查看原文获取完整内容）

姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲！基模四杰中关村论英雄

AI 助手

AI 浏览器助手