跳到主内容
AI
AI产品库AIProductHub.cn
姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲!基模四杰中关村论英雄
✦ AI 文章

姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲!基模四杰中关村论英雄

📅2026/1/6·👁4,021 阅读·🔗 查看原文
#AI资讯#量子位

大模型清华论剑

清华攒了个局,把AI圈大半边天聚到了一块。

基模四杰全员到场:智谱唐杰、Kimi杨植麟、阿里林俊旸,还有……

突然贴脸跳屏的姚顺雨。

这场由清华大学基础模型北京市重点实验室发起的AGI-Next前沿峰会,相当硬核。

各位大咖的演讲简直像是在做技术报告,信息密度极高,而且用词相当犀利。

唐杰:DeepSeek横空出世后,Chat已经基本结束了,下一步是走向做事。

杨植麟:做模型,本质上是在创造一种世界观。

林俊旸:中国想在AI赛道反超,很难。20%这个数字已经很乐观。

姚顺雨:toC的话,大部分人其实用不着那么强的智能。

以下附上演讲原文,为提升可读性,量子位在不改变原意的前提下做了适当调整。

清华论剑

唐杰

我的题目是「让机器像人一样思考」。

2019年,我们在清华的支持下完成成果转化,成立了智谱。

同一时期,我们也持续推动开源,既有模型和工具层面的项目,也有面向开发者的大模型 API 体系。

我在清华待了将近二十年。

回头看,我做的事情其实很简单,主要就两件:

一是早年做AMiner;二是大模型。

有一个对我影响很深的观念,我称之为「像喝咖啡一样做研究」。这件事和今天在座的一位嘉宾密切相关——杨强教授。

刚毕业那会儿我去港科大,学校几乎所有空间都在一栋楼里:教室、实验室、会议室、咖啡厅都在一起。

有一次在咖啡厅遇到杨老师,我说最近咖啡喝得有点多,可能该戒一戒。

他先说「对,应该戒一戒」,接着又说,如果我们做研究也能像喝咖啡一样上瘾,那研究大概就真的能做好了。

这句话对我触动很大,从2008年一直影响到现在。

做研究,本质上需要长期专注和持续投入。AGI正是这样一件事,它并不追求短期见效,而是一项多年投入的工程。

2019 年,我们实验室在图神经网络和知识图谱方向已经有一定国际影响力,但当时还是下定决心阶段性按下暂停键,几乎所有人都转向大模型相关研究。到今天,算是做出了一点点成果。

如果从大模型的发展轨迹来看,用「智能水平」来描述会比较直观。

2020年前后,模型主要解决的是MMU、QA等相对简单的问题;到2021、2022 年,开始进入数学计算和基础推理阶段;通过后训练,这些能力逐步被补齐。

到2023、2024年,模型从知识记忆走向复杂推理,甚至可以处理研究生层级的问题,并开始在SWE-bench这类真实世界编程任务中表现出可用性。

这个过程很像人的成长:从阅读、算术,到更复杂的推理,再到走向真实工作场景。

今年开始,大家也看到 HLE,也就是「人类终极测试」,其中不少问题连搜索引擎都无法直接给出答案,要求模型具备更强的泛化能力。

如何解决,目前仍然没有确定答案,但可以确认的是,到2025年,模型的整体能力仍在快速提升。

从另一个角度看,一个核心问题是:模型如何从Scaling走向真正的泛化能力。

人类一直期待机器具备泛化能力。教它少量例子,就能举一反三,解决更多甚至未见过的问题。

这和我们教孩子的期望一致:学会三个问题,就能解出第四个、第十个,甚至超出原本教学范围。

当前的路径,是希望通过Scaling提升这种泛化能力。但客观来说,模型的泛化水平仍有很大提升空间,我们只能在不同层面持续推进。

最早期的阶段,是用Transformer训练模型,通过大规模数据和算力,把大量知识「记住」。

第二个阶段,是对模型进行对齐和推理能力强化,让它更好地理解人类意图,并完成更复杂的推理任务。

这需要持续ScalingSFT,甚至引入强化学习。通过大量人类反馈数据,不断扩大反馈规模,使模型更准确、更可靠。

今年一个重要变化是RLVR。

过去强化学习难以大规模推进,核心原因在于依赖人类反馈,而人类反馈存在噪音大、覆盖场景有限的问题。如果引入可验证环境,模型就可以自主探索、自动获得反馈,在闭环中持续成长。

但这里的难点也非常明显。所谓「可验证」,在数学、编程等领域相对容易定义;可一旦扩展到更广泛的任务,比如网页是否美观、交互是否合理,仍需人工判断。

因此,当前RLVR面临的挑战在于:可验证场景正在逐渐耗尽。接下来是否能进入半自动验证,甚至不可验证的任务空间,让模型能力继续泛化,这是一个关键问题。

再往前看,当机器开始进入物理世界、执行真实任务时,如何构建智能体的环境、如何设计反馈机制,会带来更多挑战。可以看到,AI的发展已经不再局限于单一模型或Transformer结构,而是在演变为一个复杂的、系统化的智能体系。

从能力结构上看,模型最初集中在数理化等推理任务,从小学、初中、高中层级,逐步提升到GPQA等高难度理化生问题,再到接近奥赛金牌水平。今年HLE这一极高难度的智能评测基准,也开始出现明显进展。

在真实环境中,代码能力是另一个典型例子。2021年已经存在代码模型,当时也和俊旸、Kimi植麟等有过合作,那一阶段模型具备基础编程能力,但成功率和稳定性有限,往往写十个程序才能跑通一个。

如今情况发生了明显变化,模型在复杂任务中往往可以一次性跑通,已经开始实质性地辅助高级工程师完成更复杂的工程工作。

很多人会问,智能不断增强,是否只要持续把模型训练下去就可以了?

DeepSeek横空出世,当时我们在内部反复讨论一个问题:

Chat这一代问题基本已经被解决得差不多。继续优化,大概率也只是做到性能接近,或在个性化、情感化上做一些改进。从整体范式看,空间正在迅速收敛,剩下更多是工程和实现层面的挑战。

这迫使我们思考下一步方向。我们的判断是,新的范式不再只是「对话」,而是让每个人真正用AI完成一件具体的事情。

从Chat走向做事,这是一个明显的转折点。

当时摆在我们面前的,主要有两条思路:一条是围绕Thinking能力,结合Coding与Agent;

另一条是让模型更深度地与环境交互,用AI直接辅助研究,例如DeepResearch,生成复杂研究报告。这是一次取舍。

我们最终优先选择了前一条路径,强化Thinking能力并引入Coding场景,同时并未完全放弃与环境交互的方向。

7月28日,我们做了一次尝试,将Coding、Agentic和Reasoning能力整合在同一个模型中。

在7月28日发布的4.5版本中,我们用12个Benchmark做了系统评测,在智能体、推理和代码任务上取得了当时相对领先的结果。

随后我们很快将4.5开放给用户使用,让大家在真实场景中编程。

问题很快暴露出来。比如有用户希望一句话生成一个可玩的植物大战僵尸游戏,包含完整界面、交互逻辑、得分机制和后台系统。4.5在这类真实复杂环境中频繁出Bug,难以完成任务。

这正好指向RLVR可验证强化学习的价值。我们构建了大量真实编程环境,将其作为强化学习的可验证反馈源,同时结合SFT数据进行双向优化,使模型在真实交互中逐步提升稳定性。

类似的方法也被引入到Web场景中,通过Web环境反馈增强可验证性。

在这一策略下,我们在SWE-bench等真实世界评测中取得了较好的成绩,近期也持续保持不错表现。

但Benchmark成绩并不等同于主模型能力。如何将这些能力可靠地回灌到主模型,仍是一个巨大挑战。很多模型在单项Benchmark上表现突出,但用户真实体感未必提升。

另一个挑战在于训练体系本身。RL任务种类多样,序列长度和时间尺度差异极大,难以统一调度。为此,我们开发了一个全异步强化学习训练框架,使不同任务能够并行运行、动态收敛。这一框架也在今年完成了开源。

在此基础上,Agent和Coding能力获得了明显提升。近期发布的4.7版本,相比4.6和4.5,在这两个维度上都有显著进步。

体感评估同样关键。真实用户并不关心模型分数,而关心自己的程序能否跑通、结果是否可靠。为此,我们组织了大量人工评测,邀请经验丰富的工程师对真实编程任务进行主观评估。目前仍有不少问题有待解决,但方向已经逐渐清晰。

在整合这些能力之后,到2025年底,我们在ArtificialAnalysis榜单上取得了一个相对不错的综合成绩,算是阶段性的结果。

再往前一步,当模型真正进入Agent环境并尝试大规模落地时,问题会变得更加复杂。

可以把Agent的最基础能力理解为编程。程序写好后即可执行,对应到Agent中就是一个或几个action。但当任务复杂度继续提升,就会出现完全不同的形态。

左边是Claude提出的computer use,中间是豆包的手机Agent,右边是Manus所做的异步、超长链路任务。

如果你希望AI完成几十步、上百步的任务,比如全天候监控小红书上关于清华大学的讨论,自动整理主题并生成文档,这类任务本质上是完全异步的,也极其复杂。它不可能依赖人工盯着设备执行,更接近于一种Device use层面的能力。

这类问题带来的更大挑战,并不完全在于数据规模。很多应用场景本身几乎没有现成数据,更多是代码逻辑,典型的冷启动问题。

早期我们确实采集并整合了大量数据,通过SFT和特定领域的强化学习,在部分场景中取得了较好效果,但很快会发现一个现实问题:传统的iphone use或手机交互,本质是点按钮,而AI的交互对象并非人。

如果从系统角度看,AI并不需要操作手机界面,最理想的方式是直接调用API。但现实是,设备不可能完全API化,GUI依然存在。

这就需要一种混合方案。在对AI友好的场景下,优先采用API;在对人友好的场景下,让AI模拟人完成GUI操作。通过将API与GUI结合,我们在大量真实环境中采集交互数据,并进行全异步强化学习,使模型逐步获得一定程度的泛化能力。

需要强调的是,这种泛化能力仍然非常有限,与理想状态存在明显差距,但已经具备初步迁移和适应能力。

冷启动带来的另一个问题,是强化学习本身的风险。如果数据不足,模型容易在强化过程中陷入局部最优,表现为策略固化、路径收窄,最终整体效果偏移。

为应对这一问题,我们在训练过程中引入交替机制,在强化学习过程中周期性插入SFT,用以校正方向、恢复多样性,使模型具备一定的容错能力和回拉能力,从而形成可扩展的训练范式。

在移动端环境中,这一策略已经在安卓场景下取得了相对明显的效果提升。

另外在多任务的大模型强调学习上,我们也做了一定的工作,在算法上主要采用多轮的强化学习,工程上本质上就是Scaling,让它更大规模的往下。

今年我们大概在12月份的时候开源了AutoGLM,把里面所有的东西都开源。这个模型是9B模型,可以在人机交互里面动作特别快。

我们在9B规模的模型上引入了大量Agent相关数据,模型在Agent任务上的能力显著增强,但原有的一部分通用语言能力和推理能力会出现下降。它不再是一个完全通用的模型,而是更偏向Agent取向。

在未来更大规模的Agent模型中,如何在强化Agent能力的同时,避免损害通用能力,这是一个需要解决的问题。

2025年也是GLM的开源年。从1月到12月,我们陆续开源了多条模型线,涵盖语言模型、智能体模型以及多模态模型,包括GLM-4.6、4.6V、4.5V等一系列版本。

在Artificial Analysis榜单上,前五名中的蓝色模型几乎全部来自中国,说明中国在开源大模型领域已经形成了非常显著的影响力。

下面一个问题,我们还能否继续Scaling?下一个AGI范式可能是什么?同时也面临更多现实挑战。

在开源取得进展之后,容易产生一种乐观情绪,觉得中国大模型已经在某些维度上超过了美国。但差距未必在缩小,甚至可能在扩大。

下一步我们应该怎么做?

从大模型的发展路径看,它本质上一直在借鉴人脑认知的学习过程。最早阶段,是把世界的长期

…(查看原文获取完整内容)

AI 助手

页面代理

AI 浏览器助手

下方「上网助手」可读外链、搜全网、RSS、GitHub;本页操作可输入指令,或点快捷指令。

需安装扩展点击按钮安装后使用
快捷指令