加载中... --°C -- · --% · --
|
加载中... --°C -- · --% · --

姚顺雨“露脸”,和唐杰杨植麟探讨AGI之路

经验分享 论文写作 AI工具
姚顺雨“露脸”,和唐杰杨植麟探讨AGI之路
摘要

在近日举行的AGI-Next前沿峰会上,清华大学教授唐杰、Kimi创始人杨植麟、腾讯首席科学家姚顺雨等业界专家探讨了AGI发展路径。与会者认为,2026年AI for Science有望迎来爆发,强化学习特别是RLVR正成为主流训练范式,推动模型自主学习能力。同时,大模型在ToB与ToC领域呈现分化趋势,Agent应用潜力巨大,但当前对GDP的实际影响仍不足

文 | 字母AI

“我相信今年可能是AI for Science的一个爆发年,因为很多能力大大提升,我们可以做更多的事情。”在昨日举行的AGI-Next前沿峰会上,清华大学教授、智谱首席科学家唐杰这样说道。

据了解,该峰会由清华大学基础模型北京重点实验室发起,旨在探讨全球AGI发展的新范式与面临的挑战。

活动还邀请了Kimi创始人、CEO杨植麟,阿里Qwen技术负责人林俊旸,加拿大皇家学院院士、香港科技大学荣休教授杨强,以及此前被腾讯高调官宣的CEO首席科学家姚顺雨参与了报告和分享,中国“开源四杰”一次聚齐了三家。

“开源四杰”是DeepLearning.AI创始人、斯坦福大学兼职教授吴恩达给出的定义,他曾在社媒上表示,尽管美国在顶尖闭源模型上保持优势,但在开源领域,中国的DeepSeek R1、Kimi K2、Qwen3和GLM-4.5等模型已经领先于美国最好的开源产品。

最近一段时间,中国大模型企业也在资本市场上动作不断。就在本场峰会举办的前三天,智谱刚刚在港交所敲钟上市。本周,智谱股价已上扬至158港元,市值来到700亿港元。

而在几周前,月之暗面方面宣布刚刚完成了一轮5亿美元规模融资,投后估值来到43亿美元。

“开源四杰”中未能在本次活动现身的DeepSeek,也在近期传出将在今年2月中旬推出DeepSeek V4的传闻,外媒报道称其将具备更强的编码能力。

2026刚刚开年,中国大模型围场已经热闹起来。

01“大模型应对GDP产生5%-10%的影响”

在圆桌座谈环节,姚顺雨并未现身活动现场,而是远程加入了这场关于AGI新范式的讨论。

“对于ToC来说,大部分人不需要用到这么强的智能。今天用ChatGPT和去年相比,写交换代数和伽罗瓦理论的能力变强了,但是大部分人基本感受不到。”在谈及对模型路线分化的看法时,姚顺雨表示,大模型在ToC和ToB,以及模型和应用分层两个维度上,都发生了明显的分化。

“AI Coding夸张一点来讲,已经在重塑整个计算机行业做事的方式,人不再是写代码,而是用自然语言和电脑去交流。”在姚顺雨看来,ToB行业正呈现一个模型分化趋势,即大部分用户其实更倾向于用最强的模型。“最好的模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月。我们发现像很多美国人愿意溢价用最好的模型。”

在姚顺雨看来,AI在ToC应用上的垂直整合已经看到效果,无论是ChatGPT还是豆包,模型和产品是强耦合、紧密迭代的,“但对于ToB而言,这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西,应用好的模型在不同的生产力环节。”

“这一仗从DeepSeek出来之后,已经结束了。”说起模型分化,唐杰坦言,DeepSeek在2025年初的横空出世,已经终结了大模型排队做对话和搜索的时代,让他开始思考下一阶段一定要“让AI做一件事情”。他表示,在和团队争论很久后,才决定把重心放在Coding上。

而在谈到当下RL(强化学习)正成为行业主流训练方式时,尤其是RLVR(编者注:可验证奖励强化学习,一种在既定标准下的机器自主学习),姚顺雨给出了他的观察。

“现在自主学习是一个非常热门的词,在硅谷的大街小巷,甚至路边的咖啡馆里,大家都在谈论。”谈及模型自主学习的技术路线,姚顺雨表示,自主学习会面临“在什么场景下,基于什么奖励函数做”的问题,比如掌握某一业务场景的代码能力,和学习某一种自然科学,是完全不同的自主学习方法论。

“这个事情其实已经发生了。”姚顺雨提到,OpenAI就在利用用户数据不断弥合人聊天的风格,Claude已经为自身这个项目完成了95%的代码,这都可以算是一种自主学习。

在姚顺雨看来,自主学习在过去一年中已出现清晰信号。他提到,Cursor团队已在真实环境中,实现按小时级别用最新用户数据持续学习与迭代,尽管受限于预训练能力,整体效果仍不及OpenAI,但路径的可行性已被证明。

“我对今年会有非常大的范式革新有信心,在持续学习、模型记忆能力,甚至多模态领域,都有可能出现新的范式变革。”在唐杰的表述中,这份信心来源于在大模型研发领域,学术界正在跟上工业界的脚步。

“两年前,一些高校老师手上都没有卡(算力),如今很多高校都有了算力配置,也开始进行大模型架构、持续学习的相关研究。”在唐杰看来,学术界已经加速铺开AI研究的土壤,有望孵化出新的创新种子。

“一个创新的出现,一定是某个事情有大量的投入,并且它的Efficiency(这里指模型训练的投入产出比)到了瓶颈。”唐杰进一步解释这一观点。他表示,如果AI行业继续Scaling,尽管这样做仍会有收益,但当成本到达某一个数量级,就需要训练范式的创新。

“一方面既然要Scaling up,Scaling肯定会带来智能上界的提升;但同时应该定义Intelligence Efficiency,即智能的效率,用更少的投入获得智能的增量。”唐杰这样总结他对未来模型训练范式的观察。

另一边,作为Agent领域的知名研究学者,姚顺雨也分享了他对Agent迭代的前瞻。

“目前看来,ToB或者说生产力Agent才刚刚开始。”姚顺雨表示,即使今天开始,世界上所有的模型训练全部停止,但是把这些模型部署到企业中,已经能带来10倍甚至100倍的收益。“大模型应对GDP产生5%-10%的影响,但是今天它对GDP的影响还不到1%。”

而在唐杰看来,判断一个Agent的功能逻辑是否成立,首先要看它是否真正解决了对人有价值的问题。早期不少Agent看似复杂,但最终发现通过更好的Prompt或基础能力即可完成,独立Agent的存在价值随之消失。

“基座的应用永远是矛盾。”唐杰表示,如果实现成本过高,而调用现成API就能解决,Agent的合理性就会被削弱;但一旦需求价值足够大,基座模型又可能把能力直接吸收进来。

对于Agent的演进,加拿大皇家学院院士、香港科技大学荣休教授杨强将其划分为四个阶段:从目标与规划均由人定义,到逐步由模型参与,再到完全由大模型内生完成。他指出,当前阶段的Agent仍高度依赖人工设定,本质是工具化系统;真正的拐点在于模型开始观察人类工作并利用真实数据,进而自主生成目标与行动路径。

对于Agent的未来,杨强给出了他的定义:“Agent应该是由大模型内生的一个native系统。”

“很多时候不是说人类替代了人类工作,而是会使用这些工具的人,在替代那些不会使用工具的人。”姚顺雨的另一个观察,来自AI时代大众对大模型认知的参差。

“今天中国能做到一个很有意义的事情,是更好的教育,教育大家怎么更好地使用大模型产品。”姚顺雨如是说道。

02 Scaling仍在继续,但训练范式在变

“今年是RLVR(可验证奖励强化学习)爆发年。”谈及Scaling模式的进化,唐杰表示,在RLVR爆发之前,行业内只能通过人类反馈数据来做,但人类反馈的数据中“噪音”也非常多,而且场景也非常单一。“但如果我们有一个可验证的环境,就可以让机器自己去探索、去发现反馈数据,实现自我成长。”

唐杰所说的RLVR,是指在推理训练中,只对模型最终是否完成目标给反馈,而不评判表达方式或推理风格。系统会依据预设规则自动判断结果:如数学是否得到唯一正确解、代码是否通过测试。模型在多次尝试中,仅当结果被验证成功时才获得奖励,失败则不奖励,从而调整其推理策略。

RLVR的反馈可自动生成、标准一致,因此同一套推理任务可以被反复、大规模(scaling)用于训练。

“大家可能会问,是不是智能越来越强,我们直接把模型不停地训就行了?”在报告环节,唐杰抛出了这样一个问题。他表示,2025年初,DeepSeek的横空出世给了业内很多“震撼”,标志着大模型已经基本解决了Chat(对话)和搜索部分,“这个范式可能基本上快到头了,剩下更多的反而是工程和技术上的问题。”

“今天(行业内)训练的范式发生了很大变化。过往我们不管做什么事情,都会由人工将输入和输出标注出来。”在发言中,阿里Qwen大模型负责人林俊旸同样提及了模型的训练范式。他表示,早期训模型时,只要有标注的数据,有“输入”和“输出”就可以进行训练,“现在则是要把更多的数据,放到实验中去训练。”

林俊旸以xAI为例进一步解释了这一观点。xAI团队此前在直播中透露,Grok 4在RL(强化学习)阶段投入的算力,是市面上其他任何模型的10倍以上。

“如此大规模的RL的数据,我虽然觉得他们有点浪费,但另一方面也意味着RL有很多的想象空间。”林俊旸说道。

“我们发现可能基于MUON二阶优化器,它的效果会非常好,体现在它有两倍的Token Efficiency的提升。”在月之暗面CEO杨植麟的分享中,他反复提到Token Efficiency这个概念,“你的Token Efficiency越高,意味着你可以用尽可能少的Token得到一样的效果。”

杨植麟提到的Muon,是一种用于大模型训练的优化器。在训练过程中,模型会不断计算预测结果与正确答案之间的误差,优化器的任务就是根据这个误差,计算参数该如何更新。优化器不决定模型上限,但会直接影响训练所需的Token数量和算力成本。

“我认为基于先验实现AGI,可能会更早发生。”总结个人观察时,杨植麟表示,Agent训练本质是一个搜索问题:在大量可能的行动与推理路径中,找到有效解。更强的基础模型和预训练,相当于提供更好的先验(Prior,已有知识与约束),能提前排除大量无意义或错误的尝试,从而减少搜索空间、提升Token Efficiency。

“什么是Agent最基础的能力?是编程,(任何)计算机完成编程动作,就可以执行。”唐杰这样解构Agent的技术逻辑。他在现场举例说明,不管是Claude的Computer Use,还是几周前刚刚发布的豆包手机助手,抑或是名声大噪的Manus,“异步”执行都是一个关键属性。

“帮我搜集一下,今天关于清华大学在小红书上所有的讨论,然后将关于某某的全部整理出来,生成相关的文档。”唐杰举例说明,像这样一个任务,往往要经历几十步,甚至上百步流程。AI必须在后台自动运行、持续判断与执行。换言之,大模型在Agent和Coding上的能力,将是一个映射在Device Use(设备端侧使用)上的命题。

在总结环节,唐杰进一步阐释了他的理念,“在我看来计算机有三个能力:第一,计算机的表示和计算;第二,编程;第三,本质上是搜索。”他认为,正是这三种能力的叠加,使计算机具备了走向“超级智能”的潜力。

回到训练层面上,唐杰坦言,他认为Scaling仍将继续,但重点正在发生变化,“已知的是我们不断加数据、不断探索上限。还有Scaling未知,就是我们不知道的新的范式是什么。”

03 做大模型要敢于冒险,走出榜单的束缚

展望下一个AGI的范式和行业未来,唐杰毫不掩饰作为AI研究学者的审视态度:“我们做了一些开源的成功,可能有些人会觉得很兴奋,觉得中国的大模型好像已经超过美国了,但可能真正的答案是,我们的差距目前并未缩小。”

正视挑战和差距的同时,唐杰也分享了他眼中的国产模型发展方向。在他看来,2025年只是多模态适应的适应期。未来关键在于,模型能否像人类一样,把视觉、声音、触觉等信息统一整合,形成原生、多源协同的整体感知能力,这是多模态能力跃迁的核心难题。

唐杰进一步指出,大模型在记忆、持续学习与自我认知上仍明显不足。当前模型缺乏分层记忆结构,如何把个人记忆扩展为可长期保存的人类集体知识,并在此基础上探索反思与自我认知能力,将是下一阶段最具挑战、也最值得投入的方向。

“目前的模型已经有一定的反思能力,但如何形成自我认知还是很难的问题。”唐杰表示,对于大模型是否能有自我认知,在基础模型研究领域一直都存在争议,“我觉得模型的自我认识是有可能的,这个领域值得我们探索。”

“在国内,大家对于刷榜或者数字看得更重一些。”在对话中,姚顺雨对当下的AI研究文化也给出了个人视角的观察。他以DeepSeek为例阐述这一观点:“他们(DeepSeek)就没有那么关注榜单的数字,反而会更注重:第一,什么是正确的事情;第二,什么是你自己能体验出好或者不好的。”

他进一步举例,Claude可能在编程或者软件工程的榜单上并非排名最高,但却获得了业内公认的好评。“这需要大家能够走出榜单的束缚,在体验上去感受是不是正确的过程。”

“我们到底能不能引领新的范式,这可能是今天中国AI产业唯一要解决的问题。”姚顺雨坦言,“其他所有做的事情,无论是商业、产业设计还是做工程,我们某种程度上已经比美国做得更好。”

“我还是挺乐观的。”这位1998年出生的AI顶尖学者表示,任何一个新业态一旦被发现,在中国就能够很快复现,甚至局部做得更好,“在制造业、新能源车领域,这样的例子已经不断发生。”

在唐杰看来,中国AI产业的机会,在于聪明且敢冒险的年轻人,在于持续改善的营商环境;而在产业中的每个人身上,“就是我们能不能坚持,能不能在一条路上敢做、敢冒险。”

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

转载信息
原文: 姚顺雨“露脸”,和唐杰杨植麟探讨AGI之路 (2026-01-11T08:29:31)
作者: 字母AI 分类: 科技创业
链接: https://www.tmtpost.com/7838344.html |声明:转载仅供分享;侵权联系删除。
评论 (0)
登录 后发表评论

暂无评论,来留下第一条评论吧