
新浪科技讯 1月10日下午消息,清华大学北京重点实验室、智谱AI发起的AGI-Next前沿峰会上,清华大学教授、智谱创始人唐杰指出,“2025年以来,AI大模型在人类终极测试(HLE)这一非常高难度智能评测基准中的表现(成绩)开始快速提升。”
唐杰指出,2020年,AI大模型还只能解决MMU、QA等基础问题;到2021-2022年,通过后训练开始具备数学推理(加减乘除)能力,补齐基础推理短板;2023-2024年,大模型从知识记忆升级至复杂推理,开始可应对研究生阶段问题及SWE bench真实编程任务,类似人类从小学到职场的能力成长过程;而在2025年,模型在人类终极测试中能力快速提升,该测试包含谷歌无法检索的极端冷门问题,需要模型具备强泛化能力。
“一直以来,我们都希望机器(AI)有泛化能力,人们教它一点点,它就能举一反三。”唐杰指出,虽然今天AI的泛化能力还有待大大提高,但智谱乃至于整个行业也正通过一系列手段来提高它。
2020年左右,业界基于Transformer架构,通过扩大数据量与算力,强化模型长时知识记忆能力,实现基础知识的直接调用(如回答“中国的首都是什么”)。到2022年左右,业界开始通过对齐与推理优化,强化复杂推理能力与意图理解,核心手段是持续扩展指令微调(SFT)与强化学习,依托大量人类反馈数据提升模型准确性。而到2025年,业绩开始尝试通过构建可验证环境,让机器自主探索、获取反馈数据实现自我成长并强化泛化能力,解决传统人类反馈数据噪音多、场景单一的问题。(文猛)