无需人工标注,AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力
新加坡国立大学等机构的研究者们通过元能力对齐的训练框架,模仿人类推理的心理学原理,将演绎、归纳与溯因能力融入模型训练。实验结果显示,这一方法不仅提升了模型在数学与编程任务上的性能,还展现出跨领域的可扩展性。
当AI试图破解数学、编程与科学的难题时,它常常像一位灵感乍现的天才,却又难以稳定发挥。
新加坡国立大学、清华大学和Salesforce AI Research的研究者,提出了一种革命性的训练框架——元能力对齐,赋予模型稳健的推理能力,让顿悟成为常态。

论文链接:
https://arxiv.org/abs/2505.10554
他们提出了一项使大型推理模型的能力变得更加可控和可靠的训练方法,能够高效地系统化培养大模型的数学,编程和科学问题上的基本推理能力。
要理解其突破,需要知道何为啊哈时刻,这里指的是在使用纯强化学习训练大模型的时候,大模型偶然展现出的高级推理行为,如自我纠正、回溯和验证等。
DeepSeek-R1的成功表明,从预训练基础模型或指令微调模型开始,基于规则的纯强化学习能够自发地涌现出长链式思维推理、自我纠正、自我反思等高级行为。
然而,这些涌现行为的频率和一致性,却始终不可预测且无法控制,这就限制了大模型的推理能力的可扩展性和可靠性。
实验方法:模仿心理学,让大模型稳定地涌现出推理能力
要想做到超越「顿悟时刻」就需要借助于心理学家皮尔斯提出的经典推理三元组,该理论指出人类的推理能力,可以分为三个组件间的组合,分别是假设,观察和规则,根据任意两个,可以得出第三个。
例如根据观察和假设,通过归纳得到可泛化的规则;而基于规则和假设,能根据演绎推断出未来可能的观察结果;至于基于规则和观察,得到假设的过程,称之为溯因。

图1:皮尔斯提出的推理元能力三元组
有了这样的分类,研究者据此构建了一个程序,能自动化生成上述三类推理的实例,用于大模型的训练,并对大模型输出的结果自动进行验证,程序生成的任务,是由常见数据组合而成,但又不再训练数据集中的,由此可训练模型的元推理能力。
例如,在演绎推理(H+R⇒O)中,模型被给定一组逻辑规则R和一个候选真值赋值H作为假设,必须验证整体观察结果O(即所有公式为真)是否成立。
而在归纳推理(H+O⇒R)中,模型被提供可观察项O和不完整输入H,必须抽象出底层生成规则R;在溯因推理(O+R⇒H)中,模型被给定观察结果O和一个规则图R ,必须反向追踪以恢复能够逻辑解释结论的最小隐藏假设集H。
下面是作者给出的一个训练数据的例子,以提示词及正确回复的方式出现。
每个训练实例由自动化生成器产生,并由验证器筛选,从而生成大规模、自我校验的训练数据,完全无需人工标注。


图2:模型训练的三阶段流程概述:对演绎、归纳和溯因专家进行对齐,在参数空间中合并它们,并持续使用强化学习训练统一模型到下游领域
具体来看,该架构下的大模型,可视为一个类似混合专家模型的架构,每类专家拿到的训练数据后,先各自提升自己的能力,演绎推理的「专家」,会在训练后产生假设生成、逻辑推论传播、经验一致性检测和纠错。
归纳专家增强了模型在抽象和泛化方面的基本能力;而溯因专家从目标开始,以假设最小支持性为前提,对照已知事实,高效地进行目标导向的假设形成、验证和修订的重复循环,相当于对因果图进行剪枝。
这些能力是跨领域进行稳健推理的必要组成部分。
之后研究者会后通过参数空间融合,将这些专家合并,然后在数学,编程和社交互动这三种场景上分别使用强化学习训练专家模型(称之为Domain-RL-Meta特定领域元强化学习),之后再对训练好的模型进行融合。
这种训练方法,被称为元能力对齐。
实验结果:高效且可扩展的训练方式
对于上述三类任务,该研究对问题难度进行了分级,并采用循序渐进的学习策略,从易到难逐级训练模型。
按照这个计划,7B模型在2级问题时性能收敛,并且在使用更高级别的训练数据集时,不再提升性能,32B模型偶尔受益于3级难度的训练数据,但奖励曲线不稳定,因此该研究中也没有采用。
研究者在训练过程中,对于7B模型,每个任务每个级别实验200个实例,对于32B模型,每个任务每个级别适应2000个实例。
结果显示:相比指令微调基线(Qwen-2.5),基于元能力对齐的训练方法使模型在数学,编程和科学问题的7个模型从没有见过的基准测试上的准确率提高了10%以上,并通过特定领域强化学习获得进一步增益。
在7B和32B规模下,元能力对齐和合并的模型始终优于指令微调的基线模型,合并后的模型取得了最高增益。
在7B规模模型上,数学问题的平均分从基准的38.8%提升到Domain-RL-Meta的43.0%;而没有经过元能力对齐,只是进行特定领域的强化学习,训练后的表现只有41.2%。
参数量扩展至32B时,数学问题上的表现从46.9升至50.3(特定领域强化学习)再升至52.3(元能力对齐+特定领域强化学习),整体平均分从44.6升至47.4再升至48.8。
对比7B和32B参数量的提升,可看出元能力对齐带来的收益随模型规模增加而扩展,显著提升了各项任务的性能上限,尤其是在数学任务上,合并三种推理模式后,训练好的模型性能提升了11.1%。

表1:不同参数量下,适应元能力对齐训练的大模型在数学和编程问题上的性能
这说明该框架为在数学、编程和科学领域提升推理能力提供了一种可扩展、可推广且可控的方法,有助于构建可解释且鲁棒的推理模型。
这种模块化的训练方式,借鉴了混合专家模型,同时使用来自心理学对人类推理本质的洞见,让大模型的每个专家进行专业分工,擅长一种推理方式,从而能够用小数据集完成快速的性能提升。
这就如同学生学到了能驾驭各家功夫的小无相功后,能够在各种问题上游刃有余。
参考资料
https://www.alphaxiv.org/abs/2505.10554
https://www.alphaxiv.org/overview/2505.10554
本文来自微信公众号“新智元”,作者:peter东 英智,36氪经授权发布。
相关推荐
-
AI在线办公三国杀升级,飞书5年突围路,法宝是只交付务实能用的AI产品功能本文来源:时代周报 作者:唐洛在线办公平台的三国杀局面,已经进入新阶段。自2020年,飞书宣布向所有企业和组织免费开放,开始与阿里旗下的钉钉、腾讯旗下的企业微信正面竞争。5年过去,在线办公平台的赛道原本由钉钉、企业微信双雄争霸的局面,隐约有天下三分的走势。不过,短短几年,飞书进步神速。在近日的飞书大时间:2025-07-12 19:56:00
-
2025年中国十大品牌咨询与设计公司(排名不分先后)部分参考AI总结1、 君智:(1)成立时间:2010年(2)主要特点:结合孙子兵法开创竞争战略,主张以东方智慧融合西方商业理论,对超大企业竞争有独到经验,帮助客户改变增长模式、增强盈利能力以及提升市场地位。(3)服务客户:曾为多个行业的超大企业提供服务,助力企业在竞争激烈的市场中制定有效的战略规划。时间:2025-07-10 16:33:00
-
如果孩子有这5种表现,说明被你养得很自信孩子的自信不仅是天生的特质,更是父母用正确的方式“养”出来的。自信能够给孩子的成长打下坚实的基础,助力他们勇敢追逐梦想。怎么判断孩子是不是真的自信?其实很简单,看看这5个方面就知道了!展现“温和的坚定”。自信的孩子,面对意见的碰撞,能展现出一种“温和的坚定”。他们不会在冲突面前选择沉默退让,也不会用时间:2025-07-08 09:31:00
-
早资道 | 淘宝闪购日订单超 8000 万;微信灰测聊天记录备份优化功能淘宝闪购日订单超 8000 万,日活用户超 2 亿7月7日消息,淘宝闪购日订单数超 8000 万,非餐饮订单达 1300 万,日活跃用户超过 2 亿。市场总量由 5 月的 1 亿单增至目前的 2 亿单,仅上线两个月。淘宝闪购还启动了为期 12 个月、总额 500 亿元的补贴计划。微信灰测聊天记录备份时间:2025-07-07 09:25:00
-
各地敞开大门加大扶持——推动民企更好参与重大项目国家发展改革委在今年年初表示,持续推进基础设施竞争性领域、国家重大科研基础设施等向民营企业公平开放,支持民营企业积极参与“两重”建设和“两新”工作。目前,各地正不断加大扶持力度,引导民间投资参与重大项目建设,为高质量发展积蓄澎湃动能。进一步扩大准入范围在这场民企与重大项目的“双向奔赴”中,随着准入领时间:2025-07-05 07:09:00
最新推荐
- 双鹿空调24小时售后全国客服受理中心实时反馈-今-日-汇-总(双鹿空调空调噪音 )
- 美的(Midea)中央空调售后服务热线号码-全国各售后号码实时反馈-今-日-汇-总(美的(Midea)中央空调立式空调怎么清洗 )
- 创维空调用户客服中心实时反馈-今-日-汇-总(创维空调中央空调e3 )
- 维克空调用户售后服务中心实时反馈-今-日-更-新(维克空调空调 模式 )
- 麦勒空调售后服务中心实时反馈-今-日-更-新(麦勒空调空调开关 )
- 扬子空调全国维修服务号码实时反馈-今-日-更-新(扬子空调中央空调多联机 )
- 极物空调24h全国统一400客服服务热线(极物空调出风量小、制冷效果差? )
- 美的中央空调售后24小时热线维修服务(美的中央空调空调显示e5 )