• 首页
  • 家电百科
  • 实时讯息
  • 常识
  • 您现在的位置: 首页 > 实时讯息 >
    无需人工标注,AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力
    时间:2025-06-03 11:57:00

    新加坡国立大学等机构的研究者们通过元能力对齐的训练框架,模仿人类推理的心理学原理,将演绎、归纳与溯因能力融入模型训练。实验结果显示,这一方法不仅提升了模型在数学与编程任务上的性能,还展现出跨领域的可扩展性。

    当AI试图破解数学、编程与科学的难题时,它常常像一位灵感乍现的天才,却又难以稳定发挥。

    新加坡国立大学、清华大学和Salesforce AI Research的研究者,提出了一种革命性的训练框架——元能力对齐,赋予模型稳健的推理能力,让顿悟成为常态。

    论文链接:
    https://arxiv.org/abs/2505.10554

    他们提出了一项使大型推理模型的能力变得更加可控和可靠的训练方法,能够高效地系统化培养大模型的数学,编程和科学问题上的基本推理能力。

    要理解其突破,需要知道何为啊哈时刻,这里指的是在使用纯强化学习训练大模型的时候,大模型偶然展现出的高级推理行为,如自我纠正、回溯和验证等。

    DeepSeek-R1的成功表明,从预训练基础模型或指令微调模型开始,基于规则的纯强化学习能够自发地涌现出长链式思维推理、自我纠正、自我反思等高级行为。

    然而,这些涌现行为的频率和一致性,却始终不可预测且无法控制,这就限制了大模型的推理能力的可扩展性和可靠性。

    实验方法:模仿心理学,让大模型稳定地涌现出推理能力

    要想做到超越「顿悟时刻」就需要借助于心理学家皮尔斯提出的经典推理三元组,该理论指出人类的推理能力,可以分为三个组件间的组合,分别是假设,观察和规则,根据任意两个,可以得出第三个。

    例如根据观察和假设,通过归纳得到可泛化的规则;而基于规则和假设,能根据演绎推断出未来可能的观察结果;至于基于规则和观察,得到假设的过程,称之为溯因。

    图1:皮尔斯提出的推理元能力三元组

    有了这样的分类,研究者据此构建了一个程序,能自动化生成上述三类推理的实例,用于大模型的训练,并对大模型输出的结果自动进行验证,程序生成的任务,是由常见数据组合而成,但又不再训练数据集中的,由此可训练模型的元推理能力。

    例如,在演绎推理(H+R⇒O)中,模型被给定一组逻辑规则R和一个候选真值赋值H作为假设,必须验证整体观察结果O(即所有公式为真)是否成立。

    而在归纳推理(H+O⇒R)中,模型被提供可观察项O和不完整输入H,必须抽象出底层生成规则R;在溯因推理(O+R⇒H)中,模型被给定观察结果O和一个规则图R ,必须反向追踪以恢复能够逻辑解释结论的最小隐藏假设集H。

    下面是作者给出的一个训练数据的例子,以提示词及正确回复的方式出现。

    每个训练实例由自动化生成器产生,并由验证器筛选,从而生成大规模、自我校验的训练数据,完全无需人工标注。

    图2:模型训练的三阶段流程概述:对演绎、归纳和溯因专家进行对齐,在参数空间中合并它们,并持续使用强化学习训练统一模型到下游领域

    具体来看,该架构下的大模型,可视为一个类似混合专家模型的架构,每类专家拿到的训练数据后,先各自提升自己的能力,演绎推理的「专家」,会在训练后产生假设生成、逻辑推论传播、经验一致性检测和纠错。

    归纳专家增强了模型在抽象和泛化方面的基本能力;而溯因专家从目标开始,以假设最小支持性为前提,对照已知事实,高效地进行目标导向的假设形成、验证和修订的重复循环,相当于对因果图进行剪枝。

    这些能力是跨领域进行稳健推理的必要组成部分。

    之后研究者会后通过参数空间融合,将这些专家合并,然后在数学,编程和社交互动这三种场景上分别使用强化学习训练专家模型(称之为Domain-RL-Meta特定领域元强化学习),之后再对训练好的模型进行融合。

    这种训练方法,被称为元能力对齐。

    实验结果:高效且可扩展的训练方式

    对于上述三类任务,该研究对问题难度进行了分级,并采用循序渐进的学习策略,从易到难逐级训练模型。

    按照这个计划,7B模型在2级问题时性能收敛,并且在使用更高级别的训练数据集时,不再提升性能,32B模型偶尔受益于3级难度的训练数据,但奖励曲线不稳定,因此该研究中也没有采用。

    研究者在训练过程中,对于7B模型,每个任务每个级别实验200个实例,对于32B模型,每个任务每个级别适应2000个实例。

    结果显示:相比指令微调基线(Qwen-2.5),基于元能力对齐的训练方法使模型在数学,编程和科学问题的7个模型从没有见过的基准测试上的准确率提高了10%以上,并通过特定领域强化学习获得进一步增益。

    在7B和32B规模下,元能力对齐和合并的模型始终优于指令微调的基线模型,合并后的模型取得了最高增益。

    在7B规模模型上,数学问题的平均分从基准的38.8%提升到Domain-RL-Meta的43.0%;而没有经过元能力对齐,只是进行特定领域的强化学习,训练后的表现只有41.2%。

    参数量扩展至32B时,数学问题上的表现从46.9升至50.3(特定领域强化学习)再升至52.3(元能力对齐+特定领域强化学习),整体平均分从44.6升至47.4再升至48.8。

    对比7B和32B参数量的提升,可看出元能力对齐带来的收益随模型规模增加而扩展,显著提升了各项任务的性能上限,尤其是在数学任务上,合并三种推理模式后,训练好的模型性能提升了11.1%。

    表1:不同参数量下,适应元能力对齐训练的大模型在数学和编程问题上的性能

    这说明该框架为在数学、编程和科学领域提升推理能力提供了一种可扩展、可推广且可控的方法,有助于构建可解释且鲁棒的推理模型。

    这种模块化的训练方式,借鉴了混合专家模型,同时使用来自心理学对人类推理本质的洞见,让大模型的每个专家进行专业分工,擅长一种推理方式,从而能够用小数据集完成快速的性能提升。

    这就如同学生学到了能驾驭各家功夫的小无相功后,能够在各种问题上游刃有余。

    参考资料

    https://www.alphaxiv.org/abs/2505.10554

    https://www.alphaxiv.org/overview/2505.10554

    本文来自微信公众号“新智元”,作者:peter东 英智,36氪经授权发布。

    相关推荐
    • 前四月民营经济总体发展稳中向好
      来源:人民网-人民日报本报北京6月3日电 (记者王观)国家税务总局最新发布的数据显示:今年前4个月,全国民营经济(包括民营企业和个体工商户)纳税人享受支持科技创新和制造业发展的主要政策减税降费及退税3518.8亿元,占比超六成,是税费优惠政策的主要受益对象。一系列税费优惠政策有效激发了民营经济活力。
      时间:2025-06-04 09:03:00
    • 资本市场机遇与挑战并存
      时至年中,中信证券等多家券商召开资本市场论坛,对下半年资本市场进行展望。综合各方观点,下半年资本市场机遇与挑战并存,经济形势、政策走向和行业趋势成为市场关注焦点。中国资产吸引力持续提升今年以来,中国资本市场在复杂多变的国际环境中展现出愈加坚韧的底色。各机构普遍预计,下半年中国资本市场走势转强。“国际
      时间:2025-06-04 06:59:00
    • 无需人工标注,AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力
      新加坡国立大学等机构的研究者们通过元能力对齐的训练框架,模仿人类推理的心理学原理,将演绎、归纳与溯因能力融入模型训练。实验结果显示,这一方法不仅提升了模型在数学与编程任务上的性能,还展现出跨领域的可扩展性。当AI试图破解数学、编程与科学的难题时,它常常像一位灵感乍现的天才,却又难以稳定发挥。新加坡
      时间:2025-06-03 11:57:00
    • 杭州九和魅社区举办感统游戏体验活动 点亮儿童成长能力新体验
      【来源:浙江在线】5月17日上午,九和魅社区幸福邻里三楼传来阵阵欢声笑语,30组家庭齐聚一堂,参与"唤醒身体潜能"感统游戏体验活动。孩子们在专业感统训练师引导下,穿越彩色触觉隧道、挑战平衡木闯关、体验蹦床腾跃,通过多维度的感官刺激游戏,在欢乐中开启身体与大脑的协同成长之旅。活动现场俨然成为儿童潜能开
      时间:2025-05-24 04:58:00
    • AI狂热下的创业众生相
      中经记者 刘旺 北京报道当技术迭代与资本博弈在算法浪潮中碰撞,中国AI创业也经历着从狂热到理性的深刻蜕变。这场由ChatGPT引发的科技革命,不仅重塑了技术应用的边界,更推动着创业生态从“野蛮生长”迈向“精耕细作”。“相比于煤矿产业,未来人工智能(AI)的挖掘与产出,只会越来越多,且更加惠及子孙。”
      时间:2025-05-24 02:17:00

    网站内容来自网络,如有侵权请联系我们,立即删除!
    站长邮箱 87868862@qq.com Copyright © 桀骜百科 琼ICP备2023011085号-7