今天六大网上靠谱股票配资平台,上海人工智能实验室向社会用户开放了实验室开发的“书生·浦语”大模型,并在这个大模型界面上发布了强推理模型InternThinker(书生思想者)。InternThinker模型具有长思维能力,并能在推理过程中进行反思和纠正,从而在数学、代码、推理谜题等多种复杂推理任务上取得更优结果。
据介绍,上海人工智能实验室一直在开展强推理模型的原创研究,探索出一条高效构建高质量思维链的路径。在训练数据侧,实验室在国内率先开发出大规模合成数据技术;在任务场景侧,InternThinker模型在数学、代码、推理谜题等多种场景中,都能展现出较强的推理能力,并具备一定的任务泛化性。
InternThinker研发团队针对专业任务构建了大规模的沙盒环境。
为高效提升模型的推理能力,实验室研发团队采用了更接近人类学习方式的路径。人在学习解决复杂推理任务时,并非从海量的样本中学习单点知识,而是学习一种思维模式——在解决问题的过程中,通过回忆相关知识点,对正确的解题过程进行理解、记忆,对错误解题等过程进行反思和修正。这种人类学习的能力被称为“元认知”能力。“元认知”理论认为,通过显式地引导和感知人在解决问题过程中的思维模式,可提升复杂任务的学习和解决效果。
受这一理论的启发,研发团队设计了一系列“元动作”来引导模型解决问题的过程,如对问题的理解、知识回忆、规划、执行、反思、总结等。InternThinker在面对复杂任务时,会显式且动态地选择“元动作”,再进一步展开相关动作的具体思维过程。通过这种设计,研发团队利用部分训练任务,可强化模型对关键“元动作”组合的使用,显著提升模型学习效率。
在未经“元动作”引导和学习的情况下,模型在解决问题时多采用链式推理策略,难以解决更加复杂的任务并进行自我纠错。经过“元动作”的引导和学习后,模型能够在解决复杂任务时自发使用“回忆知识—解答”“执行—反思”等策略组合。
面对丰富多样的推理任务,如何准确地获得过程和结果反馈尤为关键。为此,研究人员针对专业任务构建了大规模的沙盒环境(为运行中的程序提供的隔离环境),为可形式化验证的推理任务提供反馈信号。通过自动化专家模型、人机协同策略生成等方法,他们构建了50种以上不同逻辑思维方式的推理任务思考过程,将执行专业任务的能力融合到InternThinker中。
这个强推理模型解决复杂问题的能力如何?上海人工智能实验室展示了多个案例。
“袋子A中装有2张10元纸币和3张1元纸币,袋子B中装有4张5元纸币和3张1元纸币。现随机从两个袋子中各取出两张纸币,则A中剩下的纸币面值之和大于B中剩下的纸币面值之和的概率是多少?”面对这道“烧脑”的概率问题,采用链式思维策略的推理模型给出了4/7这一错误答案,而InternThinker采用“元动作”引导的多样策略,经过问题理解、回忆知识、思路规划、执行、反思检查等多个推理步骤,得出了9/35这一正确答案。
自从八路军队伍诞生后,他们便成了为了中国人心目中的一抹神圣的存在。是他们帮助中国人从动荡、黑暗的历史中走向光明,去迎接一个崭新的中国。
InternThinker与其他推理模型解答概率问题的过程比较
在解答今年全国高中生数学竞赛联赛题目、Leetcode(面向全球信息技术人才的技能成长平台)本月发布的代码编写赛题、填字游戏等“烧脑”题目时,InternThinker也有很好表现。
InternThinker解答今年9月全国高中生数学竞赛联赛一道题目的过程六大网上靠谱股票配资平台