当前位置: 江南文明网 > 科技 >

框架,逻辑推理正确率达98%

条评论

框架,逻辑推理正确率达98%

图灵奖得主姚期智领衔的首篇大语言模型论文来了!

一出手,瞄准的就是“让大模型像人一样思考”这个方向——

不仅要让大模型一步步推理,还要让它们学会“步步为营”,记住推理中间的所有正确过程。

具体来说,这篇新论文提出了一种叫做累积推理(Cumulative Reasoning)的新方法,显著提高了大模型搞复杂推理的能力。

姚期智领衔提出大模型“思维”框架,逻辑推理正确率达98%

要知道,大模型基于思维链等,可以进行问题推理,但面对“要拐好几个弯”的问题,还是容易出错。

累积推理正是在此基础上,加入了一个“验证者”,及时判断对错。由此模型的思考框架也从链状和树状,变成了更复杂的“有向无环图”。

这样一来,大模型不仅解题思路更清晰,还生出了一手“玩牌”的技巧:

在代数和几何数论等数学难题上,大模型的相对准确率提升了42%;玩24点,成功率更是飙升到98%

姚期智领衔提出大模型“思维”框架,逻辑推理正确率达98%

据清华大学交叉信息研究院介绍,共同一作张伊凡解释了这篇论文的出发点:

卡尼曼认为人类的认知处理过程包括两个系统:“系统1”是快速、本能和情感化的,“系统2”是缓慢、深思熟虑、合逻辑的。

目前,大语言模型的表现与“系统1”更为接近,这也或许是它不擅长应对复杂任务的原因。

从这个角度出发设计的累积推理,效果比思维链(CoT)和思维树(ToT)更好。

那么,这种新方法究竟长啥样?我们一起展开看看。

01

突破思维链&树“瓶颈”

累积推理的核心,在于改进了大模型思维过程的“形状”。

具体来说,这个方法用到了3个大语言模型

提议者 (Proposer):不断提出新命题,即基于当前思维上下文,建议下一步是什么。

验证者 (Verifier):核查提议者的命题准确性,如果正确就将它添加到思维上下文中。

报告者 (Reporter):判断是否已经能得到最终解决方案,来确定是否结束推理过程。

推理过程中,“提议者”先给出提案,“验证者”负责评估,“报告者”决定是否要敲定答案、终止思考过程。

△CR推理示例

CR推理示例

有点像是团队项目里的三类角色:小组成员先头脑风暴出各种idea,指导老师“把关”看哪个idea可行,组长决策什么时候完成项目。