当前位置: 江南文明网 > 科技 > 智能 >

源2.0全家桶击破算力限制,代码数学强到发指

条评论

源2.0全家桶击破算力限制,代码数学强到发指

由于源2.0具备生成单元测试的能力,因此团队在HumanEval评估中使用了SC(自洽性,Self-Consistency)方法。也就是,采用由源2.0-102B生成的单元测试作为评判标准,选出成功通过单元测试的候选者。

结果显示,自洽性可以显著提高模型的的性能。比如,HumanEval评测的正确率提升了10.3%,GSM8K提升了9.6%等等。

下面我们就来看看,源2.0的表现到底如何。

数学

首先是数学能力。

仔细看下面这道高考数学填空题就会发现,它的求解逻辑非常复杂。

这就要求模型不仅具备较好的基础知识,还需要有较好的推理以及计算能力。

从解题过程可以看出,源2.0-102B的推理路径正确,求解过程详尽,符号计算和数值计算均准确。在适当的位置上,模型明确地给出了最终答案,表现出了优异的逻辑推理性能。

根据GSM8K的评估结果,1026亿和518亿参数的源2.0,准确率都超过了76%。

与此同时,21亿参数的源2.0在准确率上也超过了规模大几十倍的Llama,达到了66.6%。