DeepSeek-Prover-V2:AI数学推理新王者,88.9% 通过率设新标杆

0次浏览     发布时间:2025-05-01 09:14:00    

IT之家 5 月 1 日消息,深度求索(DeepSeek)昨日(4 月 30 日)在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模型,随后在 GitHub 等平台上公布了论文信息。

IT之家援引论文介绍,DeepSeek-Prover-V2 是一款专注于形式化数学推理的开源大型语言模型,基于 DeepSeek-V3-0324,通过递归定理证明管道生成初始数据。

Deepseek 推出了 DeepSeek-Prover-V2-671B(结合 V3 基础大模型)、DeepSeek-Prover-V2-7B(增强模型)两个模型,以及 DeepSeek-ProverBench 数据集。

DeepSeek-Prover-V2-671B 采用和 DeepSeek V3-0324 相同的架构,并非用于常规对话或者推理,而是用于形式化定理证明、专门增强数学能力的模型。

DeepSeek 团队首先引导 DeepSeek-V3 模型将复杂定理分解为一系列子目标(subgoals),整合非形式与形式化数学推理,在 Lean 4 平台上形式化证明步骤。

接着,利用一个较小的 7B 参数模型处理子目标的证明搜索,减轻计算负担。最终,结合完整的逐步证明与 DeepSeek-V3 的思维链(chain-of-thought),形成强化学习的“冷启动”数据。

在训练中,团队筛选出一批 7B 模型无法直接解决但子目标已被证明的难题。通过整合子目标证明,形成完整的形式化证明,并与 DeepSeek-V3 的推理过程对接,生成合成数据。

随后,模型微调这些数据,并通过强化学习进一步提升能力,以二元反馈(正确或错误)作为奖励机制。最终,DeepSeek-Prover-V2-671B 在神经定理证明领域创下新高,在 MiniF2F-test 数据集上通过率达 88.9%,在 PutnamBench 数据集中解决 658 个问题中的 49 个。

团队还发布了 ProverBench 基准数据集,包含 325 个形式化数学问题。其中,15 个问题源自近期 AIME 竞赛(AIME 24 和 25),涉及数论与代数,代表高中竞赛难度。

其余 310 个问题则来自精选教材和教学内容,涵盖线性代数、微积分、概率等多个领域。这一数据集旨在为高中竞赛和本科数学提供全面评估标准,推动模型在多样化场景下的测试与应用。

相关文章
  1. DeepSeek-Prover-V2:AI数学推理新王者,88.9% 通过率设新标杆

    IT之家 5 月 1 日消息,深度求索(DeepSeek)昨日(4 月 30 日)在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模型,随后在 GitHub 等平台上公布了论文信息。IT之家援引论文介绍,DeepSeek-Prover-

    0 2025-05-01 09:14:00

  2. 云南省做好“五一”假期旅游接待准备

    云南网讯(记者朱海)“五一”假期来临,全省文化和旅游系统围绕打造“有一种叫云南的生活”,聚焦产品、模式、业态、服务等重点,全面做好假日旅游接待准备。“五一”假期,全省各地积极筹备,推出800余项文旅宣传活动及惠民措施,涵盖非遗体验、音乐演出、美食节等内容。各州(市)还推出门票减免、住宿优惠、消费补贴

    0 2025-05-01 08:33:00

  3. 新华鲜报|“数字中国”10周年!中国数字经济加速跑

    数字中国”10周年,中国数字经济“成绩单”亮眼!2024年,我国数据生产总量同比增长25%;数字经济核心产业增加值占GDP比重10%左右;算力总规模达到280EFLOPS,建成5G基站425.1万个……2025年恰逢推进数字中国建设10周年。4月29日在福建福州开幕的第八届数字中国建设峰会上,一连串

    0 2025-04-30 10:38:00

  4. 朋友圈九宫格带火贵阳旅拍市场

    如今,越来越多的游客为了在朋友圈秀出满意的照片,愿意在景点停留更长的时间。他们不仅需要住宿、餐饮,还会聘请专业摄影师,租赁民族服装,甚至购买当地的手工艺品作为拍摄道具。因此,也催生了一个新兴群体——旅拍师。“12点关灯是甲秀楼的极限,不是我们的极限,我们是24小时营业。”晚上11点半,甲秀印象摄影写

    0 2025-04-30 10:20:00

  5. 400万粉丝网红被录取?北大回应

    日前,一名拥有400万粉丝的网红博主“汤匙不是钥匙”称,通过考研已考进北京大学数学科学学院(以下称北大数院)金融专业(拟录取名单)。28日,北京大学数学科学学院工作人员回应称,不知道录取新生是不是网红,以公示名单为准。据了解,“汤匙不是钥匙”本名叫匙凯歌,今年2月底,他在视频平台晒出自己的北大考研初

    0 2025-04-29 15:51:00