DeepSeek-Prover-V2:AI数学推理新王者,88.9% 通过率设新标杆
IT之家 5 月 1 日消息,深度求索(DeepSeek)昨日(4 月 30 日)在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模型,随后在 GitHub 等平台上公布了论文信息。
IT之家援引论文介绍,DeepSeek-Prover-V2 是一款专注于形式化数学推理的开源大型语言模型,基于 DeepSeek-V3-0324,通过递归定理证明管道生成初始数据。
Deepseek 推出了 DeepSeek-Prover-V2-671B(结合 V3 基础大模型)、DeepSeek-Prover-V2-7B(增强模型)两个模型,以及 DeepSeek-ProverBench 数据集。
DeepSeek-Prover-V2-671B 采用和 DeepSeek V3-0324 相同的架构,并非用于常规对话或者推理,而是用于形式化定理证明、专门增强数学能力的模型。
DeepSeek 团队首先引导 DeepSeek-V3 模型将复杂定理分解为一系列子目标(subgoals),整合非形式与形式化数学推理,在 Lean 4 平台上形式化证明步骤。
接着,利用一个较小的 7B 参数模型处理子目标的证明搜索,减轻计算负担。最终,结合完整的逐步证明与 DeepSeek-V3 的思维链(chain-of-thought),形成强化学习的“冷启动”数据。
在训练中,团队筛选出一批 7B 模型无法直接解决但子目标已被证明的难题。通过整合子目标证明,形成完整的形式化证明,并与 DeepSeek-V3 的推理过程对接,生成合成数据。
随后,模型微调这些数据,并通过强化学习进一步提升能力,以二元反馈(正确或错误)作为奖励机制。最终,DeepSeek-Prover-V2-671B 在神经定理证明领域创下新高,在 MiniF2F-test 数据集上通过率达 88.9%,在 PutnamBench 数据集中解决 658 个问题中的 49 个。
团队还发布了 ProverBench 基准数据集,包含 325 个形式化数学问题。其中,15 个问题源自近期 AIME 竞赛(AIME 24 和 25),涉及数论与代数,代表高中竞赛难度。
其余 310 个问题则来自精选教材和教学内容,涵盖线性代数、微积分、概率等多个领域。这一数据集旨在为高中竞赛和本科数学提供全面评估标准,推动模型在多样化场景下的测试与应用。
-
北大回应青年教师韦东奕健康问题 呼吁保护学者让其专心治学
被网友称之为“韦神”的北京大学数学科学学院助理教授、研究员韦东奕近日开通个人社交账号并发布一段介绍自己的短视频,引发网民关注。截至9日,韦东奕账号粉丝量已突破2300万。北京大学数学科学学院、北京国际数学研究中心有关负责人9日表示,希望和网友共同保护好学者专心治学的宁静环境,让韦东奕老师能心无旁骛地
-
三句话涨粉两百万,韦东奕为何如此受关注?
期待他的账号能够持续更新,让更多人静下心来,感受数学的魅力,也为网络空间增添一份别样的智慧与质朴 “大家好,我叫韦东奕,这是我的账号!”近日,网友在短视频平台发现一用户名为“韦东奕”的账号,疑似是北大“韦神”本人。随后,媒体从其堂哥处确认,该账号确系韦东奕本人账号,由其家人协助注册。截至6月6
-
南财数据周报(51期):10个国家数据要素综合试验区启动建设;高质量数据集技术文件将加快研制
南方财经记者徐小琼 卓皙雯 广州报道我国将迈入政务数据共享法治化新阶段。6月3日,《政务数据共享条例》正式发布,这是我国首部专门规范政务数据共享的行政法规。《条例》的出台不仅为政务数据的高效流通提供了法治保障,更以释放数据要素价值助推治理能力现代化。在此背景下,我国同步推进数据要素市场化改革,培育数
-
“我洗个牙也要刷脸?”南宁检察官出手了→
在“刷脸挂号”逐渐普及的背景下,南宁市兴宁区人民检察院针对辖区口腔医院存在的患者隐私安全问题,联合行政机关启动专项治理行动。今年6月1日《人脸识别技术应用安全管理办法》(以下简称《办法》)正式生效,检察机关以公益诉讼督促整改强制采集人脸信息、违规处理数据等乱象,推动诊疗信息保护与技术进步协同,为技术
-
定了!2027-2029年广州中考分值调整 数学满分150分 成为“各科之首”
羊城晚报全媒体记者 蒋隽6月5日,广州市教育局正式印发《2027-2029年深化高中阶段学校考试招生制度改革的实施意见》(以下简称《意见》)。该《意见》适用于2027-2029年广州市初中应届毕业生和报考广州市高中阶段学校的返穗生、往届生。届时,广州中考各录取计分科目满分将调整为:语文140分,数学