谷歌AI与数学家联合发布“AI Co-Mathematician”,FrontierMath基准刷新SOTA纪录
5月10日,据量子位报道,谷歌DeepMind与数学家合作团队正式发布了一款名为“AI Co-Mathematician”的多智能体数学研究系统。该系统在由Epoch AI主持的FrontierMath Tier 4基准测试中取得了48%的正确率,大幅刷新了此前由GPT-5.5 Pro保持的39.6%的行业最佳成绩,标志着AI在研究级数学推理领域实现了新的突破。
FrontierMath是由Epoch AI联合全球60余位数学家共同打造的权威数学基准,其Tier 4级别包含50道由教授与博士后研究人员精心设计的“短期科研项目”级难题,专业数学家通常需要花费数天乃至数周才能解决。该系统在自主模式下成功从48道非公开题中解出23道,其中3道题为此前所有被测AI系统均未能攻克的难题。值得关注的是,系统底层所采用的Gemini 3.1 Pro基座模型独立运行时仅取得19%的得分,通过多智能体架构的编排优化,整体表现提升了超过一倍,充分体现出系统设计层面的核心价值。
从技术架构来看,“AI Co-Mathematician”并非传统意义上的问答式模型,而是一个异步、有状态的多智能体工作台。系统顶层设有一个“项目协调员”智能体,负责将复杂的数学研究任务拆解为多个并行工作流,并分派给专注于文献检索、计算探索、证明推导等不同方向的子智能体。每条证明路径生成后,均须经由专属的审稿人智能体进行交叉审查,发现逻辑漏洞则予以驳回重新处理,这一强制审查循环机制有效抑制了大型语言模型常见的“幻觉”问题。此外,系统会持续追踪所有失败的假设路径,将“知道什么不可行”作为与“知道什么可行”同等重要的研究成果加以保存。
在真实研究场景的验证中,牛津大学数学家Marc Lackenby借助该系统解决了Kourovka笔记本中长期悬而未决的群论问题21.10,首次证明通过人机深度协作攻克数十年未解数学难题的可行性。此外,Gergely Bérczi利用该系统获得了关于对称幂表示中Stirling系数猜想的数学证明,Semon Rezchikov在哈密顿系统研究中通过该系统获取了一个经过严格检验的关键引理。多位参与测试的数学家指出,该系统在研究者熟悉相关领域并能够有效引导的前提下表现最佳,其证明风格被评价为“所用过的模型中美学品质最佳者”。
FrontierMath基准得分的快速攀升反映出AI数学推理能力正在进入加速发展期,协调编排能力的提升可能比单纯堆叠模型规模更具实效。随着AI系统逐步逼近研究级数学推理的前沿,数学研究的范式或将发生深刻变化。建议相关科研机构关注多智能体编排技术在专业领域的应用潜力,积极探索人机协作的研究新模式,同时保持对AI输出进行严格人工审核的审慎态度,以确保成果的严谨性与可靠性。