Google DeepMind 发布 Aletheia:从奥数竞赛迈向全自主专业数学研究的 AI 智能体

Google DeepMind 团队近日推出了 Aletheia。Aletheia。

Aletheia是一款专门设计的 AI 智能体,旨在弥合竞赛级数学与专业研究级数学之间的鸿沟。尽管模型在 2025 年国际数学奥林匹克( IMO )中已达到金牌标准,但真正的科研工作还需要查阅海量文献并构建长程证明。Aletheia 通过在自然语言中迭代地生成、验证和修改解决方案,成功解决了这一难题。

Google DeepMind 发布 Aletheia:从奥数竞赛迈向全自主专业数学研究的 AI 智能体

架构核心:智能体循环(Agentic Loop)

AletheiaGemini Deep Think 的高级版本驱动。它利用一个由三部分组成的“智能体套件”来提升可靠性:

  • 生成器(Generator): 针对研究课题提出候选解决方案。
  • 验证器(Verifier): 一种非正式的自然语言机制,用于检查逻辑缺陷或幻觉。
  • 修改器(Reviser): 根据验证器识别的错误进行修正,直到最终输出获得批准。

这种职责分离至关重要;研究人员观察到,将验证过程显式独立出来,有助于模型识别出其在生成阶段最初忽略的缺陷。


关键技术突破

在开发 Aletheia 的过程中,团队对 AI 处理复杂推理的方式有了几项深刻洞察:

  • 推理时缩放(Inference-Time Scaling): 在查询时为模型分配更多算力——即让它“思考得更久”——能显著提高准确率。Deep Think 的 2026 年 1 月版本在处理 IMO 级别问题时,所需的算力比 2025 年版本降低了 100 倍。
  • 卓越性能: AletheiaIMO-Proof Bench Advanced 测试中达到了 95.1% 的准确率,相比此前 65.7% 的纪录实现了巨大飞跃。它在 FutureMath Basic(一个包含博士级练习题的内部基准测试)中也展现了行业领先的性能。
  • 工具调用: 为防止文献引用幻觉,Aletheia 接入了 Google Search 和网页浏览功能。这有助于它合成真实的全球数学文献。

数学研究里程碑

Aletheia 已经贡献了多项经同行评审的研究成果:

  • 全自主研究: Aletheia 在没有任何人类干预的情况下,生成了一篇计算“特征权重”( eigenweights )结构常数的研究论文。
  • 人机协作: 该智能体为证明“独立集”的边界提供了高层路线图和总体策略,随后由人类作者将其转化为严密的证明。
  • 攻克埃尔德什猜想: 在针对 700 个开放性问题进行测试时,Aletheia 找到了 63 个技术上正确的方案,并自主解决了 4 个悬而未决的问题。

AI 自主性分级体系

DeepMind 仿照自动驾驶分级,提出了一套衡量 AI 数学贡献的标准:

等级自主性描述科学意义(示例)
Level 0以人类为主创新性可忽略(奥数级别)
Level 1人机协作少量创新
Level 2基本自主达到发表水平的研究

其中,论文 Feng26 被归类为 Level A2,意味着它基本属于自主完成,且达到了可发表的质量。


核心总结

  1. 科研级 AI 智能体的问世: Aletheia 是一款超越了竞赛解题范畴的数学研究智能体,能够自主生成、验证并修改自然语言证明。它依托于 Gemini Deep Think 高级版及“生成-验证-修改”的闭环架构。
  2. 推理时缩放带来显著收益: 研究发现,增加推理时的“思考时间”能大幅提升准确率。2026 年 1 月版的 Deep Think 将达到奥数级表现所需的算力降低了 100 倍,并在高级证明基准测试中创下了 95.1% 的纪录。
  3. 自主科研的里程碑: 系统实现了多个“业界第一”,包括独立完成一篇关于算术几何的论文( Feng26 ),并自主解决了 4 个来自 Erdős 猜想数据库的开放性数学问题。
  4. 工具使用与验证的关键作用: 为遏制伪造文献引用等“幻觉”现象,Aletheia 深度依赖 Google Search。同时,将验证步骤从生成步骤中解耦,对于发现初始逻辑瑕疵至关重要。
  5. 提出自主性新分类法: 论文建议建立标准框架来记录 AI 辅助成果,涵盖自主度( Level HLevel A )和数学意义( Level 0Level 4 )两个维度。这旨在提升透明度,弥合 AI 宣称的能力与专业数学标准之间的评估差距。
AI前沿

专访 Trustible 联合创始人兼 CEO Gerald Kierce:如何将 AI 治理从理论转化为企业实战

2026-2-13 17:39:36

AI产品

创客贴AI

2025-4-2 16:40:50

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索