继 2 月论文 “撞车” 之后,梁文锋和杨植麟又在大模型赛道上相遇。4 月 30 日,DeepSeek 上线数学定理证明专用模型 DeepSeek-Prover-V2,参数规模扩展到 671B,在数学测试集上效率和正确率更高,miniF2F 测试通过率达 88.9%,解决了 PutnamBench 的 49 道题。4 月中旬,月之暗面推出用于形式化定理证明的大模型 Kimina-Prover,开源 1.5B 和 7B 参数的模型蒸馏版本,miniF2F 测试通过率为 80.7%,PutnamBench 测试成绩为 10 道题。DeepSeek-Prover-V2 在相关测试中的表现超过 Kimina-Prover 预览版。
值得注意的是,两家公司在技术报告中都提及强化学习。在 2 月的 “撞车” 论文中,两人都在作者行列,且都关注 Transformer 架构核心的注意力机制。
作为中国大模型领域受瞩目的创业者,两人面临不同挑战。对于梁文锋,R1 模型推出三个多月后,外界对 DeepSeek 的热度下降,阿里巴巴开源模型迅速追赶超越,外界期待 R2 或 V4 模型巩固领先优势。对于杨植麟和月之暗面,Kimi 面临来自字节跳动的豆包和腾讯元宝的挑战,需持续创新。
编程与数学:实现 AGI 的两条路径
2024 年,DeepSeek 创始人梁文锋表示,实现 AGI 押注三个方向:数学和代码、多模态、自然语言本身。数学和代码是 AGI 天然试验场,多模态需在真实世界学习。
Prover-V2 模型的推出使 DeepSeek 模型矩阵同步进化。Prover 系列模型于 2024 年 3 月发布,历经多次更新至 DeepSeek-Prover-V2。DeepSeek 代码系列模型 Coder 也不断更新,通用推理大模型以 R1 为代表,性能比肩 OpenAI o1 正式版。
从技术报告看,Prover-V2 与 DeepSeek 其他模型进化有关联,以 DeepSeek-V3 为基础模型微调。算法工程师、知乎用户 “小小将” 认为,推理模型推理时需复杂思考,代码与数学模型可检验推理大模型能力进展。他预测 R2 模型研发周期可能较短,V4 作为大版本更新,研发周期可能更长。市场对 DeepSeek 新模型充满期待,虽有 R2 模型将基于华为昇腾系列 GPU 芯片推出的传言,但可靠性存疑。
DeepSeek 与 Kimi 还能保持领先吗?
DeepSeek 与月之暗面作为明星初创公司,正遭受大公司追赶超越。以月之暗面旗下 Kimi 为例,上线不足 1 年,2024 年 11 月月活突破 2000 万,仅次于豆包。截至 2025 年 2 月底,AI 原生 APP 月活规模排名更迭,腾讯元宝接入 DeepSeek 后,凭借微信引流和大量投流,用户数量超过 Kimi。Kimi 目前内测社区功能以增加用户粘性。
DeepSeek 同样面临挑战,阿里巴巴在大模型领域竞争力强劲。4 月 29 日,阿里巴巴发布通义千问模型 Qwen3,参数量仅为 DeepSeek-R1 的 1/3,性能全面超越 R1 等同行产品。阿里通义开源成果显著,已超越美国 Llama 成为全球第一开源模型。
百度也是重要参与者,4 月 25 日发布文心 4.5 Turbo 和深度思考模型 X1 Turbo,性能强大且成本低。李彦宏指出 DeepSeek 存在只能处理单一文本、幻觉率高、速度慢且价格贵等问题,但百度仍决定学习 DeepSeek 并开源文心大模型 4.5 系列。越来越多玩家参与大模型开源竞赛,只有技术先进者才能定义标准。
评论区中,网友对百度等公司相关行为表达了不同看法,如 “Snail001” 认为百度接入 deepseek 靠付费使用别人模型生成内容的做法难看;“日月神教受命永昌” 对李彦宏言论不满;“氪友 jqeM” 不看好百度;“赵立强 – Bruno” 质疑杨植麟与梁文锋 “撞车” 的资格;“BennyTian” 认为两者一个重广告投放一个重研发,没必要强制比较 。