开源AI模型并非“廉价”:计算成本远超预期

开源人工智能模型在执行相同任务时,消耗的计算资源远超闭源竞争对手,这可能削弱其成本优势,并促使企业重新审视AI部署策略。
开源AI模型并非“廉价”:计算成本远超预期

一项全面的新研究揭示,开源人工智能模型在执行相同任务时,消耗的计算资源远超闭源竞争对手,这可能削弱其成本优势,并促使企业重新审视AI部署策略。

研究发现:开源AI模型计算成本高企

人工智能公司Nous Research的研究发现,开源模型在处理任务时使用的“令牌”(AI计算的基本单位)是OpenAI和Anthropic等闭源模型的1.5至4倍。对于简单知识性问题,这一差距更为显著,部分开源模型使用的令牌量高达闭源模型的10倍。

研究报告指出:“尽管开源模型的单令牌成本较低,但其使用的令牌量高出1.5至4倍(简单知识问题甚至高达10倍),导致每次查询的总体成本有时更高。”

这一发现挑战了AI行业普遍认为开源模型在经济性上优于专有模型的假设。研究表明,尽管开源模型的单令牌运行成本较低,但如果解决同一问题需要更多令牌,这一优势很容易被抵消。

开源AI模型成本真相:为何“廉价”模型可能让企业预算超支

研究对19种AI模型进行了测试,涵盖基础知识问题、数学问题和逻辑谜题三大任务类别,重点测量了“令牌效率”——模型使用的计算单元与其解决方案复杂度的比例。这一指标尽管对成本影响重大,却鲜有系统性研究。

研究指出:“托管开源模型的成本可能较低,但如果解决同一问题需要更多令牌,这一成本优势可能被轻易抵消。”对于大型推理模型(LRMs),其通过“思考链”逐步解决问题,效率问题尤为突出。这些模型在处理简单问题时,可能消耗数千个令牌,而这些问题本应只需极少的计算量。例如,对于“澳大利亚的首都是哪里?”这类问题,推理模型可能“花费数百个令牌进行思考”,而答案仅需一个词。

开源AI模型并非“廉价”:计算成本远超预期

哪些AI模型真正物有所值?

研究显示,不同模型供应商的效率差异显著。OpenAI的模型(特别是o4-mini和最新开源的gpt-oss变体)在数学问题上展现出极高的令牌效率,使用的令牌量比其他商业模型少高达三倍。在开源模型中,Nvidia的llama-3.3-nemotron-super-49b-v1被评为“全领域中最具令牌效率的开源模型”,而Mistral等公司的新模型则因“极高的令牌使用量”成为例外。

效率差距因任务类型而异。数学和逻辑问题中,开源模型的令牌使用量大约是闭源模型的两倍,而在简单知识问题上,差距进一步扩大,因其本无需复杂推理。

企业领导需了解的AI计算成本

研究结果对企业AI采用具有直接影响。计算成本随使用量快速增长,企业评估AI模型时常聚焦于准确性基准和单令牌定价,却可能忽视实际任务的总计算需求。研究发现:“闭源模型更高的令牌效率往往弥补了其API定价较高的劣势。”

此外,闭源模型供应商似乎在积极优化效率,迭代减少令牌使用以降低推理成本。而开源模型的最新版本令牌使用量增加,可能反映出其优先提升推理性能而非效率。

破解AI效率测量难题

研究团队在测量不同模型架构效率时面临挑战。许多闭源模型不公开其原始推理过程,仅提供压缩的计算摘要以防技术被复制。为此,研究人员以“完成令牌”(每次查询计费的计算单元总数)作为推理努力的代理指标,发现“最新闭源模型通常不分享原始推理轨迹”,而是使用较小的语言模型将思考链转录为摘要或压缩表示。

研究方法包括使用修改后的知名问题测试,以减少记忆解决方案的影响,例如调整美国数学邀请赛(AIME)数学竞赛问题的变量。

AI效率的未来

研究建议,令牌效率应成为未来模型开发的首要优化目标,与准确性并重。研究人员表示:“更密集的思考链将提升上下文使用效率,并可能缓解复杂推理任务中的上下文退化问题。”OpenAI最新开源的gpt-oss模型展示了最先进的效率和“可自由访问的思考链”,可作为优化其他开源模型的参考。

完整研究数据集和评估代码已发布在GitHub上,供其他研究人员验证和扩展。随着AI行业竞相提升推理能力,这项研究表明,真正的竞争可能不在于谁能打造最智能的AI,而在于谁能打造最高效的AI。毕竟,在一个令牌成本至关重要的世界,最浪费的模型可能因成本过高而被市场淘汰,无论其思考能力多强。

AI前沿文章

MIT 报告被误读:当媒体头条高呼AIGC失败时,影子 人工智能 经济正蓬勃发展

2025-8-22 22:15:36

AI前沿文章

OpenAI 的 GPT-6 优先事项:记忆与个性化

2025-8-24 17:04:05

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索