Meta 最新发布的 Llama 4 大模型,近日深陷作弊指控,引发行业震动。有内部员工爆料,Llama 4 在训练过程中未能达到预期性能,Meta 高层涉嫌指示在后训练阶段混入基准测试集,以提高模型在特定测试中的表现,该员工因无法接受这种行为而愤然辞职,并要求不在技术报告中署名。
Llama 4 开源后,全网实测结果并不理想,尤其在代码能力方面表现逊色,被指不如 GPT-4o。有开发者发现,Llama 官网展示的性能对比测试图存在“鸡贼”之处,模型针对对话进行了优化,这使得开发者难以准确预测其在特定上下文中的表现。此外,还有人指出 Llama 4 在 LMarena 上存在过拟合现象,疑似作弊。
这些指控引发了 AI 社区的广泛讨论,一些研究人员表示,容易分辨哪些模型是针对基准测试进行优化,哪些是真正的重大进步。目前,Meta 尚未对此事作出回应,事件后续发展引人关注。