
昨晚,DeepSeek 毫无预兆地在 Hugging Face 上放出了 DeepSeek-V3-0324,没有任何官方公告,没有任何 Benchmark 预热,甚至没有发一条 Twitter!但就是这么低调的一次更新,却让整个 AI 圈炸开了锅——实测显示,它的代码能力已经逼近 Claude 3.7 Sonnet,审美水平更是远超旧版!

据悉,此次更新定位为DeepSeek-V3小版本迭代,模型参数从早期版本的6710亿(67.1B)小幅增至6850亿(68.5B),生成吐字速度从20 TPS提升至60 TPS(相比V2.5提升3倍)。但通过理解与反馈全链路的优化,新版DeepSeek实现了输入输出全流程体验的协同升级,其中最亮眼的是其推理效率和编程能力的显著提升。
值得一提的是,DeepSeek-V3-0324 仍然是开源免费的,而它的性能却已经逼近 Claude 3.7 Sonnet(每月 $20 订阅),用DeepSeek-v3-0324成本低了 53 倍!
比肩Claude3.7,完成小球弹跳测试
实测显示,新版在代码生成和数学推理任务中表现更优。例如,相同指令下,新版生成的代码量更精简(如200行代码优化至150行),且输出结果美观度显著提高。
此次DeepSeekV3在前端编码能力上有了显著进步,其提升幅度相当于从Sonnet 3.5到Sonnet 3.6的改进。在实际测试中,新版V3生成的代码质量和逻辑清晰度已经接近行业领先的Claude 3.7,尤其是在HTML、CSS和JavaScript的综合应用方面表现出色,综合排名第三,被称为该测试下最好的非推理模型。

外网科技博主的测评:

例如,在AI领域,小球弹跳测试是一种流行的评估方式,用于测试AI模型的编程能力和对物理规律的理解。这个测试要求AI编写一个Python脚本,实现一个小球在特定形状内弹跳,同时该形状会缓慢旋转,小球需要始终不超出形状范围。
目前市面上仅有OpenAI GPT-4 o、Claude 3.5 Sonnet、谷歌的Gemini 1.5 Pro、Gemini 2.0 、Grok 3.0能一次通过小球测试。
此次,DeepSeek-v3-0324的更新不仅完成了小球弹跳测试,更将难度提升到了4维空间超立方体。
网友评价:小版本都这么吊,r2不是要上天!也有人唏嘘:“不知道Altman怎么和投资人继续画饼了。”

还有网友要求 DeepSeek-V3-0324生成多张呈现不同天气场景的动画卡片。从最终效果来看,V3 新版本在画面、元素还原度等方面均明显优于 R1,虽稍逊于claude3.7,但基本与claude3.5打成平手。

在工作任务管理仪表盘制作上,DeepSeek v3-0325也令人惊喜,结构完整、要素完备,一眼就能看出任务完成情况。

模型架构上,DeepSeekV3-0324依然是基于混合专家(MoE)模型设计,包含256个路由专家和1个共享专家,每个token使用8个专家推理。这意味着,一个团队里有8个不同专长的专家,每个专家负责不同的任务。同时,这一版延续了多头潜在注意力机制和包含专家网络的等技术。
参数规模上,该模型拥有6810亿参数,最高上下文长度可达160K,支持中文,预训练文件大小为1.36TB;训练数据上,在14.8万亿高质量且多样化的token上进行了预训练,这种大规模且高质量的数据集使得模型在多种自然语言处理任务中表现出色。
值得一提的是,新版V3采用了MIT开源许可,相比初代V3的开源协议,开发者可以在商业项目中更自由地使用该模型,新版模型在HuggingFace平台开源(地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324 ),支持免费商用。

一口气写7000字玄幻小说,AI味降低
新版V3在多轮对话中展现了更强的上下文理解能力,能够更好地理解用户意图并提供连贯的对话体验,有网友称,DeepSeek-V3能一口气写7000字小说,大大超出预期。

小编也实测了一下最新版本DeepSeek的小说生成能力。
令人惊喜的是,DeepSeek在接到指令后,首先生成了世界观和故事梗概。


同时,DeepSeek更新后在长文本生成能力中文风也更加自然,不再像之前一样充满了各种华而不实的形容词和修辞句,多了动作、细节、场景的处理,并且情节连贯,有头有尾。

最后,它还贴心给出了下回解锁,就像电视剧预告片一样。

随后,小编又让他按照李清照、李白、泰戈尔、博尔赫斯这四个文风迥异、古今中外的诗人分别写一首关于风的诗词,不得不说,模仿能力和创作能力也超强,不仅完成了诗歌撰写,还给出了创作思路,李清照的婉约、李白的豪放、泰戈尔的空灵、博尔赫斯的深邃让古人看到也会称赞一二吧。




数学能力大升级,首次求出阴影面积
为了再测这次更新版能不能解出AI界的疑难杂题,我们就搬出一些老AI频频被绊倒的数学题目吧。
第一题 求阴影部分面积
令人惊喜的是,以前DeepSeek智能识别图片文字,但3.24更新后的DeepSeek支持识别数学面积图并能计算答案了。


第二题,经典题目:9.11和9.9比较大小
这一题只能说险胜,DeepSeek第一眼比较错了,但经过推理又拐回了正确答案。

第三题,高等数学

这是一道难倒武汉大学本科生的期末高数试卷压轴题,DeepSeek通过分段步骤成功解答。

第四题,微积分
这是一道难道复旦大学数学系的期末微积分考卷压轴题。据传,本题难度较大,对于非数学生来说应该是基本不可能做出来的,大部分基础一般的数学系学生看了也得摇头……别说严格证明了,连答案这个数字是怎么凑出来的可能都想不明白!

我们看看DeepSeek能不能解出吧。

DeepSeek严格算出了第一道题的答案,计算出正确的结果二分之一。
但是第二部分出错了,这意味着目前DeepSeek的能力或许还无法解答微积分的问题噢。

不过没关系,这道题他的同行Kimi1.5在推理过程中也卡住了,开始反复怀疑自己的能力。

说明目前AI的能力还不足以解决复杂的微积分问题,数学系的同学们还是有铁饭碗的。
看完这次DeepSeek-v3 0324的低调问世,我们不得看出:
伟大的产品,回归产品本身。
DeepSeek不需要大规模宣传、营销,更不需要提前给一批内测名额让大众一码难求。
只有两个字:来测。
总而言之,就功能层面上,我愿称之为:小更新,大进步!
这次更新也再次证明,开源模型不仅能打,还能打得漂亮。如果 R2 继续保持这个势头,AI 格局真的要变天了!
虽然,涉及复杂逻辑的问题推理过程仍需进一步优化,但升级后的DeepSeek-v3-0324代码能力和数学推理能力更强烈。上下文生成能力扩展到了7000字,能连续生成有各种世界观的玄幻小说,克服过于夸张、乱用修辞的毛病;还可以惟妙惟肖模仿各种诗人的问题,进步明显,值得一试。
最后,附上链接地址供大家试玩:
官网:https://chat.deepseek.com/(关闭深度思考模式)
HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/blob/main/README.md
OpenRouter:https://openrouter.ai/chat


