就在上上周一,智谱刚把顶级语言模型GLM-4.5开源,让社区直呼“国产之光”。话音未落,这周一,智谱又是一个“深夜突袭”,毫无预警地开源了他们目前最强的多模态模型:GLM-4.5v!这连续“王炸”的操作,简直不给对手任何喘息的机会!
体验地址:https://chat.z.ai/

🚀 一句话总结:强得有点“吓人”!
别眨眼,我们直接看战报:在多达42个行业权威评测基准中,GLM-4.5v一口气拿下了41个SOTA(即当前最佳)!这种近乎“屠榜”式的表现,已经很久没在开源社区见过了,智谱这次的自信心直接拉满!
🤯 它到底能干什么?眼见为实!
光看榜单太枯燥,我们直接上实战,看看这个106B参数的“大家伙”到底有多秀:
1 连医生都要沉思的“医疗影像图”!
- 你能看懂一张复杂的CT扫描图吗?我们给GLM-4.5v一张包含早期微小结节的肺部CT图,许多人类医生都需要反复比对才能发现。结果它不仅精准地定位了可疑区域,还给出了符合医学逻辑的初步分析!这种能力,简直是未来医生的“超级鹰眼”助手!
2. “大家来找茬”游戏里的顶级“外挂”!
- 那些能让我们找到眼花缭乱、怀疑人生的“找不同”图片,在它面前简直是小菜一碟。测试者给了一张有10处细微差异的复杂卡通画,它几乎在瞬间就圈出了所有不同之处,从一个多余的纽扣到一个几乎看不见的颜色差异,无所遁形!这已经不是在找茬了,这是在进行像素级的扫描!
3. 真假大挑战!
- 给它一张横店1:1复刻的“明清宫苑”照片,很多顶级模型都分不清。GLM-4.5v却一眼识破,并给出了三大理由,有理有据,令人信服!这已经不是简单的识图,而是具备了深度推理能力。
4. 原生视频理解!Gemini最酷的功能,现在开源了!
注意!这不是那种提取音频转文字的“假视频理解”。GLM-4.5v是真的在“看”视频!你扔给它一段视频,它能:
- 识别所有经典画面
- 精准标注时间戳
5. 超酷的“骚操作”:看图标记 & 复刻网页!
- 看图写代码:扔给它一张网页截图,它能直接帮你复刻出网页代码!效果几乎一模一样,甚至有网友觉得比原版官网还好看!这种能力,以前可是顶级闭源模型的专利!
💰 价格屠夫 + 完全开源 = 开发者狂喜!
如此强大的模型,智谱不仅完全开源(GitHub、Hugging Face均已上线),连API定价都极具诚意,输入仅2元/M tokens。普通玩家虽然难以在消费级显卡上部署,但可以直接去智谱官网(z.ai)在线体验!
总而言之,智谱的这一波连续出击,不仅展示了其深厚的技术积累,也为整个开源社区注入了一剂强心针。曾经的“国产之光”,带着一身“武艺”强势归来,AI的江湖,真是越来越好看了!


