
2025年8月26日,Google DeepMind正式推出Gemini 2.5 Flash Image(代号“nano-banana”),一款先进的图像生成与编辑模型。这款模型以其强大的多图像融合、角色一致性和自然语言编辑能力,迅速成为AI图像处理领域的焦点。Gemini 2.5 Flash Image通过Gemini API、Google AI Studio和Vertex AI向开发者与企业开放,定价仅为每张图像约0.039美元,标志着Google在生成式AI竞争中的又一重大突破。
核心亮点:多功能与高精度
Gemini 2.5 Flash Image在图像生成与编辑上实现了多项突破,结合Google的语义理解技术,显著提升了视觉内容的真实性与创意性。相比Gemini 2.0 Flash,其图像质量更高,编辑精度更强,延迟更低,特别适合需要快速迭代的创意场景。模型在LMArena等基准测试中名列前茅,展现了其在图像生成与编辑领域的SOTA(State-of-the-Art)性能。
Gemini 2.5 Flash Image功能特性:从融合到叙事
多图像融合
Gemini 2.5 Flash Image支持将多张图像无缝融合,生成统一的新视觉内容。例如,营销人员可以将产品图片融入不同背景,或将多个设计元素合并为一个室内场景,自动调整光影与比例,确保结果自然逼真。
角色与风格一致性
模型能够在多个图像中保持角色、物体或品牌风格的一致性,无需复杂微调。开发者可上传参考图像,生成不同场景或角度的变体,适用于品牌宣传、动画制作和游戏开发等场景。
自然语言编辑
通过简单的自然语言指令,用户可实现精准的图像编辑,如“移除照片中的红衣人”“将背景改为雪山”或“将蓝色改为绿色”。模型理解复杂语义和上下文,确保编辑结果符合现实逻辑。
视觉叙事与多模态
Gemini 2.5 Flash Image支持生成多帧图像序列,用于视觉叙事。例如,用户可通过单一提示词创建8到12帧的图像故事,讲述从1960年代音乐场景到黑色电影风格的冒险故事,保持情感起伏和高潮转折。
Gemini 2.5 Flash Image技术优势:语义理解与实时响应
Gemini 2.5 Flash Image整合了Gemini的“世界知识”,能够理解文化、历史和技术背景,生成符合现实逻辑的图像。其低延迟设计(较其他领先模型更快)支持快速迭代,适合实时应用场景。模型还内置SynthID数字水印,确保AI生成图像可被识别,增强内容透明性与责任性。
应用场景:从创意到商业
-
营销与广告:快速生成品牌一致的宣传素材,降低设计成本。
-
影视与游戏:生成角色设计、场景渲染或动画序列,提升制作效率。
-
教育与文化:修复老照片、生成教学插图或历史场景再现。
-
室内设计:通过多图像融合和风格转换,快速可视化空间布局。
企业用户如Adobe(集成于Firefly和Express)、Freepik和Leonardo.ai已开始利用Gemini 2.5 Flash Image优化工作流,生成高质量视觉内容。
开发者支持与可访问性
Gemini 2.5 Flash Image通过Gemini API、Google AI Studio和Vertex AI提供预览版支持,开发者可快速集成到现有工作流。Google AI Studio的“Build Mode”提供模板应用,方便测试与定制。定价为每100万输出token 30美元,平均每张图像1290 token(约0.039美元),对个人创作者和企业均具成本优势。Google还与OpenRouter.ai和fal.ai合作,将模型推广至300万开发者。
局限性与未来展望
尽管表现出色,Gemini 2.5 Flash Image在小脸部细节、文本渲染和复杂场景的精细处理上仍有改进空间。Google表示将在未来几周稳定发布,优化长文本渲染和角色一致性。社区反馈对“nano-banana”的高性能普遍认可,但部分用户希望进一步放宽内容限制以释放创意潜力。
结语
Gemini 2.5 Flash Image以其强大的图像生成与编辑能力、低成本和广泛的开发者支持,正在重塑AI视觉创作的格局。从多图像融合到自然语言编辑,这款模型为创作者和企业提供了高效、灵活的工具。随着Google持续优化和扩展其生态,Gemini 2.5 Flash Image有望成为AI图像领域的行业标准,助力全球用户将想象变为现实。


