快讯

10月16

  • Sora2 史诗级更新,支持25秒长视频!

    13:15 作者:果果

    Sora 2 史诗级更新! 所有免费用户都能生成 15 秒长度的视频了! 同时 Pro 用户还可以生成 25 秒长度的视频! Pro 用户可以在网页使用故事板功能,按秒精确控制分镜和画面内容。这个故事板配合原生 1080P 支出的 Pro 模型画面加上提示词遵循和语音、音乐生成。 直接把视频模型拉到下个时代了,现在一次直接生成完整的可发布视频真不是问题

    分享到

8月31

  • 英伟达 Blackwell 赋能的 Jetson Thor 正式上市,加速通用机器人时代

    21:48 作者:瓜瓜

    摘要: 专为实体人工智能和机器人技术设计的 NVIDIA Jetson AGX Thor 开发者套件和生产模块现已正式上市。 超过 200 万开发者正在使用英伟达的机器人技术栈,Agility Robotics、亚马逊机器人、波士顿动力、卡特彼勒、Figure、Hexagon、美敦力(Medtronic)和 Meta 等公司已成为 Jetson Thor 的早期用户。 Jetson Thor 由 …

    英伟达 Blackwell 赋能的 Jetson Thor 正式上市,加速通用机器人时代

    硬件
    分享到

8月30

  • 腾讯开源 HunyuanVideo-Foley:AI音效生成赋予视频沉浸式体验

    16:24 作者:瓜瓜

    2025年8月28日,腾讯优图实验室(Tencent Youtu Lab)正式开源HunyuanVideo-Foley,一个端到端的文本-视频-音频(Text-Video-to-Audio, TV2A)生成框架。这款专业级AI音效生成工具专为视频内容创作者设计,通过多模态扩散模型和创新的表示对齐技术,生成与视频画面和语义高度同步的高保真音效。HunyuanVideo-Foley在VGGSound-…

    腾讯开源 HunyuanVideo-Foley:AI音效生成赋予视频沉浸式体验

    ai视频
    分享到

8月29

  • 腾讯开源 Youtu-Agent,多模态智能体开发迎来新利器

    22:33 作者:瓜瓜

    近日,腾讯优图实验室(Youtu Lab)在 AI 领域再添力作,正式宣布开源其多模态智能体框架 Youtu-Agent。这一开源项目旨在为开发者提供一个高效、灵活的工具集,用于构建和部署能够处理图像、视频和文本等多种模态信息的智能体(AI Agent)。Youtu-Agent 的发布,不仅是腾讯在多模态大模型领域的又一重要贡献,更将加速 AI 智能体技术的普及和创新。   Youtu-…

    腾讯开源 Youtu-Agent,多模态智能体开发迎来新利器

    智能体
    分享到
  • OpenAI 重磅发布 GPT-Realtime,开启实时语音对话新时代

    21:14 作者:瓜瓜

    OpenAI 在 AI 领域的创新步伐从未停止。近日,该公司悄然上线了其最新的语音模型 GPT-Realtime。这款模型最大的突破在于其超低延迟的实时语音对话能力,将 AI 交互的流畅度提升到了一个全新的高度。这意味着,我们与 AI 的对话将不再是“你问我答”的等待模式,而是像与真人交流一样,可以实现即时、无缝的语音互动。   为什么说 GPT-Realtime 具有革命性? &nbs…

    OpenAI 重磅发布 GPT-Realtime,开启实时语音对话新时代

    语音
    分享到
  • 颠覆视频创作,谷歌发布 AI 视频生成工具 Vids

    21:05 作者:瓜瓜

    谷歌近日在 AI 视频生成领域投下了一颗重磅炸弹:正式推出了 Google Vids。这款全新的工具不再是简单的视频剪辑器,而是一个全能的 AI 视频创作助手,旨在通过智能化的方式,让任何人都能轻松制作出高质量的短视频。从最初的脚本构思到最终的视频成片,Vids 将每一个环节都变得简单快捷,极大地降低了视频制作的门槛。   Vids:从文字到视频,一气呵成   Google V…

    颠覆视频创作,谷歌发布 AI 视频生成工具 Vids

    ai视频
    分享到

8月28

  • Google 揭秘 Nano Banana:Gemini 2.5 Flash Image 重塑 AI 图像创作

    22:53 作者:瓜瓜

    2025年8月26日,Google DeepMind正式揭开“Nano Banana”之谜,确认其为Gemini 2.5 Flash Image模型。这款先进的图像生成与编辑工具以其卓越的角色一致性、多图像融合和自然语言编辑能力,在LMArena排行榜上一举夺魁,引发社交媒体热议。通过Gemini API、Google AI Studio和Vertex AI向开发者开放,Nano Banana以每…

    Google 揭秘 Nano Banana:Gemini 2.5 Flash Image 重塑 AI 图像创作

    ai图像
    分享到

8月27

  • Google 发布 Gemini 2.5 Flash Image:AI图像生成与编辑新标杆

    22:03 作者:瓜瓜

    2025年8月26日,Google DeepMind正式推出Gemini 2.5 Flash Image(代号“nano-banana”),一款先进的图像生成与编辑模型。这款模型以其强大的多图像融合、角色一致性和自然语言编辑能力,迅速成为AI图像处理领域的焦点。Gemini 2.5 Flash Image通过Gemini API、Google AI Studio和Vertex AI向开发者与企业开…

    Google 发布 Gemini 2.5 Flash Image:AI图像生成与编辑新标杆

    ai图像
    分享到

8月26

  • 微软开源 VibeVoice-1.5B,用 AI 让照片“开口唱歌”

    21:40 作者:瓜瓜

    微软亚洲研究院近日再次向开源社区投下一枚重磅炸弹:正式发布 VibeVoice-1.5B。这款模型不仅仅是简单的语音合成,它能让静态的人物照片“开口说话”,甚至“唱歌”,将静态图像与动态音频完美融合。这标志着 AI 语音和视觉生成技术又一次实现了重大飞跃,为数字内容创作开辟了全新的想象空间。   VibeVoice-1.5B:一张图片,无限可能   VibeVoice-1.5B…

    微软开源 VibeVoice-1.5B,用 AI 让照片“开口唱歌”

    大模型
    分享到

8月25

  • xAI 开源 Grok 2:加速AI创新,Grok 3蓄势待发

    22:08 作者:瓜瓜

    2025年8月23日,xAI宣布将其Grok 2.5模型开源,模型权重已上架Hugging Face平台,供全球开发者与研究者免费下载与使用。xAI创始人埃隆·马斯克通过X平台宣布,这一举措标志着xAI对AI透明化与社区协作的持续承诺,同时透露Grok 3将在约六个月后(2026年2月)开源。Grok 2.5的开源不仅为AI生态注入活力,还进一步挑战OpenAI等闭源模型的行业主导地位。 核心亮点…

    xAI 开源 Grok 2:加速AI创新,Grok 3蓄势待发

    大模型
    分享到

8月24

  • Meta联手Midjourney:授权AI技术,革新未来产品

    16:53 作者:瓜瓜

    2025年8月22日,Meta宣布与生成式AI初创公司Midjourney达成战略合作,授权其“美学技术”(Aesthetic Technology)用于Meta未来模型和产品。这一消息由Meta首席AI官Alexandr Wang通过Threads发布,标志着Meta在AI视觉领域的重大布局。合作将联合双方研发团队,旨在提升Meta平台(如Facebook、Instagram和WhatsApp)…

    Meta联手Midjourney:授权AI技术,革新未来产品

    ai图像
    分享到

8月23

  • 阿里巴巴发布 Qoder:AI驱动的智能编程平台

    22:33 作者:瓜瓜

    2025年8月21日,阿里巴巴在新加坡面向全球开发者推出Qoder,这款AI驱动的智能编程平台(Agentic Coding Platform)以其强大的代码库理解能力和自动化工作流迅速引发热议。Qoder不仅支持自然语言交互,还能自主完成从规划到测试的端到端开发任务,号称将软件开发从“AI辅助”推向“AI委托”时代。目前,Qoder已进入免费公测阶段,全球开发者可通过官网体验。 核心亮点:深度代…

    阿里巴巴发布 Qoder:AI驱动的智能编程平台

    智能体
    分享到
  • 语音识别新突破:阿里开源 Fun-ASR,引领多模态 ASR 新纪元

    22:30 作者:瓜瓜

    近日,阿里巴巴开源了一个全新的语音识别(ASR)模型 Fun-ASR,在语音识别领域引发了广泛关注。与传统 ASR 模型不同,Fun-ASR 不仅在识别精度上达到了业界顶尖水平,更在多模态融合方面取得了突破性进展,为 AI 语音交互和多媒体内容理解开启了新的可能性。   为什么说 Fun-ASR 是一个大突破?   传统的语音识别模型主要依赖音频信息进行识别,而 Fun-ASR…

    语音识别新突破:阿里开源 Fun-ASR,引领多模态 ASR 新纪元

    语音
    分享到

8月21

  • ElevenLabs 发布 v3 Alpha API:开启AI语音新纪元

    20:32 作者:瓜瓜

    2025年8月20日,ElevenLabs宣布其v3 Alpha API正式上线,这一突破性的文本转语音(Text-to-Speech, TTS)API为开发者提供了前所未有的语音生成能力。v3 Alpha API以其对话模式(Dialogue Mode)、70多种语言支持和高级音频标签(Audio Tags)控制,重新定义了AI语音的表达力与真实感,已被HeyGen、Poe等行业领先企业集成,广…

    ElevenLabs 发布 v3 Alpha API:开启AI语音新纪元

    语音
    分享到
  • 快手 Klear-Reasoner:数学推理突破90%,登顶8B模型榜首

    20:22 作者:瓜瓜

    2025年8月,快手Klear团队推出Klear-Reasoner,这款基于Qwen3-8B-Base的推理模型以其卓越的数学和代码推理能力迅速登顶8B模型榜首。在AIME2024测试中,Klear-Reasoner数学推理准确率突破90.5%,在LiveCodeBench等编程基准测试中也表现亮眼。这一完全开源的模型不仅公开了训练细节,还通过创新的GPPO算法为AI推理领域树立了新标杆。 Kle…

    快手 Klear-Reasoner:数学推理突破90%,登顶8B模型榜首

    大模型
    分享到

8月20

  • DeepSeek V3.1:开源AI新标杆,性能再升级

    21:03 作者:瓜瓜

    2025年8月19日,杭州深度求索(DeepSeek)通过官方微信群悄然发布DeepSeek V3.1,这是对其旗舰大语言模型DeepSeek V3的重大升级。V3.1以685亿参数和128K超大上下文窗口为亮点,不仅提升了推理、编码和数学能力,还保持了低成本和开源特性,迅速引发AI社区热议。这款模型被认为是开源AI领域的又一里程碑,进一步缩小了与闭源模型的差距。 DeepSeek V3.1核心亮…

    DeepSeek V3.1:开源AI新标杆,性能再升级

    大模型
    分享到
  • 告别杂乱:AGENTS.md 为 AI 编码代理提供统一标准

    21:00 作者:瓜瓜

    对于开发者和团队来说,用 AI 编码工具来提升效率已是大势所趋。然而,每家工具都有自己的配置方式,导致项目代码库里充斥着 .cursor/rules、CLAUDE.md 等各种专有文件,不仅混乱,而且难以维护。 为了解决这一痛点,OpenAI 近期主导发起了一项名为 AGENTS.md 的开放标准。你可以把它想象成是为 AI 编码代理量身定制的 README 文件。这个简单的 Markdown 文…

    告别杂乱:AGENTS.md 为 AI 编码代理提供统一标准

    智能体
    分享到

8月19

  • ElevenLabs Studio 推出“Video-to-Music”新功能,视频配乐进入智能时代

    21:01 作者:瓜瓜

    知名 AI 语音技术公司 ElevenLabs 近日再次突破创新,在其核心产品 ElevenLabs Studio 中正式发布了革命性的新功能——Video-to-Music。这项功能利用强大的 Eleven Music AI 模型,让用户只需一键操作,即可为任意视频自动生成定制化的背景音乐。这不仅极大地简化了视频制作流程,也为内容创作者们带来了前所未有的便利。   一键配乐,AI 懂你…

    ElevenLabs Studio 推出“Video-to-Music”新功能,视频配乐进入智能时代

    ai视频
    分享到
  • 腾讯发布 ToonComposer:革新卡通动画制作的AI利器

    20:56 作者:瓜瓜

    2025年8月,腾讯AI实验室(Tencent ARC)正式推出ToonComposer,这款基于生成式AI的卡通动画制作工具迅速引发行业热议。ToonComposer通过创新的“后关键帧”技术,将传统动画制作中的补间动画(inbetweening)和上色(colorization)合二为一,极大简化了卡通和动漫的制作流程,为创作者提供高效、便捷的解决方案。 ToonComposer核心技术:后关…

    腾讯发布 ToonComposer:革新卡通动画制作的AI利器

    ai图像
    分享到
  • 阿里发布 20B 参数 Qwen-Image-Edit:图像编辑新突破

    20:50 作者:瓜瓜

    2025年8月19日,阿里巴巴旗下阿里云通义千问团队重磅推出Qwen-Image-Edit,这款基于20亿参数的图像编辑模型迅速成为业界焦点。Qwen-Image-Edit继承了Qwen-Image的强大文本渲染能力,并将其扩展至图像编辑领域,带来语义与外观双重编辑的创新体验。无论是精准修改图片中的文字,还是实现复杂的风格迁移,这款模型都展现了惊艳的表现。 Qwen-Image-Edit核心亮点:…

    阿里发布 20B 参数 Qwen-Image-Edit:图像编辑新突破

    ai图像
    分享到

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索