AI News

Gemini Omni Flash 开启可对话视频编辑

Google Gemini API 更新显示,Gemini Omni Flash 已进入公开预览,视频生成开始从一次性生成走向交互式修改。

Gemini Omni Flash 开启可对话视频编辑

Google Gemini API 的最新变更中,Gemini Omni Flash 公共预览尤其值得关注。它面向高速视频生成和对话式视频编辑,支持从文本生成短视频,也支持对静态图像进行动画化,再通过交互方式继续修改。这代表多模态模型正在从“生成一张图或一段视频”进入“围绕目标反复沟通、逐步修改”的阶段。

视频生成不再只是一次性输出

早期视频生成工具更像抽奖:用户写提示词,模型给出结果,如果不满意就重新生成。Gemini Omni Flash 强调 conversational editing,意味着用户可以在初稿基础上继续要求“镜头更近”“人物动作更慢”“光线更像清晨”。这类能力会显著降低创意制作门槛。

从应用角度看,3 到 10 秒、720p 的短视频并不一定直接替代完整影视制作,但足以服务广告分镜、短视频素材、产品演示和教育内容。速度越快,越适合嵌入日常工作流。

Gemini 生态的优势在入口

Google 近期 AI 更新还覆盖 Android、Chrome、Google Home 和开发者工具。Gemini 的核心优势不只是模型本身,而是它能进入手机、浏览器、云服务和智能家居等入口。当多模态能力进入这些入口后,用户会更自然地用语音、图像和视频完成任务。

这也会改变产品设计。过去网页和 App 多围绕文字输入、按钮和表单构建,未来会出现更多“上传图片后让 AI 改视频”“边看网页边让 AI 总结”“用语音修改文档”的交互。

599IT 观察

多模态竞争的下一步不是单项能力炫技,而是可控性。谁能让用户更稳定地得到想要的视觉结果,谁就更接近生产工具。Gemini Omni Flash 的意义在于把生成和编辑放进同一个对话流程。

对内容团队来说,值得尝试的是把 AI 视频用于前期创意和素材探索,而不是直接替代最终成片。先用模型快速生成多个方向,再由人工筛选、修正和品牌统一,会比盲目追求全自动更可靠。

参考资料:Gemini API Release NotesGoogle AI June UpdatesGoogle I/O 2026 Announcements。本文为 599IT 基于公开资料整理的原创分析,不复制原文内容。