当前位置：首页 » AI新闻

谷歌 I/O 2025：技术盛宴下的产品迷思与整合挑战

2025-05-22

Google I/O 2025 开发者大会展示了众多技术成果，其中不乏令人印象深刻的创新，彰显了 Google 在人工智能核心技术领域的深厚积累。然而，信息的洪流和略显混乱的产品呈现方式，也让外界对其整体战略和市场沟通能力产生疑虑。

DeepMind 员工 Logan Kilpatrick 曾指出 Google AI 自去年以来取得的显著进展：拥有全球领先的模型、Gemini 应用月活用户超4亿、每月处理 Token 量达480T（同比增长50倍）、超过700万开发者使用 Gemini API（增长4倍）。这些数据无疑是亮眼的。

然而，Google AI 官方提供的“思维导图”未能全面囊括所有发布内容，其CEO提供的“全面回顾”链接最终指向一个包含27篇文章的列表，这种信息传递方式不禁让人对其市场营销策略的有效性打上问号。尽管市场对 Google 的表现似乎持积极态度，股价亦有上涨，但其产品战略和市场预期之间的模糊地带依然令人困惑。

正如一些观察家指出的，过多的信息同时发布，容易让重点失焦。尽管 Google 在技术层面实现了诸多突破，但能否将这些技术转化为具有市场竞争力的产品，仍是其面临的核心挑战。一种观点认为，Google 当前推出一系列尚不完善的原型产品，待技术成熟后再行优化，策略本身并无不妥。关键在于，如何确保用户知晓并理解这些产品的价值。

发布会核心亮点与初步解读

Google 本次发布会内容繁多，主要涵盖以下几个方面：

Veo 3：可生成带语音和音效的8秒高质量视频。
Flow：旨在将 Veo 3 的短视频串联成更长内容，但目前尚不完善。
Gmail 及相关应用集成：提供更广泛的上下文感知和智能辅助功能。
Gemini 2.5 Flash 与 Gemini 2.5 Pro Deep Thinking：新一代模型，性能提升。
Gemma 3m：可在2GB内存手机上运行的开源模型。
Gemini Diffusion：一种新颖的文本模型，潜力巨大但仍需打磨。
Jules：对标 Codex 的AI编程助手，免费提供。
Agent Mode：将在多个场景中引入“完全代理”模式。
Chrome 集成 Gemini：可利用浏览器打开的标签页作为上下文。
AI Search：向所有用户免费开放，未来将加入代理模式和专门的购物模式。
实时语音翻译：可平滑翻译并模仿说话者语气。
Google Beam：一种3D实时交流技术。
Android XR 演示：展示了未来方向，但距离实际应用尚有时日。
Google Live 体验：通过手机摄像头提供增强现实交互。
AI 高级订阅服务：每月250美元。

这些产品和功能，部分已上线，部分尚需数月。免费与付费并存，成熟度各异，情况颇为复杂。

生成式媒体的革新与挑战：Flow, Veo 3 和 Imagen 4

备受瞩目的当属 Veo 3，它能够生成带有原生音频的视频，效果惊艳。图像生成模型也升级至 Imagen 4，支持高达2K分辨率，并改进了细节控制能力，尽管其光芒在一定程度上被视频生成盖过。

Google CEO Sundar Pichai 表示，Veo 3 代表了视频生成模型的顶尖水平。为了服务电影制作人和创意工作者，Google 将 Veo, Imagen 和 Gemini 的精华整合到名为 Flow 的新电影制作工具中，已向 Google AI Pro 和 Ultra 订阅用户开放。

用户对 Veo 3 展现出极大热情，例如 Bayram Annakov 展示的“男子从冷汗中惊醒”的片段，以及 Google 分享的用户将老鹰携带汽车的视频进行扩展的案例。尽管 Pliny 等用户通过一些“越狱”手段生成了部分受限内容，但这引发了关于内容审查边界的讨论：为何一些富有创意的PG-13级别内容也需要“越狱”才能实现？

Flow 与 Veo 3 的组合，首次让人们感受到AI视频生成的实用潜力。其连贯性、丰富的工具集以及音效的加入，都预示着新的可能性。DeepMind 与 Primordial Soup Labs 的合作，或许能催生出真正有价值的短片作品。

此外，Google 还提及了由 Lyria 2 驱动的音乐沙盒，并推出了用于检测AI生成内容的工具 SynthID Detector。同时，将幻灯片转为视频的 Google Vids 以及其中的AI虚拟形象功能，则引发了一些关于其实用性和必要性的疑虑。Stitch 工具，据称可以通过文本提示生成设计和用户界面。

Gmail 集成：期待已久的智能飞跃？

Sundar Pichai 宣布，Gmail 中的个性化智能回复功能，允许 Gemini 获取用户在 Google 应用中的信息，并以用户的口吻撰写邮件，即将向订阅用户推出。

长久以来，用户对 Gmail 实现真正智能化的期待颇高，例如更精准的日历填充、关键信息提取与提醒、邮件自动分类与过滤等。Google 提出的“收件箱清理”功能，如“删除过去一年所有来自 The Groomed Paw 的未读邮件”，仅是第一步。更高级的需求，如“设置AI过滤器，除非包含紧急信息或50%以上折扣，否则不再显示 The Groomed Paw 的邮件”或“当 Sarah 回复周五是否赴约时立即提醒我”，仍有待实现。

快速预约排程与 Gmail 的集成，若能真正理解用户偏好并适应现有日程，无疑将是巨大进步。至于AI代写邮件，在特定场景下（如需要正式、专业或礼貌的表达）或许有用，但细节处理至关重要。

Gemini 模型家族：持续进化

尽管本次发布会重点并非模型本身，但 Gemini 系列仍有增量更新。Gemini 2.5 Flash 已广泛可用，被认为是目前性能最佳的快速、低成本模型之一。Pliny 等开发者甚至分享了绕过其限制的方法。

Sundar Pichai 提到，Gemini 2.5 Flash 在推理、多模态、代码和长上下文方面均有提升。同时，Gemini 2.5 Pro 的 Deep Think 模式也面向受信任的测试者开放。Demis Hassabis 称赞 Gemini 2.5 Flash 的速度和低成本。从图表上看，Gemini 2.5 Pro Deep Thinking (浅蓝色) 在多项基准测试中优于常规的 Gemini 2.5 Pro (深蓝色)，尽管这种命名方式略显混乱。

Gemini 2.5 Flash 在 Arena 排行榜上表现优异，仅次于 Gemini 2.5 Pro。一些用户甚至认为新的 Gemini 2.5 Flash 在 Gemini 应用中的表现优于当前的 Gemini 2.5 Pro。Live API 也将支持视听输入和原生音频输出，并能控制语气、口音和风格。Google 还发布了关于 Gemini 安全保障的白皮书。

Gemma 3n：端侧模型的进步

Gemma 3n 在 Google 的端侧开源模型性能上实现了显著提升，采用专为移动设备优化的架构，支持多模态输入（视频、音频、文本、图像），并提供4B和2B等多种尺寸。其推理速度比 Gemma 3 4B 快1.5倍。通过 Google DeepMind 的 Per-Layer Embeddings (PLE) 技术，Gemma 3n 大幅降低了RAM占用，使得5B和8B参数的模型能以接近2B和4B模型的内存开销（仅2GB和3GB动态内存）在移动设备上运行。此外，Google 还推出了针对医疗保健的 MedGemma、手语领域的 SignGemma 以及用于与海豚交流的 DolphinGemma。

Gemini Diffusion：文本生成新范式？

Gemini Diffusion 作为一个文本扩散模型，虽然低调，但可能具有重大意义。据称其生成速度可达2000 tokens/秒，并在OCR校正等任务上表现出良好能力。有趣的是，一些针对 Gemini 2.5 的“越狱”提示似乎也对该扩散模型有效。

Jules：免费的AI编程助手

Google 发布了其AI编程代理 Jules，具备上下文感知、代码仓库集成能力，旨在帮助开发者交付功能。其用户界面在演示视频中看起来颇具优势。最引人注目的是，Jules 目前免费提供，尽管初期可能因高并发导致延迟。其真实性能和与 OpenAI Codex 等竞品的比较，仍有待市场检验。

Deep Research 与 NotebookLM

Deep Research 将很快允许连接 Google Drive 和 Gmail，选择特定信源，并与 Canvas 集成，这对于需要深度利用个人上下文信息的研究场景极具价值。NotebookLM 也推出了独立应用，并获得了不错的反响。

Google Search “AI 模式”：重塑搜索体验

长期以来，Google Search 的 AI Overviews 因其偶尔出现的低级错误而受到诟病。随着 Gemini 2.5 的加持，其表现有望改善。新推出的 AI Mode 据称不同于 Overviews，但其与 Gemini 应用的具体区别，以及与 Perplexity AI 等产品的差异，Google 并未清晰阐释。

Sundar Pichai 表示，AI Mode 将向美国所有用户推出，是对搜索的彻底重构，支持更长、更复杂的查询。AI Overviews 目前每月服务15亿用户，覆盖200多个国家和地区。AI Mode 的核心优势可能在于更好地集成实时信息系统（尤其是购物等常见场景），并能快速执行多次 Google 搜索以生成上下文，且免费提供。

未来，AI Mode 计划整合 “Project Mariner” 或称 “Agent Mode”，并提供“深度搜索”选项，初期将聚焦于票务、餐厅预订和本地预约等场景。这种从特定、可控场景切入代理功能的策略，或许是当前阶段更为稳妥的方式。若执行得当，Google Search AI Mode 有望成为许多AI任务的最实用入口。然而，不同AI团队（AI Search, Gemini, Overviews）之间可能存在的内部竞争和职责重叠，是潜在的隐忧。

AI 购物：更智能的消费决策

作为 Google Search AI Mode 的一个重要分支，AI 购物功能（未来数月推出）允许用户以AI驱动的方式一次性搜索多个电商网站，提供可视化结果，并支持后续追问。它还能追踪价格，并在达到合适价位时自动购买。虚拟试穿功能也已在 Search Labs 中推出。

Agent Mode：通往自主智能的探索

Sundar Pichai 宣布，Gemini 应用中的 Agent Mode 将帮助用户在网络上完成更多任务，即将向订阅用户开放。Project Mariner 的多任务版本已向美国 Google AI Ultra 订阅用户提供，计算机使用能力也将加入 Gemini API。Agent Mode 的一个亮点是 “Teach and Repeat” 功能，即用户执行一次任务后，AI能学习并代为处理类似任务。然而，早期报告显示 Project Mariner 尚不成熟，例如在处理简单任务时仍会失败。

Project Astra / Google Live：实时视觉交互

用户现在可以在 Android 和 iOS 设备上免费使用此功能，通过共享实时摄像头画面与 Gemini 进行语音交互，Gemini 可以代为执行 Google 搜索、播放 YouTube 视频甚至拨打电话。Project Astra 的具体定义似乎有些模糊，它可能就是 Gemini 在实时视频模式下的代称，或者特指 Google Live。官方视频展示了其在 YouTube 搜索、Gmail 集成以及代打电话询问库存等方面的“行动智能”。该技术也正被整合入搜索功能，用户通过摄像头指向物体并提问，系统即可生成搜索结果。

Android XR 眼镜：未来的愿景

Android XR 眼镜旨在通过让屏幕“看到”用户所见，来解锁更深层次的交互。尽管演示颇具未来感，但预计最早也要到2026年才能面世，价格未知。从演示效果看，其当前形态更像是一个理论上很酷但在实践中可能不尽如人意的产品，主要应用场景可能仍局限于 Google Live 和 AI 聊天。

Chrome 中的 Gemini：利用开放标签页上下文

Chrome 浏览器新增功能，允许 Gemini 不仅分析当前页面，还能将所有打开的标签页作为上下文进行提问。这是一个实用但需要用户培养使用习惯的功能。

Google Meet 实时翻译：跨越语言障碍

Google Meet 中的实时语音翻译功能，据称能匹配用户语气和语速，实现流畅的跨语言对话，已向订阅用户推出。尽管演示效果令人信服，但实际效果有待检验。此功能与 Google Beam（3D会议平台）一同展示，但两者并无直接关联。

Google Beam：昂贵的3D“真实感”通讯

源于 Project Starline 的 Google Beam，旨在通过新的视频模型将2D视频流转换为逼真的3D体验，支持毫米级头部追踪和60fps实时渲染。这需要专门的设备（据称基于六个摄像头），初期由 HP 提供的设备单价可能在1.5万至3万美元之间。这种追求极致“真实感”的3D视频会议，其必要性和实用性受到质疑。对于多数会议场景，2D已足够，甚至更优。其潜在市场可能更多在于共享VR空间、游戏或特定观影体验，而非日常会议。

AI 的普及与增长

Sundar Pichai 透露，Google AI 的使用量增长迅猛。一年前每月处理9.7万亿 Tokens，如今已达480万亿，增长50倍。

Gemini 应用的月活用户达到4亿，在 Gemini 2.5 时代用量增长45%。尽管与 ChatGPT 的15亿月活用户相比仍有差距，但增长势头强劲。

定价策略：免费与付费并行

Google 的AI服务将延续免费与付费并行的策略。AI Search 和 Gemini 应用的基础功能免费，但高级功能需要付费。Pro 计划每月20美元，Ultra 计划每月250美元，后者提供新功能抢先体验（包括 Agent Mode）和更高的速率限制。

将 YouTube Premium 等服务捆绑进订阅包，被认为是明智之举，符合“Google Prime”式的元订阅趋势。对于大多数用户，Pro 计划已足够。250美元的 Ultra 计划，其额外价值主要体现在速率限制和早期尝鲜，对普通用户而言性价比不高。但对于能充分利用其高级功能的用户，其价值可能远超订阅费用。例如，若专注于视频生成，Ultra 计划每月提供12000点数，每个8秒 Veo 3 视频消耗150点数，相当于每秒0.39美元。直接购买点数则更便宜，约每秒0.19美元。然而，生成满意结果所需的迭代次数，是影响实际成本的关键因素。

纷繁技术背后的深思

Google I/O 2025 展现了其在AI各条战线全面推进的决心，底层模型表现出色。然而，产品线显得零散，整体愿景尚未清晰呈现，但潜力巨大。有评论认为，Google DeepMind 若能构建一个统一的、强大的代理用户界面，并优化系统提示，其产品将可能被视为通用人工智能（AGI）的雏形。

Demis Hassabis 确认，其愿景是将 Gemini 应用打造成一个通用的AI助手，整合 Google Live 的实时视觉和 Project Mariner 的并行代理能力。

Ben Thompson 等分析师认为，Google 的核心产品仍然是搜索和云服务。这种观点不无道理，但其他AI产品在经过迭代和优化后，同样具备成功的潜力。一个关键问题在于，有效使用AI需要用户的主动思考和探索，这对于习惯被动接受信息的用户而言是一个门槛。设备（如 Android 和未来的 XR 眼镜）可能是推广这些能力的重要载体。在此背景下，初创企业仍有空间去构建解决特定问题的AI软件产品。

Google 在改进搜索方面做得很好，但能否将其强大的模型能力转化为其他同样出色的产品，仍是未知数。这既是挑战，也是机遇。

未经允许不得转载：AI生产力工具 » 谷歌 I/O 2025：技术盛宴下的产品迷思与整合挑战