開発者会議「Google I/O 2025」では、印象的なイノベーションを含む数多くの技術的成果が披露され、AIコア技術分野におけるグーグルの深い蓄積が浮き彫りになった。しかし、情報の氾濫とやや分かりにくい製品の見せ方は、その全体的な戦略や市場での発信力について、外部に疑念を抱かせるものでもあった。
ディープマインドの社員ローガン・キルパトリックは、昨年からのグーグルAIの目覚ましい進歩を指摘している:世界有数のモデルを持ち、Geminiアプリの月間利用者数が4億人を超え、月間処理能力が トークン 480Tのボリューム(前年比50倍の成長)、700万人以上の開発者が利用している。 ジェミニ API(4倍の成長)。この数字は確かに目を見張るものがある。
しかし、グーグルAIが提供した公式の「マインドマップ」は、リリースの内容をすべて把握できておらず、CEOが提供した「フルレビュー」のリンクは、最終的に27の記事のリストへとつながっており、マーケティング戦略の効果に疑問を投げかける情報の伝え方となっている。この種のメッセージングは、グーグルのマーケティング戦略の効果に疑問符を残すものだ。市場はグーグルの業績に好意的で、株価も上昇しているようだが、製品戦略と市場の期待のあいまいさは依然として混乱を招いている。
一部のオブザーバーが指摘しているように、同時に発表される情報が多すぎると、焦点がぼやけてしまう傾向がある。グーグルは技術面で多くのブレークスルーを達成しているが、これらの技術を市場競争力のある製品に変えられるかどうかは、依然としてグーグルが直面している核心的な課題である。グーグルは、まだ完全ではないプロトタイプを次々と発表し、技術が成熟してから最適化を図るという見方もあるが、それ自体は悪い戦略ではない。重要なのは、いかにしてユーザーにこれらの製品の価値を知ってもらい、理解してもらうかにある。
立ち上げの主なハイライトと最初の解釈
グーグルの発表イベントは、以下の分野をカバーする内容満載のものだった:
- ヴェオ 3音声と効果音付きの8秒間の高品質ビデオを生成します。
- フローVeo 3の短い動画をつなぎ合わせて長いコンテンツにすることを目指していますが、まだ完璧ではありません。
- Gmailと関連アプリケーションの統合コンテキストを考慮した、より幅広いインテリジェントなアシスタンス機能を提供する。
- ジェミニ2.5フラッシュとジェミニ2.5プロディープシンキングパフォーマンスを向上させた新世代のモデル。
- ジェマ 3mRAM2GBの携帯電話で動作するオープンソースモデル。
- ジェミニ・ディフュージョン大きな可能性を秘めた斬新なテキストモデルだが、まだまだ磨きをかける必要がある。
- ジュールズCodexを無料でベンチマークするAIプログラミング・アシスタント。
- エージェント・モード完全な代理人」モデルをいくつかのシナリオで紹介する。
- ChromeとGeminiの統合ブラウザの開いているタブをコンテキストとして使うことができます。
- AIサーチ将来的には、エージェントモデルやショッピング専用モデルも導入する予定です。
- リアルタイム音声翻訳話し手の口調をスムーズに訳し、真似る。
- グーグルビーム3Dリアルタイム通信技術。
- アンドロイドXRデモしかし、実用化にはまだ時間がかかる。
- グーグルライブ体験携帯電話のカメラを通して拡張現実(AR)インタラクションを提供。
- AIプレミアム・サブスクリプション・サービス月額250ドル。
これらの製品や機能の中には、すでに稼動しているものもあれば、まだ数ヶ月先のものもある。状況は非常に複雑で、無料と有料がさまざまな成熟度で共存している。
ジェネレイティブ・メディアの革新と挑戦:フロー、ヴェオ3、イマーゲン4
注目の的 ヴェオ 3ネイティブ・オーディオ付きのビデオも驚くような仕上がりで生成できる。画像生成モデルも イメージ4最大2K解像度をサポートし、ディテールコントロールも改善された。
グーグルCEOのスンダー・ピチャイ氏は、Veo 3は動画生成モデルの頂点に立つものだと述べている。映像制作者やクリエイターにサービスを提供するため、グーグルはVeo、Imagen、Geminiの長所を組み合わせ、新しい動画生成モデル「Veo 3」を開発しました。 フロー は、Google AI ProとUltraの加入者向けの新しい映画制作ツールで利用できるようになった。
Bayram Annakovによる "冷や汗をかいて目覚める男 "のクリップの実演や、ワシが車を運ぶビデオをユーザーが拡張したものをGoogleが共有するなど、ユーザーはVeo 3に大きな熱意を示している。Plinyのようなユーザーは、いくつかの "脱獄 "方法によって制限されたコンテンツの一部を生成しているが、これはコンテンツ検閲の境界線についての議論につながった:なぜいくつかの創造的なPG-13コンテンツは、それを実現するために "脱獄 "する必要があるのだろうか?
FlowとVeo 3の組み合わせは、AI映像生成の実用的な可能性を初めて体験させてくれる。その一貫性、豊富なツールセット、効果音の追加は新たな可能性を予感させ、DeepMindとPrimordial Soup Labsのコラボレーションは、真に見応えのある短編映画の数々を生み出すかもしれない。
さらにグーグルは、Lyria 2を搭載した音楽サンドボックスについて言及し、AIが生成したコンテンツを検出するツールであるSynthID Detectorを紹介した。一方、スライドショーを動画に変換するGoogle Vidsと、そこに含まれるAIアバター機能は、その有用性と必要性に疑問を投げかけた。テキストプロンプトからデザインやユーザーインターフェイスを生成できるとしている。
Gmailとの統合:待望のスマートな飛躍?
スンダー・ピチャイは、ジェミニがグーグル・アプリでユーザーのメッセージにアクセスし、ユーザーの声でメールを作成できるGmailのパーソナライズド・スマート・リプライ機能を、近々契約者に展開すると発表した。
長い間、ユーザーはGmailが真にインテリジェントになることを待ち望んでいた。より正確なカレンダー人口、キーメッセージの抽出とリマインダー、メールの自動ソートとフィルタリングなど。過去1年間にグルーミングされた肉球からの未読メッセージをすべて削除する」は、最初の一歩に過ぎない。より高度な要件、例えば「緊急のメッセージや50%+の割引が含まれていない限り、The Groomed Pawからのメールを表示しないようにAIフィルターを設定する」や「サラが金曜日の予約に返信したらアラートを出す」などは、まだ実現されていない。"はまだ実現されていない。
Quick Appointment SchedulingのGmailとの統合は、ユーザーの好みを真に理解し、既存のスケジュールに適応すれば、間違いなく大きな前進となるだろう。AIによるメールのゴーストライティングについては、特定のシナリオ(フォーマル、プロフェッショナル、丁寧な表現が必要な場合など)では有用かもしれないが、詳細な説明が重要である。
ジェミニ・モデル・ファミリー:進化し続けるモデル
今回のリリースの焦点は、モデルそのものにあるわけではないが、ジェミニ・ラインにはまだ段階的なアップデートがある。ジェミニ2.5フラッシュ プリニーのような開発者は、その制限を回避する方法を共有している。
スンダル・ピチャイは、ジェミニ2.5フラッシュが推論、マルチモーダリティ、コード、ロングコンテクストに改良が加えられていることに言及した。一方。ジェミニ2.5プロ な ディープ・シンク このモデルは信頼できるテスターにも公開されており、デミス・ハサビスはGemini 2.5 Flashのスピードと低コストを賞賛している。チャートを見ると、Gemini 2.5 Pro Deep Thinking(水色)は、命名法が若干わかりにくいが、多くのベンチマークで通常のGemini 2.5 Pro(紺色)を上回っている。
Gemini 2.5 Flashは、ArenaチャートでGemini 2.5 Proに次ぐ好成績を収めており、Geminiアプリでは、新しいGemini 2.5 Flashが現行のGemini 2.5 Proを上回るというユーザーもいるほどだ。 Live APIは、音声とビジュアル入力、ネイティブ音声出力もサポートし、声のトーン、アクセント、スタイルのコントロールも可能になる、GoogleはGeminiのセキュリティに関するホワイトペーパーも発表している。
ジェンマ3n:エンドサイド・モデリングの進歩
ジェマ3n モバイルデバイスに最適化されたアーキテクチャ、マルチモーダル入力(ビデオ、オーディオ、テキスト、画像)のサポート、4Bや2Bなどのマルチサイズにより、グーグルのエンドサイド・オープンソースモデルにおいて大幅なパフォーマンス向上を実現。その推論は ジェマ3 4Bは1.5倍高速です。Google DeepMindのPer-Layer Embeddings(PLE)技術により、Gemma 3nはRAMフットプリントを劇的に削減し、5Bと8Bのパラメータを持つモデルを、2Bと4Bのモデルに近いメモリオーバーヘッド(わずか2GBと3GBのダイナミックメモリ)でモバイルデバイス上で実行できる。さらにグーグルは、ヘルスケア用のMedGemma、手話用のSignGemma、イルカとのコミュニケーション用のDolphinGemmaを発表した。
ジェミニ拡散:テキスト生成の新しいパラダイム?
ジェミニ・ディフュージョン テキスト拡散モデルとしては控えめだが、潜在的な意義は大きい。最大2,000トークン/秒を生成すると言われており、OCR修正などのタスクで優れた能力を示している。興味深いことに、Gemini 2.5のための "脱獄 "のヒントのいくつかは、この拡散モデルでも動作するようだ。
Jules: 無料のAIプログラミング・アシスタント
グーグル、AIプログラミング・エージェントを公開 ジュールズ開発者が機能を提供できるように設計された、コンテキストを意識したコード・リポジトリ統合機能を備えている。そのユーザー・インターフェースは、デモ・ビデオではかなり有利に見える。最も印象的なのは、Julesは現在無料で利用できることだ。ただし、最初は高い同時実行性による遅延に悩まされるかもしれない。その実際のパフォーマンスや、OpenAI Codexのような競合製品との比較は、まだ市場で検証されていない。
ディープリサーチとNotebookLM
ディープ・リサーチ 近々、グーグルドライブやGメールとの接続、特定のソースの選択、キャンバスとの統合が可能になる予定で、個人のコンテキスト情報を深く活用する必要がある研究シナリオには重宝するだろう。NotebookLMはスタンドアロンアプリも発表しており、好評を得ている。
グーグル検索の「AIモード」:検索体験の再発明
グーグル検索のAIオーバービューは、時折発生する低レベルのエラーで長い間批判されてきた。Gemini 2.5が追加されたことで、そのパフォーマンスは改善されることが期待されている。新しく発表された AIモード オーバービューとは異なるとされているが、ジェミニのアプリケーションとの具体的な違いや、ジェミニのアプリケーションとの具体的な違いは以下の通りである。 複雑さAI グーグルは、以下のような製品の違いを明確に説明していない。
Sundar Pichai氏によると、AI Modeは米国内の全ユーザーに展開され、より長く複雑なクエリをサポートするために検索を完全にリファクタリングするものだという。AI Overviewsは現在、200以上の国と地域で月間15億人のユーザーにサービスを提供している。AI Modeの中核となる強みは、リアルタイムのメッセージングシステム(特にショッピングなどの一般的なシナリオにおいて)とのより良い統合にあると思われる。複数のGoogle検索を素早く実行してコンテキストを生成する機能を無料で利用できる。
将来的には、AIモードは "Project Mariner "または "Agent Mode "と統合し、"ディープ・サーチ "オプションを提供する計画で、当初はチケット購入、レストラン予約、現地予約などのシナリオに焦点を当てる。当初は発券、レストラン予約、現地予約に重点を置く。特定の管理されたシナリオからエージェント機能に入るこの戦略は、現段階ではより慎重なアプローチかもしれない。正しく実行されれば、グーグル検索AIモードは多くのAIタスクにとって最も有用なエントリーポイントになると予想される。しかし、異なるAIチーム(AI Search、Gemini、Overviews)間の潜在的な内部競争と重複する責任は潜在的な懸念事項である。
AIショッピング:よりスマートな消費者の意思決定
グーグル検索AIモードの主要な派生機能であるAIショッピング機能(今後数ヶ月で開始)は、ユーザーがAIを活用した方法で一度に複数のeコマースサイトを検索し、視覚的な結果を提供し、フォローアップの質問をサポートする。また、価格を追跡し、適切な価格帯に達すると自動的に購入する。バーチャル試着機能もサーチラボで利用できる。
エージェント・モード:自律的知性の探求
スンダル・ピチャイは、ユーザーがウェブ上でより多くのタスクをこなせるようにするGeminiアプリのエージェントモードが、まもなく契約者向けに提供されると発表した。Project Marinerのマルチタスクバージョンは、米国のGoogle AI Ultra契約者にすでに提供されており、コンピュータ利用機能はGemini APIに追加される。Modeの目玉のひとつは「Teach and Repeat」機能で、ユーザーが一度タスクを実行すると、AIが学習してユーザーに代わって同様のタスクに取り組むというものだ。しかし、初期の報告によると、Project Marinerはまだ未熟で、例えば簡単なタスクではまだ失敗する。
Project Astra / Google Live: リアルタイムの映像インタラクション
ユーザーは現在、AndroidとiOSデバイスでこの機能を無料で使用することができ、ライブカメラの映像を共有したり、ジェミニと音声で対話したりすることができる。ジェミニが自分の代わりにGoogle検索を実行したり、YouTubeのビデオを再生したり、電話をかけたりすることもできる。プロジェクト・アストラの正確な定義は少し曖昧で、ライブビデオモードにおけるジェミニの代理人、または具体的にはGoogle Liveかもしれない。プロジェクト・アストラの正確な定義は少し曖昧なようで、リアルタイムのビデオモードではジェミニの代理、あるいは具体的にはグーグルライブかもしれない。公式ビデオでは、YouTube検索、Gmailの統合、在庫について尋ねる電話をかけるといったことのために、その「インテリジェンスの動作」が実演されている。この技術は検索機能にも統合されており、カメラを対象物に向け質問することで検索結果を生成する。
アンドロイドXRメガネ:未来のビジョン
アンドロイドXRメガネは、ユーザーが見ているものをスクリーンが「見る」ことで、より深いインタラクションを解き放つことを目指している。デモの未来的な性質とは裏腹に、発売は早くても2026年になる見込みで、価格も不明だ。デモを見る限り、現在の形は、理論的にはクールだが、実際にはあまりうまく機能しない製品のように見える。主なアプリケーション・シナリオは、Google LiveとAIチャットに限定されたままになりそうだ。
ChromeのGemini:オープンタブコンテキストの活用
クロームには新機能があり、ジェミニが現在のページだけでなく、開いているすべてのタブについてコンテキストとして質問することができる。これは便利な機能だが、ユーザーは慣れる必要があるだろう。
グーグル・ミート・リアルタイム翻訳:言葉の壁を越える
グーグルミートのリアルタイム音声翻訳機能は、ユーザーの声のトーンやスピードに合わせることで、スムーズな多言語対話を実現すると謳われており、契約者向けに展開された。デモは説得力のあるものだったが、実際の結果はまだ検証されていない。この機能は、3D会議プラットフォームであるGoogle Beamとともにデモされたが、この2つは直接の関係はない。
グーグルビーム:高価な3D「現実」コミュニケーション
Project Starlineから派生したGoogle Beamは、ミリメートル単位のヘッドトラッキングと60fpsのリアルタイムレンダリングをサポートする新しいビデオモデルによって、2Dビデオストリームをリアルな3D体験に変換することを目指している。これには特殊な装置(6台のカメラをベースにしているとされる)が必要で、HPが供給する1台あたり15,000ドルから30,000ドルのコストが当初はかかる可能性がある。究極の "リアリズム "を追求する3Dビデオ会議の必要性と実用性については、疑問視されている。ほとんどの会議シナリオでは、2Dで十分である。潜在的な市場は、日常的な会議よりも、VR空間の共有やゲーム、特定の映画鑑賞体験にあると思われる。
AIの普及と成長
スンダー・ピチャイは、グーグルのAI利用が急増していることを明らかにした。1年前は月間9.7兆トークンを処理していたが、現在は480兆と50倍に増加している。
ジェミニのアプリの月間ユーザー数は4億人で、ジェミニ2.5時代には45%の成長を遂げた。 チャットGPT 月間ユーザー数15億人への道のりはまだ遠いが、成長は力強い。
価格戦略:無料と有料を並行
AIサーチとGeminiアプリは基本機能は無料だが、プレミアム機能は有料だ。Proプランは月額20ドル、Ultraプランは月額250ドルで、後者では新機能(エージェントモードを含む)のスニークピークが提供され、料金上限も高くなる。
YouTube Premiumのようなサービスをサブスクリプション・パッケージにバンドルすることは、"Google Prime "のようなメタサブスクリプションのトレンドに沿った、賢い動きだと考えられている。ほとんどのユーザーにとってはProプランで十分だろうし、250ドルのUltraプランは料金制限と早期アクセスという付加価値があるが、平均的なユーザーにはあまり価値がないだろう。しかし、高度な機能をフルに活用できる人にとっては、サブスクリプションコストをはるかに上回る価値があるかもしれない。たとえば、動画生成に重点を置く場合、ウルトラプランでは月あたり12,000クレジットが提供され、8秒のVeo 3動画1本あたりのコストは150クレジット、1秒あたり0.39ドルです。ポイントを直接購入する方が安く、1秒あたり約0.19ドルです。ただし、満足のいく結果を生み出すために必要な反復回数は、実際のコストに大きく影響します。
技術に込められた思い
グーグルI/O 2025は、AIのあらゆる面で全面的に推進する決意を示し、その基礎となるモデルは好調だった。しかし、製品ラインは断片的に見え、全体的なビジョンはまだ明確ではないが、その可能性は大きい。一部のコメンテーターは、Google DeepMindの製品は、エージェント用の統一された堅牢なユーザーインターフェースを構築し、システムキューを最適化すれば、汎用AI(AGI)のプロトタイプと見なすことができると指摘している。
デミス・ハサビスは、Google LiveのリアルタイムビジョンとProject Marinerの並列エージェント機能を統合し、Geminiアプリを汎用AIアシスタントにするというビジョンを確認した。
ベン・トンプソンのようなアナリストは、グーグルの中核製品は依然として検索とクラウドサービスだと考えている。この見解に根拠がないわけではないが、他のAI製品も反復と最適化の末に成功する可能性を秘めている。重要な問題は、AIの効果的な利用にはユーザー側の能動的な思考と探求が必要であり、受動的に情報を受け取ることに慣れているユーザーには敷居が高いということだ。デバイス(アンドロイドや将来のXRメガネなど)は、こうした能力を促進するための重要な手段となるかもしれない。この文脈では、新興企業が特定の問題に対処するAIソフトウェア製品を構築する余地はまだ残されている。
グーグルは検索を向上させるという偉大な仕事を成し遂げたが、その強力なモデリング能力を他の同様に偉大な製品に反映させることができるかどうかはまだわからない。これは挑戦であると同時にチャンスでもある。