グーグルは2024年12月11日(アメリカ現地時間)、次世代AI「Gemini 2.0」ファミリーの最初のモデルとして、Gemini 2.0 Flashの試験運用版をリリースした。
本稿では同社掲載ブログを元に、その概要をお伝えする。
2025年1月には一般提供が開始され、モデル サイズも拡大する予定
Gemini 2.0 Flashは、最先端のテクノロジーで低レイテンシーと性能強化を大規模に実現した主要モデルとなる。
Gemini 2.0 FlashはGemini 1.5 Flashをベースに構築されており、主要ベンチマークにおいてはGemini 1.5 Proを2倍のスピードで上回っているという。
現在、Gemini 2.0 FlashはGoogle AI Studio および Vertex AI の Gemini API を介して開発者向けの実験モデルとして提供されており、マルチモーダル入力とテキスト出力はすべての開発者に提供されている。
また、早期アクセス パートナーはテキスト読み上げとネイティブ画像生成を利用できる。2025年1月には一般提供が開始され、モデル サイズも拡大する予定だ。
Gemini 2.0 でエージェント体験を実現
Gemini 2.0 Flashは、ネイティブなユーザーインターフェース操作機能と、マルチモーダル推論、長文脈理解、複雑な指示への追従と計画、複合的な関数呼び出し、ネイティブなツール利用、そしてレイテンシの改善といった様々な改良が連携することで、新しいエージェント体験を実現する。
AI エージェントの実用化は、大きな可能性を秘めた研究分野だ。グーグルは、「人々のタスクを支援する様々なプロトタイプを開発し、この新しい領域に取り組んでいます」と説明している。
その例として、普遍的なAIアシスタントの将来の可能性を探る研究プロトタイプ Project Astra のアップデート、ブラウザを起点に人間とエージェントの相互作用の未来を探る新しい Project Mariner 、そして開発者を支援するAIコードエージェント Jules が含まれる。
■Project Astra: 現実世界でマルチモーダル理解を実現
Gemini 2.0を基に構築された最新バージョンでは、以下の点が改善されている。
<対話の改善>
Project Astra は、複数の言語および混合言語での会話が可能になり、アクセントや珍しい単語の理解も向上した。
<新しいツールの利用>
Gemini 2.0 では、Project Astra は Google 検索、Google レンズ、Google マップを利用できるようになり、日常生活におけるアシスタントとしての利便性が向上した。
<記憶力の強化>
Project Astraは、ユーザーが管理しながら記憶できる情報量が拡張された。セッション中は最大10分間の記憶保持が可能になり、過去の会話もより多く記憶することで、ユーザー一人ひとりに最適化された体験を提供する。
<応答速度の向上>
新しいストリーミング機能とネイティブな音声理解により、人間同士の会話とほぼ遜色のない応答速度で言語を理解できるようになった。
■Project Mariner: 複雑なタスクを支援するエージェント
Project Marinerは、Gemini 2.0で構築された初期の研究プロトタイプで、ブラウザを起点に人間とエージェントのインタラクションの可能性を探求している。
リサーチプロトタイプとして、テキスト、コード、画像、フォームなどのピクセルやウェブ要素を含む、ブラウザ画面上の情報を理解し、推論することができる。そして、試験運用版の Chrome 拡張機能を介してその情報を使用し、ユーザーの代わりにタスクを完了する。
エンドツーエンドの実際のウェブタスクでエージェントの性能をテストする WebVoyager ベンチマークと比較して評価したところ、Project Mariner は単一のエージェント設定で 83.5% という最高水準の結果を達成した。
Project Mariner はまだ初期段階の研究プロトタイプであり、現時点では精度やタスク完了速度に課題が残るものの、技術的にはブラウザ内を操作できる可能性を示している。これらの課題は今後急速に改善されると見込まれる。
安全かつ責任ある開発を進めるため、私たちは人間を常に介在させつつ、新たな種類のリスクとそれらへの対策に関する研究を積極的に行なっている。
例えば、Project Mariner はブラウザでアクティブになっているタブ内でのみ、文字入力、スクロール、クリックといった操作が可能で、購入などの機密性の高い操作を実行する前には、必ずユーザーに最終確認を求める。
現在、一部のテスターは試験運用版の Chrome拡張機能を使用して Project Marinerのテストを開始しており、グーグルでは並行してウェブ エコシステムとの対話を進めているという。
ゲームやその他の分野でのエージェント
Google DeepMindは、AI モデルがルールに従い、計画を立て、論理的に考える能力を高めるために、長年にわたりゲームを活用してきた。
例えば、先週は、1枚の画像から無限に多様なプレイ可能な 3D 世界を生成する AI モデル Genie 2 が発表された。この流れを受け、Gemini 2.0を用いて、ビデオゲームの仮想世界をナビゲートするエージェントが開発された。
このエージェントは、画面上の動きのみに基づいてゲーム状況を把握し、次に取るべき行動をリアルタイムの会話で提案する。
グーグルではSupercell のような大手ゲーム 開発者と協力して、これらのエージェントがどのように機能するかを調査し、クラッシュ・オブ・クランのような戦略ゲームからヘイ・デイのような農業シミュレーターまで、さまざまなゲームでルールと課題を解釈する能力をテストを行っている。
これらのエージェントは、仮想ゲーム コンパニオンとして機能するだけでなく、Google 検索を利用して、ウェブ上の豊富なゲーム知識とユーザーをつなげることもできる。
仮想世界でのエージェント機能の探求に加え、Gemini 2.0 の空間推論機能をロボット工学に適用することで、現実世界で役立つエージェントの実験も実施されている。
Gemini 2.0、AI エージェント、そしてその先
今回の発表に際して、グーグルでは次のようにコメントしている。
「本日の発表は、 Gemini モデルにとって新たな幕開けとなります。Gemini 2.0 Flashのリリースと、エージェントの可能性を探る一連の研究プロトタイプは、Gemini の時代における重要なマイルストーンとなります。私たちは、AGI(汎用人工知能)の実現に向けた開発を進めながら、今後も安全性を最優先に、あらゆる可能性を追求していくことを楽しみにしています」
関連情報
https://blog.google/intl/ja-jp/company-news/technology/google-gemini-ai-update-december-2024/
構成/清水眞希