Googleは、マルチモーダルに対応した高性能AIモデル「Gemini」を発表した。
「Ultra」「Pro」「Nano」の3つのサイズを用意!
「Gemini」は、テキスト、画像、音声、動画など様々な種類の情報に対応できるマルチモーダルAIモデル。Geminiの最初のバージョンは「Gemini 1.0」となり、非常に複雑なタスクに対応する高性能な「Gemini Ultra」、幅広いタスクに対応する「Gemini Pro」、デバイス上のタスクに最も効率的な「Gemini Nano」の3つのサイズを用意する。
このうち、「Gemini Nano」を、「Google Pixel 8 Pro」に導入。レコーダーアプリの「Summarize」にて、録音された会話やインタビュー、プレゼンテーションなどの要約が可能となるほか、キーボードアプリ「Gboard」のスマートリプライ機能にも「Gemini Nano」が展開される。なお、どちらも、日本を含むグローバルで提供を開始するが、現時点での対応言語は英語のみとなる。
また、「Gemini Pro」を、GoogleのAIチャットボット「Bard」の英語版に導入。12月6日より、170以上の国と地域にて、テキストベースのプロンプトで「Bard with Gemini Pro」が利用可能となった。
そのほかのさまざまなマルチモーダルデータへの拡張は、今後順次提供予定。また、対応言語と地域についても、拡大していく予定としている。
「Gemini Ultra」については、信頼できる外部関係者によるレッドチームを含む広範な信頼性および安全性チェックを実施するとともに、展開前のファインチューンと人間のフィードバックによる強化学習 (RLHF) によってモデルのさらなる改良を行なっており、このプロセスの一環として、来年の開発者や企業への公開前に、初期実験とフィードバックを目的とし、一部の顧客、開発者、パートナー、安全責任専門家に「Gemini Ultra」を提供。
さらに、来年には、「Gemini Ultra」で動作する「Bard Advanced」もリリースする予定だ。
関連情報
https://deepmind.google/technologies/gemini/#introduction
構成/立原尚子