Googleの新型AIモデル「Gemini Omni」、画像や音声、テキストから対話形式で動画編集が可能に

2026.05.24

Googleは2026年5月19日～20日に開催した年次開発者向け会議「Google I/O」（開催地：アメリカ・カリフォルニア州マウンテンビュー）で、Geminiの高い推論能力と創造力を組み合わせた新しいモデルファミリー「 Gemini Omni」を発表した。

あらゆる入力から様々なものを創り出すことができる新しいモデル

Gemini Omniは、動画をはじめとして、あらゆる入力から様々なものを創り出すことができる新しいモデルだ。画像、音声、動画、テキストを自由に組み合わせて入力し、Gemini が持つ現実世界の知識に基づいたハイクオリティな動画を生成することができるという。

またGoogleでは、まるで会話をするように簡単に動画を編集することも可能だと説明している。

そんなGemini Omniファミリーの第一弾として、Gemini Omni Flashが発表同日より世界中のすべてのGoogle AI Plus 、Pro 、およびUltraユーザーを対象として、 Gemini アプリおよびGoogle Flowを通じて順次提供が開始された。

また、YouTube Shorts および YouTube Create アプリユーザーにも、無料で順次提供が開始される。今後は画像や音声といった出力形式にも対応する予定だ。

■Gemini Omnibの概要を動画でチェック

自然言語で話すだけ、より直感的な動画編集を実現

Gemini Omniは、自然言語だけで、より直感的に動画を編集できる。すべてのプロンプトが前の文脈を引き継ぐため、登場キャラクターの見た目や特徴は一貫して保たれ、物理法則も崩れず、シーン全体の流れもしっかりと記憶される。

＜イチから世界を創りだす＞
特定の部分を変更することも、すべてを作り変えることも可能。自分で撮影するのが難しかったような映像も、撮影した動画を初めから全く新しい作品に変えることもできる。

＜続きを再構築する＞
Gemini Omni では、自分で撮影した動画をベースに「そこで何が起きているか」を自由に変更や追加ができる。キャラクターの動きを編集したり、新しいキャラクターやオブジェクトを追加したり、ある一瞬を思いがけない展開へと変貌させることも可能だ。

＜やり取りしながらよりよい作品に＞
元のシーンの文脈を失うことなく、背景環境、カメラアングル、スタイル、さらには細かなディテールまで調整が可能になった。

プロンプト：カメラのアングルを、バイオリニストの背後からの視点に変更してください。

Gemini の世界知識に基づき、アイデアを形にする

Gemini Omniは、単にリアルに見えるシーンを作るだけでなく、「次に何が起こるか」を論理的に推論を行なう。物理法則に対する直感的な理解と、Gemini が持つ歴史、科学、文化的な背景知識を組み合わせることで、単なる写真のような美しさを超えた、意味のあるストーリー展開が可能になった。

＜より正確な物理法則を取り入れたビジュアル生成＞
Gemini Omniは、重力、運動エネルギー、流体力学といった物理に対する理解が向上。これにより、水や物の動きがより自然で、リアリティ溢れるシーンを創り出すことができる。

プロンプト：連鎖反応コースを高速で転がるビー玉。途切れのないスムーズなワンカット撮影。

＜知識とクリエイティビティ＞
Gemini OmniはGeminiの知識を活用して、単なるパターンマッチングを超え、言葉、映像、あるいはその意味を結びつける。

＜複雑なアイデアの視覚化＞
短いプロンプトだけで、 Gemini Omni が説得力のある解説動画を作成できる。難解で複雑なアイデアをわかりやすく、噛み砕いたビジュアルを生成してくれる。

■あらゆる入力を組み合わせて動画を生成する

＜リファレンスへの対応＞
Gemini Omni は、画像、テキスト、動画、音声など、どんなフォーマットからでも、それらを組み合わせた一つのの動画作品をつくりあげる。GHoogleによれば音声の参照については、まず音声リファレンスから対応して、その後、その他の入力にも対応していく予定だという。

＜手元にある素材から始める＞
入力リファレンス機能を使うことで、お気に入りのキャラクターの画像、背景シーン、あるいは手書きのスケッチなどを活用。自身の思い描くビジョンに完全に一致する作品を創り出すことができる。

プロンプト：歩くにつれて、世界が徐々にレトロフューチャースタイルへと変化していく様子を表現してください（image-1のような、粒子感がありムード漂う質感）。オーディオは、レトロフューチャー風の BGM として使用してください。動画の長さは10秒。

プロンプト：リアルな映像に変換してください。イラストは動きのガイドとしてのみ使用し、最終的なビデオにはその描画を表示させないでください。

プロンプト：入力された動画のポーズと動きを、この画像に描かれたキャラクターに適用してください。新しい動画には参照画像からスタイルを適用してください。

＜スタイル、モーション、エフェクトの適用＞
入力リファレンスを使って視覚的な表現を定義することも、自然な言葉で説明するだけで対応してくれる。 Gemini Omni がそれらの要素を組み合わせ、まとまりのある一つのクリップを生成する。

デジタルアバターを使った動画作成

Googleでは責任あるAI開発の一環として、ユーザーをトラブルから守り、AIツールの適切な利用を管理するための明確なポリシーを定めている。

具体策としては、まずユーザー自身の声を使って動画を作成できるアバター機能を提供する。これにより、自身のデジタルバージョンを作成して、見た目も声も自分そっくりの動画を生成できるようになる。なお、動画内の音声や会話を編集・変更する機能については、ユーザーに責任ある形で届けるべく、現在も慎重にテストと評価を重ねているとのことだ。

またGemini Omniで作成されたすべての動画には、電子透かし技術 SynthIDが埋め込まれる。動画がGemini Omniによって生成されたものかどうかは、 Gemini アプリ、Gemini in Chrome 、あるいは Googl 検索を通じて簡単に確認することができる。

構成／清水眞希