小学館IDをお持ちの方はこちらから
ログイン
初めてご利用の方
小学館IDにご登録いただくと限定イベントへの参加や読者プレゼントにお申し込み頂くことができます。また、定期にメールマガジンでお気に入りジャンルの最新情報をお届け致します。
新規登録
人気のタグ
おすすめのサイト
企業ニュース

Googleの新型AIモデル「Gemini Omni」、画像や音声、テキストから対話形式で動画編集が可能に

2026.05.24

Googleは2026年5月19日~20日に開催した年次開発者向け会議「Google I/O」(開催地:アメリカ・カリフォルニア州マウンテンビュー)で、Geminiの高い推論能力と創造力を組み合わせた新しいモデルファミリー 「 Gemini Omni」 を発表した。

あらゆる入力から様々なものを創り出すことができる新しいモデル

Gemini Omniは、動画をはじめとして、あらゆる入力から様々なものを創り出すことができる新しいモデルだ。画像、音声、動画、テキストを自由に組み合わせて入力し、Gemini が持つ現実世界の知識に基づいたハイクオリティな動画を生成することができるという。

またGoogleでは、まるで会話をするように簡単に動画を編集することも可能だと説明している。

そんなGemini Omniファミリーの第一弾として、Gemini Omni Flashが発表同日より世界中のすべてのGoogle AI Plus 、Pro 、およびUltraユーザーを対象として、 Gemini アプリおよびGoogle Flowを通じて順次提供が開始された。

また、YouTube Shorts および YouTube Create アプリ ユーザーにも、 無料で順次提供が開始される。今後は画像や音声といった出力形式にも対応する予定だ。

■Gemini Omnibの概要を動画でチェック

自然言語で話すだけ、より直感的な動画編集を実現

Gemini Omniは、自然言語だけで、より直感的に動画を編集できる。すべてのプロンプトが前の文脈を引き継ぐため、登場キャラクターの見た目や特徴は一貫して保たれ、物理法則も崩れず、シーン全体の流れもしっかりと記憶される。

<イチから世界を創りだす>
特定の部分を変更することも、すべてを作り変えることも可能。自分で撮影するのが難しかったような映像も、撮影した動画を初めから全く新しい作品に変えることもできる。

<続きを再構築する>
Gemini Omni では、 自分で撮影した動画をベースに「そこで何が起きているか」 を自由に変更や追加ができる。キャラクターの動きを編集したり、新しいキャラクターやオブジェクトを追加したり、ある一瞬を思いがけない展開へと変貌させることも可能だ。

<やり取りしながらよりよい作品に>
元のシーンの文脈を失うことなく、背景環境、カメラアングル、スタイル、さらには細かなディテールまで調整が可能になった。

バイオリニストが曲を演奏している動画
プロンプト:バイオリニストを指定された画像の環境へ移動させてください。
プロンプト:カメラのアングルを、バイオリニストの背後からの視点に変更してください。

Gemini の世界知識に基づき、アイデアを形にする

Gemini Omniは、単にリアルに見えるシーンを作るだけでなく、 「次に何が起こるか」 を論理的に推論を行なう。物理法則に対する直感的な理解と、Gemini が持つ歴史、科学、文化的な背景知識を組み合わせることで、単なる写真のような美しさを超えた、意味のあるストーリー展開が可能になった。

<より正確な物理法則を取り入れたビジュアル生成>
Gemini Omniは、重力、運動エネルギー、流体力学といった物理に対する理解が向上。これにより、水や物の動きがより自然で、リアリティ溢れるシーンを創り出すことができる。

プロンプト:連鎖反応コースを高速で転がるビー玉。途切れのないスムーズなワンカット撮影。

<知識とクリエイティビティ>
Gemini OmniはGeminiの知識を活用して、単なるパターンマッチングを超え、言葉、映像、あるいはその意味を結びつける。

<複雑なアイデアの視覚化>
短いプロンプトだけで、 Gemini Omni が説得力のある解説動画を作成できる。難解で複雑なアイデアをわかりやすく、噛み砕いたビジュアルを生成してくれる。

■あらゆる入力を組み合わせて動画を生成する

<リファレンスへの対応>
Gemini Omni は、画像、テキスト、動画、音声など、どんなフォーマットからでも、それらを組み合わせた一つのの動画作品をつくりあげる。GHoogleによれば音声の参照については、 まず音声リファレンスから対応して、 その後、その他の入力にも対応していく予定だという。

<手元にある素材から始める>
入力リファレンス機能を使うことで、お気に入りのキャラクターの画像、背景シーン、あるいは手書きのスケッチなどを活用。自身の思い描くビジョンに完全に一致する作品を創り出すことができる。

プロンプト:歩くにつれて、世界が徐々にレトロフューチャー スタイルへと変化していく様子を表現してください(image-1のような、粒子感がありムード漂う質感)。オーディオは、レトロフューチャー風の BGM として使用してください。動画の長さは10秒。
プロンプト:リアルな映像に変換してください。イラストは動きのガイドとしてのみ使用し、最終的なビデオにはその描画を表示させないでください。
プロンプト:入力された動画のポーズと動きを、この画像に描かれたキャラクターに適用してください。新しい動画には参照画像からスタイルを適用してください。

<スタイル、モーション、エフェクトの適用>
入力リファレンスを使って視覚的な表現を定義することも、自然な言葉で説明するだけで対応してくれる。 Gemini Omni がそれらの要素を組み合わせ、まとまりのある一つのクリップを生成する。

デジタルアバターを使った動画作成

Googleでは責任あるAI開発の一環として、ユーザーをトラブルから守り、AIツールの適切な利用を管理するための明確なポリシーを定めている。

具体策としては、まずユーザー自身の声を使って動画を作成できるアバター機能を提供する。これにより、自身のデジタルバージョンを作成して、見た目も声も自分そっくりの動画を生成できるようになる。なお、動画内の音声や会話を編集・変更する機能については、ユーザーに責任ある形で届けるべく、現在も慎重にテストと評価を重ねているとのことだ。

またGemini Omniで作成されたすべての動画には、電子透かし技術 SynthIDが埋め込まれる。動画がGemini Omniによって生成されたものかどうかは、 Gemini アプリ 、Gemini in Chrome 、あるいは Googl 検索を通じて簡単に確認することができる。

関連情報
https://blog.google/intl/ja-jp/company-news/technology/gemini-omni/

構成/清水眞希

@DIMEはサイトローンチ時より編集業務に携わる。現在は雑貨や家電、オーディオなどの新製品に加え、各種の社会調査・統計、話題の新スポットからイベント情報などを担当。信条は正確さとわかりやすさ。最近の趣味は日付が変わる時刻のウオーキング。

@DIMEのSNSアカウントをフォローしよう!

DIME最新号

最新号
2026年5月15日(金) 発売

映画『正直不動産』と大コラボ!不動産の買い時を徹底検証、住宅価格高騰の今知るべき不動産の「ウソ・ホント」を専門家と解き明かす!最新メンズ美容アイテム特集では頭皮・UV・汗などこれからの時期へ徹底対策!さらにunoオールインワンシャンプーも付録についた充実号!

人気のタグ

おすすめのサイト

ページトップへ

ABJマークは、この電子書店・電子書籍配信サービスが、著作権者からコンテンツ使用許諾を得た正規版配信サービスであることを示す登録商標(登録番号 第6091713号)です。詳しくは[ABJマーク]または[電子出版制作・流通協議会]で検索してください。