マンガでわかる生成AI【第2話】写真も文書も読み込んじゃえ！

2024.05.04

テクノロジー

一人暮らしを始めたばかりの沙織の心強いパートナーは「生成AI」！？日常や仕事で起きるさまざまなピンチを、生成AIと共に乗り切れるのか！？「ChatGPT」などでおなじみの生成AIを使いこなすためのヒントをマンガで解説します。

※本記事は技術と人をつなぐテックメディア「in.LIVE」からの転載記事になります。

企画・原作：アステリア株式会社エバンジェリスト森一弥
作画：漫画家佐倉イサミ

マンガでわかる生成AI【第1話】キャラ設定からはじめよう！はこちら

第二話　写真も文書も読み込んじゃえ！

マンガで分かる生成AI【第3話仕事で使ってもいいのかな？】に続く・・・

キーワード解説

■ゼロショットプロンプティング【Zero-Shot Prompting】

特に例示などをすることなく、AIモデルに対して質問を直接投げかける方法。LLMもどんどん賢くなっているので、問題なく回答できることが多くなってきている。例えば前回や今回のマンガの中で料理のレシピを出してもらっているが、「今日のランチを3件提案して！」のような一発で回答を求めるものをゼロショットプロンプティングという。

■CoT プロンプティング【Chain-of-Thought Prompting】

問題の解き方を順を追って説明したうえで回答してもらう手法。解き方の例示を示すという方法もあるし、「ステップバイステップで考えて」とプロンプトに追加するゼロショット的な使い方もあり、こちらの方が手軽。小学校の算数ででてくるような、「Aさんが◯商店でりんごを3個買って、Bマーケットでお肉を〜」のような文章問題みたいなものの計算は苦手だったりするので、「ステップバイステップで」と追記すると求める答えになることもある。ただしLLMの学習が進んでいることもあり、特に指定しなくても解いてくれることもある。

■マルチモーダルAI【Multimodal AI】

テキストだけでなく画像や動画、音声など複数の情報を利用するAIのこと。使っている生成AIによって対応している形式も異なるし、有料版だけで対応しているということもある。今回は部屋や食材の画像や、算数の問題のドキュメント（PDFやOfficeファイル等）のインプットの話にしたが、例えば音声入力も一昔前よりだいぶ認識率が上がっているし、多少の誤字があっても正しく回答されることも多くなっている。同じテキストでも自然言語だけでなく、プログラムコードや、センサーデータなども入力として使うこともできる。

トト先生の生成AI塾

トト：今回から本編で大活躍のトト様じゃ。・・・ん！？

トー君：どこぞの猫とはワシのことか？

トト：お主どこから…。ふむ。我と同類ということか。まぁ良いわ。

今回は画像を使う話じゃったの。文字だけではなく画像も含めて様々な情報を使うことを「マルチモーダル」と呼んだりもするぞ。このマルチモーダル化は大規模言語モデル（Large Language Models、略称LLM）で一気に使えるようになってきておる。Youtubeの動画を要約してもらったりもできるので、タムパを重視する若者はどんどん使いこなしていくかもしれんのぉ。センサー情報や様々なシステムの出力を入力として使うのはあり得るのぉ。出力側も画像を出したり、グラフを出したり、プログラムを作成なんてこともできるぞ。とにかく進化のスピードが早いので普段から使ってチェックしておくことを勧めるぞ。

トー君：センサー情報もか。あやつにも使わせるよう促すかのぉ…。

原作者・森一弥のオマケ裏話

部屋の片付けに生成AIを使う話は、実際にAI界隈で話題になった話です。技術の進歩もそうなんですが、日々色んな使い方をする人が現れたりするので目が離せないし、面白いですよね。我が家では最近、自宅にある食材の写真を撮影して料理のアドバイスをもらってみました。白菜が「キャベツ」と誤認識されるなんてこともありましたが、普段と違った料理を作ることもできましたよ。1回で完璧に答えてくれるのを期待すると「あれ？」ってなることもありますが、そこは「チャット」ですので、会話を続けて修正すればよいだけですしね。

プロンプトエンジニアリングも日々新しいものが出てきています。新しく“発見”されたとも言われます。生成AIは、研究者の中でも明確な手法があるわけではなく、様々な手法を試して論文が出されているというのが現状です。新しく出てきてもすぐに使えなくなってしまうものもあると思われますので、暫く読まれ続けるマンガとしては定番のものを取り上げるように心がけました。とはいえ、ここ最近で私が生成AIを触っていた際に「ステップバイステップで教えて」などの指示を出さなくても、的確に答えをくれる場面にも遭遇したので、しばらく定番と思っていても変わってくることは十分ありそうです。

ちなみに執筆時点ではChatGPTで画像を使うのは有料版のみの機能となっていますが、GeminiやBingなどでは使えたりもしていますし、ChatGPTでも早々に通常の機能となることもあるかもしれません。ホントの最新技術を知りたい方はネットの情報、特に海外も含めてウォッチするのが良いですね。

Xにてマンガの裏話や日々のつぶやきも更新中です。ぜひフォローしてみてください。https://twitter.com/dekiruco

森一弥（もりかずや） https://twitter.com/dekiruco
アステリア株式会社ノーコード変革推進室エバンジェリスト。テレワーク推進の波に乗り、某有名SFアニメの聖地である箱根に移住。アニメや漫画、甘いものとかっこいいクルマをこよなく愛す、気まま系な技術系エバンジェリスト。 AIやブロックチェーンなど先端技術とのデータ連携を得意とし、実証実験やコンサルティングの実績も多数。見聞きしたことは自分でプログラミングして確かめた上でわかりやすく解説することが信条。現在は AI や IoTなどの普及啓発に努め、生成AI協会（GAIS）のエバンジェリストとしても活動中。

佐倉イサミ（さくらいさみ） https://twitter.com/sakura_isami
東京在住の漫画家。執筆作品は『29時の朝ごはん』『姫ばあちゃんとナイト』など。現在『もふっとキャンプ』（トゥーヴァージンズ）『お茶の間スイーツガーデン』（KADOKAWA)を連載中。

マンガでわかる生成AI【第2話】写真も文書も読み込んじゃえ！

第二話　写真も文書も読み込んじゃえ！

キーワード解説

■ゼロショットプロンプティング【Zero-Shot Prompting】

■CoT プロンプティング【Chain-of-Thought Prompting】

■マルチモーダルAI【Multimodal AI】

トト先生の生成AI塾

原作者・森一弥のオマケ裏話

@DIMEのSNSアカウントをフォローしよう！

最新号

人気のタグ

おすすめのサイト

マンガでわかる生成AI【第2話】写真も文書も読み込んじゃえ！

第二話 写真も文書も読み込んじゃえ！

キーワード解説

■ゼロショット プロンプティング 【Zero-Shot Prompting】

■CoT プロンプティング 【Chain-of-Thought Prompting】

■マルチモーダルAI【Multimodal AI】

トト先生の生成AI塾

原作者・森 一弥のオマケ裏話

@DIMEのSNSアカウントをフォローしよう！

最新号

人気のタグ

おすすめのサイト

第二話　写真も文書も読み込んじゃえ！

■ゼロショットプロンプティング【Zero-Shot Prompting】

■CoT プロンプティング【Chain-of-Thought Prompting】

原作者・森一弥のオマケ裏話