小学館IDをお持ちの方はこちらから
ログイン
初めてご利用の方
小学館IDにご登録いただくと限定イベントへの参加や読者プレゼントにお申し込み頂くことができます。また、定期にメールマガジンでお気に入りジャンルの最新情報をお届け致します。
新規登録
人気のタグ
おすすめのサイト
企業ニュース

5時間かかる作業を5分に短縮!ここまで進化している「文字起こしAI」の精度

2025.03.30

2年ほど前までは存在した「文字起こしライター」という仕事は、今や跡形もなくなった。

その理由は、議事録作成ツールの劇的進化である。

マイクに向けて話しかけられた音声を即座に認識し、正確に文字を起こす。新聞社でも出版社でも、Q&A方式のインタビュー記事を作成するためには「文字起こしの得意な人」をわざわざ用意しなければならなかった。今やそのような手間を省くことが可能になった、ということだ。

では、具体的にどのようなツールがあるのだろうか。

Googleドキュメントの驚異的な音声認識能力

筆者は普段、記事を書くのにGoogleドキュメントを活用している。

このGoogleドキュメントに、実は文字起こし機能が実装されていることはあまり知られていないかもしれない。

使い方は非常に簡単で、「ツール」の項目に表示される「音声入力」をクリックすれば、画面にマイクのアイコンが現われる。言語を選択した上でこれをクリック。直後、音声収録が始まる。

実際に話してみると、極めて高い精度で言ったことをスラスラと書いてくれるではないか。

まさかGoogleドキュメントがここまで優れたボイスメモになるとは、筆者自身知らなかった。何とも恥ずかしい限りだが、同時に欠点というか「足りない点」も見受けられる。

まず、Googleドキュメント自体が「文章作成プラットフォーム」なので、議事録作成ツールの代わりに活用しようと思ったら「発言者の区別」ができないという点で困難に突き当たる。また、句読点や改行などは「くてん」「とうてん」などという具合にいちいち声で指示を出さないといけない手間も。やはり、Googleドキュメントは議事録作成ツールではないのだ。

ただし、それらを補って余りある優れた点を筆者は確認した。「きょっ、きょっ、今日はいい天気」というような吃音や「大相撲大阪ばちょ…大阪場所」という具合の言葉を噛んだ直後の言い間違いを認識し、それらが反映されないようにしてくれるのだ。

このあたり、「Googleドキュメントはフィラー(無駄な音声)も反映してしまう」とする解説サイトもあり、口癖にありがちな「あのー」「そのー」「えっと」といった言葉は確かに時折記録されてしまう。「時折」というのは、フィラーを省いてくれる可能性のほうが(筆者の試した限りでは)高いということだ。

ただ、これは「フィラーも反映してしまう」と書いた記事が間違っているというわけではない。音声認識技術は日進月歩の勢いで進化している。今日書いた記事が、明日には古い情報になってしまうのが今日のメディアだ。この記事自体も、配信される頃にはGoogleドキュメント自体が長足の進化を遂げたせいで陳腐な内容になっているかもしれない。

Google Meetの「自動メモ生成」機能に日本語版が!

さて、今回の記事を書こうとした直前のことであるが、Googleがこんな発表を行った。

ビデオ会議ツールGoogle Meetに、Geminiと連携した「自動メモ生成」機能というものがある。この自動メモ生成機能の対応言語に、日本語を含む7ヶ国後が追加されたという内容だ。

この機能の利用には、Google Workspaceサブスクリプションの加入が必要。要は無料で利用することできないわけだが、筆者を含む日本人Google Chromeユーザーにとってはまさに朗報ではないだろうか。

Geminiが生成する議事録は、当然ながら発言者毎に区分けされている。それを管理者のGoogleドライブに送り、さらにGoogleカレンダーに自動添付されて会議の参加者全員に共有される仕組みだ。会議の概要を生成する機能も有している。

どうも2025年に入ってから、このような「音声を文字に自動変換するツール」の進化が一層加速しているようだ。故に最近では「文字起こしライターという職業がなくなったら、澤田さんの仕事も減るんじゃないの?」と心配の声をかけられたりするのだが、実は専業ライターである筆者にとって「AI議事録作成ツール」の登場は非常に喜ばしい出来事である。

筆者は、生まれてから今に至るまで「板書」や「人の話を聞きながらメモを取る」ということが一切できない。「録音を聴きながらその内容を書き写す」ということもまるでダメだ。したがって、筆者の手掛けるインタビュー記事はQ&A方式ではなくカギカッコと地の文で構成された形のものである。が、AI議事録作成ツールを使えばQ&A方式の記事も今後増やせそうだ。

5時間の作業を5分で終わらせる『Notta』とは

最後に解説するのは、法人では特に人気の高いAI議事録作成ツール『Notta』である。

このNotttaの公式サイトに非常に興味深いデータが記載されているので、まずはこれを紹介したい。

たとえば、1時間の会議の音源から議事録を作成するには、どれだけの時間がかかるのだろうか? Nottaによると、従来のタイピングによる文字起こしを実施した場合、実に5、6時間かかってしまうという。その内訳はタイピングが5時間、聞き取れなかった音を巻き戻して確認する作業が30分、タイプミスによる時間ロスが10分とのこと。

筆者自身は、音声を巻き戻して繰り返し確認する作業はもっとかかるのではと考えているのだが、ともかく文字起こしはそれだけ膨大な作業なのだ。Nottaを使えば、その苦行を僅か5分以内で終わらせることができる。

音声データをNottaにアップロードし(YouTubeやGoogleドライブのリンクを貼ることも可能)、話者識別機能をONにすれば発言者毎に区切られた議事録を自動生成してくれる。会議の内容を要約してくれる機能も備わっているが、注目すべきは「30種類以上の要約テンプレートを用意」している点だ。

これはあまりに管理的で一方的だったかつての学校教育のせいだろうか、「要約文は一通りではない」という当たり前のことを知らない大人が日本には多過ぎる……と筆者は感じている。どこを主眼に置くか、何をどうまとめるかで要約文の内容は大きく違ってくるはずで、筆者の数だけ要約のパターンが存在する。それが分からなければ、その人は要約という作業にはまったく不向きである。

「どのような要約にするのか」を事前に選択できるテンプレートが複数用意されている、というのはAI議事録作成ツールそのものの使い勝手を左右する重要部分ではないか。

人類はより創造的な仕事に注力

以上、「進化する議事録作成ツール」というテーマで筆を進めてみたが、上に挙げたサービスを観察すればするほど近年のAI技術・音声認識技術の向上に圧倒されてしまう。

「テクノロジーは人類から仕事を奪ってしまうのか?」ということが、今でも盛んに議論されている。確かに、文字起こしライターのような単純作業が中心の職業はAIに取って代わられている。

が、その分だけ人類はより創造的な仕事に注力できるようになったという事実も認識すべきだ。

【参考】
“Take notes for me” in Google Meet is available in seven additional languages-Google
Google Meet の「自動メモ生成」-Google
Notta

文/澤田真一

@DIMEのSNSアカウントをフォローしよう!

DIME最新号

最新号
2025年3月14日(金) 発売

DIME最新号は、「人間ドッグの新常識」。医師が本音で語る、受けるべき検査・いらない検査とは? 鈴鹿央士ほか豪華インタビューも満載!

人気のタグ

おすすめのサイト

ページトップへ

ABJマークは、この電子書店・電子書籍配信サービスが、著作権者からコンテンツ使用許諾を得た正規版配信サービスであることを示す登録商標(登録番号 第6091713号)です。詳しくは[ABJマーク]または[電子出版制作・流通協議会]で検索してください。