「AI文字起こしサービス」の発展が目覚ましい。精度の向上はもちろん、話者識別やリアルタイム文字起こしなど便利な機能が目白押しだ。群雄割拠の各種サービスを同じ音源、同じ条件で徹底比較した!
精度は劇的に向上!多種多様な機能で差別化
従来の文字起こしは時間とお金を要する作業だった。しかし2021年10月にGoogleが発売した『Pixel6』内蔵の文字起こし機能に代表されるような、AIを活用した実用性の高い文字起こしサービスが続々登場している。
注意したいのは、高精度とはいえ、完璧ではないという点だ。誤字脱字はある程度生じるし、リモート会議の場合は音質の低下に伴い精度も下がる。あくまで会話の大まかな内容を捉える補助的な役割として使用するのが望ましい。筆者も『Pixel7』の文字起こし機能を使っているが、簡単な取材なら生データのまま原稿作成が可能で、厳密な文字起こしでも従来の半分ほどの時間で終わるようになった。
AI文字起こしサービスは、従来の用途であった取材などの録音データの書き起こし以外にも、様々な場面で活用できる。議事録作成時はもちろん、英語に対応したサービスであれば日本語字幕付き洋画の視聴時にリアルタイム文字起こしをして英語の勉強に活用できる。AIを上手く乗りこなして、仕事や生活の効率化を図ろう。
3つの評価ポイント
(1)音声の聞き取りは正確か?
対面での音声聞き取りに加え、ZoomなどのWeb会議でも正確に聞き取れるかをモニタリング。誤字の頻度や脱字の多さ、句読点の正しさなどを評価した。
(2)話者を区別できるか?
話している人を自動で識別し、話者ごとに文字起こしする話者識別機能を実装しているかを評価した。リモート会議などで役立つこの機能の需要は高いだろう。
(3)運用コストはどの程度か?
運用コストもサービス利用を検討するうえで大事な要素。サブスクリプション型や端末代が別途必要なパターンなど、各種サービスの利用料について記載した。
※情報は10月末時点。費月は月払いのみを掲載。端末はレコーダーとtoruno以外はiPhone13を、AutoMemoはiPhone13と専用端末の2バージョンを使用して精度を評価した。