音声認識の精度を検証してみた
では、音声認識の精度について確認してみよう。本機は、日本語、英語、中国語、韓国語、ロシア語の5言語の音声をカバー(言語間の翻訳には対応していない)。本稿では日本語にしぼって検証する。
まずは静かな部屋で、1人ではっきりとしゃべった内容から。以下はそのサンプルとなるメールの文面と「SR302 Pro」による文字起こしの結果となる。
サンプル文:
いつもお世話になっております。来週火曜日のミーティングの件ですが、あいにく15時は別件でふさがっています。そこで手前の13時30分の開始ではいかがでしょうか? 場所はご指定の会議室でOKです。
「SR302 Pro」の文字起こし:
いつもお世話になっております。来週火曜日のミーティングの件ですが、あいにく15時は別件でふさがっています。そこで手前の13時30分の開始ではいかがでしょうか?場所はご指定の会議室でオッケーです
「おぉ、すごい」と、精度の高さに思わずうなる。相違は「OK」と「オッケー」のみ。句読点や疑問符はAIが判断して自動的につくが、最後の文の「。」が抜けているだけだ。
上の写真をご覧のとおり、リアルタイムに起こされたテキストは、画面の中に表示される。そして、録音された内容は、本機のストレージ(32GB)に、テキストはdocファイルとして、音声は wavファイルとして保存される。
USBでパソコンと接続したら、「データ書き出し」で保存されたファイルにアクセスし、パソコンに移すことができる。
精度検証の話に戻ろう。次は、筆者と別の人が、カフェで一対一の会話をするインタビューの場面。店内は常にBGMが流れ、付近のお客さんの声がかすかに聞こえてくる。
本機は、テーブルの真ん中に置き、2人から等距離(約50cm)に離れている。設定は「インタビューモード」にした。
サンプル文:
話者A:怒るときは怒鳴らないまでも、「私は残念に思ったんですよ」と言うと、その気持ちが伝わります。でも、叱るときはそれを伝えたいわけではないですよね。
話者B:確かにおっしゃるとおりですよね。リモートワークが増えている中で、そこは重要だと思います。
「SR302 Pro」の文字起こし:
話者A:怒る時は怒鳴らないまでも、私は残念に思ったんですよと言うとその気持ちが伝わります。でも、叱る時はそれを伝えたいわけではないですよね。
話者B:確かにおっしゃる通りですね。リモートワークが増えている中で、そこは重要だと思います。
これもほぼパーフェクト。「会話の中の会話」をかぎかっこで囲むといった判断は、さすがにAIにはできないが、実務上まったく問題ない。
ただ、このレベルの精度を確保するには、話し相手に本機のことを説明し、「つとめてはっきりと発声してください」と頼むことが重要。
普段どおりの会話は、仲が良い間柄ほどアバウトで発音も不明瞭。機械はそこまで斟酌して、文字起こしをするわけではないので。
また、BGMや付近の話し声が大きいと、それを拾って、「うん」といった断片語として紛れ込むので注意。周辺環境は事前に整えておくに越したことはない。
最後に、Zoomのミーティングで、パソコンのスピーカーから聞こえてくる声はどうだろうか?
サンプル文(筆者が聴いて書き起こし):
あの、ウェブメディアで、なにで収益を上げるかっていうと、あの、広告で上げるか、あるいはコンテンツを販売するか、もしくは今あの、それが主要な売り上げになるんですけれども、他のメディアにコンテンツを作成するみたいなことしかないなっていうふうに、思っていて…
「SR302 Pro」の文字起こし:
あの、ウェブメディアで何で収益を上げるかっていうと、あの、広告であげるか、あるいはコンテンツを販売するか、もしくは今あのそれが主要な売り上げになるんですけれども、他のメディアにコンテンツを作成するみたいなあのことしかないなっていうふうに、おもって言って、
話者は、話の合間に「あの」を入れるが口癖。もちろんそれは編集段階でカットすべきものだが、それも正確にテキストに反映される。
音声認識ソフトの中には、「あの」や「えーと」といった実務上不要な言葉を自動カットする機能をもったものがある。「SR302 Pro」にも「あいづち消除機能」といった機能があるが、ここはまだ発展途上のようだ。
こうした「けばとり」は、手動で行なう必要はある。また、外部の録音データを本機に移して、書き起こす機能はないので注意。
「VOITER」シリーズには、「文字起こし精度を重視したい方におすすめのプロ仕様モデル」と謳った「SR502J」がある。39,600円の「SR302 Pro」と比べ、価格はこちらが上で、購入2年目から年額23,980円のランニングコストもかかる。
そのため、「SR302 Proの精度は、そこそこか」という予断があったが、いい意味でそれは裏切られた。専門用語がとびかう国際会議といった環境なら、精度に差が出るのかもしれないが、通常のビジネス文書やインタビューであれば、まったく不都合はない。
コスパの非常に優れた一品と言えるだろう。本製品は、iFLYTEK公式サイトのほか、(株)エーアイでも取り扱いを行っている。興味のある方はチェックしてみよう。
・製品サイト(エーアイ公式サイト内):https://www.ai-j.jp/products/voiter/
文/鈴木拓也(フリーライター)