小学館IDをお持ちの方はこちらから
ログイン
初めてご利用の方
小学館IDにご登録いただくと限定イベントへの参加や読者プレゼントにお申し込み頂くことができます。また、定期にメールマガジンでお気に入りジャンルの最新情報をお届け致します。
新規登録
人気のタグ
おすすめのサイト
企業ニュース

完全オフラインでリアルタイムの文字起こしを可能にしたAIライティングレコーダー「VOITER SR302 Pro」の精度を確かめてみた

2022.12.29

音声認識の精度を検証してみた

では、音声認識の精度について確認してみよう。本機は、日本語、英語、中国語、韓国語、ロシア語の5言語の音声をカバー(言語間の翻訳には対応していない)。本稿では日本語にしぼって検証する。

まずは静かな部屋で、1人ではっきりとしゃべった内容から。以下はそのサンプルとなるメールの文面と「SR302 Pro」による文字起こしの結果となる。

サンプル文:

いつもお世話になっております。来週火曜日のミーティングの件ですが、あいにく15時は別件でふさがっています。そこで手前の13時30分の開始ではいかがでしょうか? 場所はご指定の会議室でOKです。

「SR302 Pro」の文字起こし:

いつもお世話になっております。来週火曜日のミーティングの件ですが、あいにく15時は別件でふさがっています。そこで手前の13時30分の開始ではいかがでしょうか?場所はご指定の会議室でオッケーです

「おぉ、すごい」と、精度の高さに思わずうなる。相違は「OK」と「オッケー」のみ。句読点や疑問符はAIが判断して自動的につくが、最後の文の「。」が抜けているだけだ。

上の写真をご覧のとおり、リアルタイムに起こされたテキストは、画面の中に表示される。そして、録音された内容は、本機のストレージ(32GB)に、テキストはdocファイルとして、音声は wavファイルとして保存される。

USBでパソコンと接続したら、「データ書き出し」で保存されたファイルにアクセスし、パソコンに移すことができる。

精度検証の話に戻ろう。次は、筆者と別の人が、カフェで一対一の会話をするインタビューの場面。店内は常にBGMが流れ、付近のお客さんの声がかすかに聞こえてくる。

本機は、テーブルの真ん中に置き、2人から等距離(約50cm)に離れている。設定は「インタビューモード」にした。

サンプル文:

話者A:怒るときは怒鳴らないまでも、「私は残念に思ったんですよ」と言うと、その気持ちが伝わります。でも、叱るときはそれを伝えたいわけではないですよね。
話者B:確かにおっしゃるとおりですよね。リモートワークが増えている中で、そこは重要だと思います。

「SR302 Pro」の文字起こし:

話者A:怒る時は怒鳴らないまでも、私は残念に思ったんですよと言うとその気持ちが伝わります。でも、叱る時はそれを伝えたいわけではないですよね。
話者B:確かにおっしゃる通りですね。リモートワークが増えている中で、そこは重要だと思います。

これもほぼパーフェクト。「会話の中の会話」をかぎかっこで囲むといった判断は、さすがにAIにはできないが、実務上まったく問題ない。

ただ、このレベルの精度を確保するには、話し相手に本機のことを説明し、「つとめてはっきりと発声してください」と頼むことが重要。

普段どおりの会話は、仲が良い間柄ほどアバウトで発音も不明瞭。機械はそこまで斟酌して、文字起こしをするわけではないので。

また、BGMや付近の話し声が大きいと、それを拾って、「うん」といった断片語として紛れ込むので注意。周辺環境は事前に整えておくに越したことはない。

最後に、Zoomのミーティングで、パソコンのスピーカーから聞こえてくる声はどうだろうか?

サンプル文(筆者が聴いて書き起こし):

あの、ウェブメディアで、なにで収益を上げるかっていうと、あの、広告で上げるか、あるいはコンテンツを販売するか、もしくは今あの、それが主要な売り上げになるんですけれども、他のメディアにコンテンツを作成するみたいなことしかないなっていうふうに、思っていて…

「SR302 Pro」の文字起こし:

あの、ウェブメディアで何で収益を上げるかっていうと、あの、広告であげるか、あるいはコンテンツを販売するか、もしくは今あのそれが主要な売り上げになるんですけれども、他のメディアにコンテンツを作成するみたいなあのことしかないなっていうふうに、おもって言って、

話者は、話の合間に「あの」を入れるが口癖。もちろんそれは編集段階でカットすべきものだが、それも正確にテキストに反映される。

音声認識ソフトの中には、「あの」や「えーと」といった実務上不要な言葉を自動カットする機能をもったものがある。「SR302 Pro」にも「あいづち消除機能」といった機能があるが、ここはまだ発展途上のようだ。

こうした「けばとり」は、手動で行なう必要はある。また、外部の録音データを本機に移して、書き起こす機能はないので注意。

「VOITER」シリーズには、「文字起こし精度を重視したい方におすすめのプロ仕様モデル」と謳った「SR502J」がある。39,600円の「SR302 Pro」と比べ、価格はこちらが上で、購入2年目から年額23,980円のランニングコストもかかる。

そのため、「SR302 Proの精度は、そこそこか」という予断があったが、いい意味でそれは裏切られた。専門用語がとびかう国際会議といった環境なら、精度に差が出るのかもしれないが、通常のビジネス文書やインタビューであれば、まったく不都合はない。

コスパの非常に優れた一品と言えるだろう。本製品は、iFLYTEK公式サイトのほか、(株)エーアイでも取り扱いを行っている。興味のある方はチェックしてみよう。

・製品サイト(エーアイ公式サイト内):https://www.ai-j.jp/products/voiter/

文/鈴木拓也(フリーライター)

@DIMEのSNSアカウントをフォローしよう!

DIME最新号

最新号
2024年4月16日(火) 発売

DIME最新号は「名探偵コナン」特集!進化を続ける人気作品の魅力、制作の舞台裏まで徹底取材!

人気のタグ

おすすめのサイト

ページトップへ

ABJマークは、この電子書店・電子書籍配信サービスが、著作権者からコンテンツ使用許諾を得た正規版配信サービスであることを示す登録商標(登録番号 第6091713号)です。詳しくは[ABJマーク]または[電子出版制作・流通協議会]で検索してください。