小学館IDをお持ちの方はこちらから
ログイン
初めてご利用の方
小学館IDにご登録いただくと限定イベントへの参加や読者プレゼントにお申し込み頂くことができます。また、定期にメールマガジンでお気に入りジャンルの最新情報をお届け致します。
新規登録
人気のタグ
おすすめのサイト
企業ニュース

AIでスマホはどこまで進化する?翻訳、文字起こし、写真の補正までできる〝AIフォン〟Galaxy S24シリーズの実力検証!

2024.05.06

微妙な結果に終わった文字起こし、日本語処理は苦手か

 一方で、速度が完全に同じかというとそうでもない。特に処理能力を必要とする、文字起こしのような機能では、完了までに差が出る印象だ。録音の時間が長くなってくると、その差は顕著になる。とは言え、Galaxy AIのボイスレコーダーの文字起こしは、リアルタイムではなく、録音後にまとめて処理をかける形のもの。時間がよりかかるのは確かだが、不便とまでは言えない。

リアルタイムで文字起こしをするPixelとは異なり、録音後にまとめて処理をかける仕組み

 その文字起こしだが、日本語の精度にはまだかなり不満がある。例えば、以下は会議室で開催された記者会見を録音し、テキスト化したものの一部だ。ご覧になっていただければ一目瞭然だが、テキストを読むだけだと、何を言っているのかがさっぱりわからない。固有名詞はもちろんのこと、一般名詞も割と適当な文字が割り当てられており、さらに句点の場所も不正確だ。

ソフトバンクがHAPSの技術を説明する記者会見で録音した音声をテキスト化してみた……が、これだけだと、何を言っているのかがさっぱりわからない

 同じ文字起こし機能を備えたボイスレコーダーを搭載した端末として有名なのはPixelシリーズだが、こちらと比べてみると、精度の違いがわかりやすい。以下はPixel 8で録音しながらテキスト化した画面。こちらも、固有名詞などは完ぺきとは言いがたいものの、何を話しているかの概要はおおまかにつかむことが可能だ。

同じ部分をPixelでテキスト化したものと比べてみると、違いは歴然。こちらも間違いはあるが、話していることは何となく伝わるレベルだ

 しかも、Pixelのボイスレコーダーはリアルタイムでテキスト化されるため、その場でサッと内容を振り返るようなシーンでも活用できる。条件的には、リアルタイムで処理をかける方が厳しいようにも思えるが、精度では大きな差が出てしまった。おそらくだが、音声認識の部分で、Galaxy AIは環境の影響を受けやすいのかもしれない。

 反響や音量などの影響を最小限にするため、動画配信されている記者会見を直接USB-Cで録音したものをテキスト化してみたが、こちらに関しては、まずまずの精度が出ている。流れるようにしゃべるよりも、ある程度原稿を読み上げるように、1語1語、正確にはっきり発音した方が、正確な文字として認識されやすいようだ。

配信されている動画の音声を直接USB-C経由で録音したところ、精度が上がった。環境の影響を受けやすいことがうかがえる

 また、英語での認識率は比較的高く、精度の低さは日本語特有の問題であることがわかる。以前から日本語に対応しており、実績を積み重ねているPixelとの比較は酷かもしれないが、この部分は、改善の余地がまだまだある。日本語認識のモデル改善など、ソフトウエアップデートで対応できることが多いだけに、サムスン電子のがんばりには期待したいところだ。

英語で配信されたイベントを文字にしたもの。結果はなかなか優秀だ。元のデータがしっかりしていると、要約機能を使った時の精度も上がる

@DIMEのSNSアカウントをフォローしよう!

DIME最新号

最新号
2024年11月15日(金) 発売

DIME最新号は「2024年ヒットの新法則!」、永尾柚乃、小田凱人、こっちのけんと他豪華インタビュー満載!

人気のタグ

おすすめのサイト

ページトップへ

ABJマークは、この電子書店・電子書籍配信サービスが、著作権者からコンテンツ使用許諾を得た正規版配信サービスであることを示す登録商標(登録番号 第6091713号)です。詳しくは[ABJマーク]または[電子出版制作・流通協議会]で検索してください。