文字の書き起こしも多言語翻訳も！Googleの音声認識をもっと活用するためのヒント

2019.12.19

テクノロジー

パソコンやスマートフォンが普及し、社会に深く浸透しています。そして、近年では音声認識の技術も急速に高まっており、普段の暮らしをはじめ、教育現場やビジネスシーンなどでの活用が広がっていくと予想されています。

Googleの音声認識が便利

インターネットの発達で、現代はアクセス可能な情報が格段に増えました。それに伴い、パソコンやスマートフォンは、ビジネスの分野のみならず、一般家庭でも不可欠なツールとなっています。

これまでは、キーボードやタッチパネルを用いて文字の入力をすることが当然だと考えられてきました。しかし、近年は、音声認識の技術が驚くべきスピードで進歩しています。

一方で、まだ音声認識がごく一般的なレベルまで浸透していない感は否めません。音声認識技術の一つであるGoogleの音声認識を通して、その技術水準の高さを学んでみましょう。

音声認識の基礎知識

人が発する言葉を、コンピューターによる後続処理を可能にするために識別する技術を音声認識といいます。簡単にいえば、人が話す言葉をコンピューターに理解させるという技術です。

人の言葉は、音波となって発せられます。音声の構成要素を、最小の要素にまで分解したものが『音素』です。それを、各モデルを利用しつつ、日本語の文章へと組み立てます。

そこで組み立てられたものが、ロボットを通して発話されたり、データマイニングなどで利用するためテキストとして蓄積されたりしていくのです。

音声認識のメリット

タイピングなどには、ある程度のトレーニングや慣れが必要です。苦手だとする人も多いでしょう。ですが、文書作成に音声認識を活用すると、タイピングよりも速いスピードで文字変換ができます。

体の各器官への負担を軽減できるメリットもあります。タイピングでは、深指屈筋・浅指屈筋・虫様筋・指伸筋などといった部位を動かします。音声入力は声のみの使用なので、フィジカル面の負担を小さくできるのです。

漢字変換の手間を軽減できる利点も見逃せません。例えば、『いし』という言葉を示す漢字には『意思』『意志』『石』『医師』などがあります。

これまでの一般的な入力だと、適切な漢字を選んで変換する必要があります。しかし、近年の音声入力では、文脈から想定する能力が向上しており、この手間を大きく減らせるのです。

音声認識の設定と使い方

音声入力を使用するためには、パソコンのマイクを正常に動作させる必要があります。マイクのタイプはそれぞれ違うので、手順については使用するパソコンのマニュアルに沿って行いましょう。

マイクが作動することを確認したら、ChromeブラウザでGoogleドキュメントを開きます。その後、『ツール』『音声入力』の順にクリックすると、マイクのボックスが表示されます。

マイクをクリックし、話し始めましょう。その際に大切なことは、普段の声量とスピードで明確に話すことです。句読点も、マニュアルに沿って入力します。

話し終えたら、マイクをもう一度クリックしましょう。これで、そこまでの入力が完了です。

音声認識機能の活用でできること

音声認識の技術がますます高まっていることで、さまざまな可能性を広げています。その機能を活用できる分野について見てみましょう。

文字書き起こし

ビジネスの現場では、議事録や会議録を必要とする場面が数多くあります。その作成には正確さはもちろん、スピードも要求されるので担当者の負担は決して軽くありません。

しかも、人の話や意見を文字として入力する場合、その内容によっては、発言者の意を適切にくみ取れる高い専門性が記録者にも備わっている必要があるなど、条件が厳しい場合もあります。

その点、音声認識を活用すれば、記録者の適性や資質を問う必要はありません。事前の設定が必要になることが多いですが、高度に専門的な発言や会話でも、スムーズに入力ができ、文字の書き起こしが容易にできるのです。

多言語への翻訳

母国語以外の外国語を話すことができない、そのような人はたくさんいます。そして、他国の言葉を学ぶことは、とても大きな労力と時間を必要とするものです。

音声認識機能によって蓄積された内容は、文脈に沿った内容でデータ化されます。つまり、意味をも含んだデータとして入力されているのです。

そのため、入力された言語以外の言葉への変換もコンピューターによって行えます。つまり、多言語への翻訳にも大いに活用できるのです。

おすすめアプリやクラウドサービス

音声認識機能を備えたアプリやクラウドサービスも、続々と開発されています。そして、その性能の高さには、目を見張るものがあります。

Live Transcribe

2019年2月にGoogleがリリースした『Live Transcribe』は、人の声を瞬時に文字へと変換するアプリです。スマートフォンのマイクに向けて話す人の声を、リアルタイムで文字化します。

このアプリには、大きな可能性を秘めています。聴覚障害を持つ人によって開発され、家族や友人と自由に会話がしたいという思いが具現化されたものです。

英語はもちろん、日本語を含む70もの言語に対応しており、1対1の自然なコミュニケーションを迅速にサポートすることを心掛け、商品化されたその性能は、多くの人を驚かせました。0.2秒というレスポンスの速さを実現しています。

Cloud Speech-to-Text

Googleが提供する『Google Cloud Platform』というクラウドサービスの中にある『Cloud Speech-to-Text』は、AIで音声ファイルを認識し、文字にするサービスです。

変換スピードもさることながら、驚くべき点はその翻訳力です。主要な国の言葉はもちろん、世界の方言をも網羅したその言語数は、実に120にも及びます。世界の距離を短いものとする、まさにグローバルなユーザーベースをサポートするサービスと言えるでしょう。

文／編集部