小学館IDをお持ちの方はこちらから
ログイン
初めてご利用の方
小学館IDにご登録いただくと限定イベントへの参加や読者プレゼントにお申し込み頂くことができます。また、定期にメールマガジンでお気に入りジャンルの最新情報をお届け致します。
新規登録
人気のタグ
おすすめのサイト
企業ニュース

録音データやオンライン会議を高精度で文字起こしする音声テキスト化サービス「Notta」の使い勝手を検証

2022.10.09

AIを導入し104言語の音声をテキスト化

人の話し声をテキストに変換する技術はかなり前からあるが、精度が劇的に向上したのは、つい最近の話。テクノロジーの進歩に伴い、いまやそうした音声テキスト化サービスが百花繚乱。一体どれがいいのか迷うほどある。

なかでも総合的に見て、筆者が一番評価しているのは「Notta(ノッタ)」。AIを導入した精度の高さで、約50万人のユーザーがいる今注目のアプリだ。

「Notta」公式サイトのトップ画面

香港のMIND CRUISER社が生み出した「Notta」は、「104言語に対応する、AIによる音声自動テキスト化サービス」として、昨年大幅なバージョンアップを実施。

その後も、Zoom会議の文字起こし機能を追加するなど、大小のアップデートを経ている。とはいえ、インターフェースは、シンプルに徹しており、メイン画面は変換されるテキストの表示画面で占められる。

「Notta」のメイン画面

現時点での利用環境は、Web版ではGoogle Chrome、Microsoft Edge、Safari、スマホアプリはiOSとAndroid、そしてiPadに対応している。

いずれも基本的な機能は、音声のリアルタイムまたは録音されたデータのテキスト変換。くわえて、そのテキストを42言語に翻訳することも可能。

■数十分の録音データが数分でテキストに

例えば、ICレコーダーで録音されたWMAファイルといったデータは、「Notta」にインポートするだけで、テキスト化してくれる。

試しに、以前の取材時に録音した37分の音声ファイルをインポートしたところ、たった数分で全部テキストになった。

テキストの文字数は約7800字。従来のいわゆる「テープ起こし」の人力作業だと、数時間かかる分量だ。では、精度を見てみよう。

このときの取材環境は、筆者と取材相手がともに歩きながら、オープンしたホテルの説明を受けるというものであった。

筆者は、カメラを両手に持って随時撮影をしており、ICレコーダーを相手の口元で保持するのは難しい状況であった。平たく言うなら、録音状態はよくない。以下は、「Notta」が起こした録音データの一部となる。

取材相手:一応夜10時まではホテルスタッフがいてまして10時を過ぎると、ビル管理をスタッフが夜勤としてきます。いわゆる、あのビルの建物管理の専門のスタッフ。いろいろ入れるようにしてます。

筆者:1回これで取材終わりなんですけども、少し休んで、まだ下に降りてきて風呂は全体的に撮ろうと思うんですけど、もしかしたら声掛けしてフロントSARを含めた写真を撮るかもしれないです。その時はよろしくお願いします。

「1回」→「いったん」、「風呂は」→「フロア」、「フロントSAR」→「フロントさん」など訂正すべき箇所はあるが、録音の悪さや筆者の滑舌の問題を考慮すると、驚異的といってもよい精度の良さ。

もう今後の取材活動では、帰宅後に何時間もかけて音声を書き起こす必要はないと言っていい。そもそも、現場でスマホで「Notta」を開けば、インタビューをしているはしからテキスト化されるので、ICレコーダーで録音してパソコンにデータを移すといった作業自体も要らない。

■あらゆる文書作成に使えるが苦手分野もあり

コロナ禍以降の取材が激減した現在、筆者が「テープ起こし」以上に重宝するのが、記事の口述筆記としての使い道だ。

これは、「Notta」の「録音開始」ボタンをクリックし、あとはパソコンに向かってしゃべるだけ。

パソコン内蔵のマイクでも高精度なテキスト化をしてくれる。試しに、小説『吾輩は猫である』の出だしを読んでテキストにしてみよう。

「吾輩は猫である名前はまだない。どこで生まれたか、とんと見当がつかぬ。何でも薄暗いジメジメしたところでニヤニヤ替えていたことだけは記憶している。我輩はここで初めて人間というものを見た。しかも後で聞くとそれは書生という人間中で一番道悪な種族であったそうだ」

もちろん、句読点など細かいところで原典と相違した箇所は散見される。しかし、厳しい箇所は「ニャーニャー泣いていた」→「ニヤニヤ替えていた」だけ。

また、「獰悪」→「道悪」となっているが、大半の現代人が知らないような言葉を正確に変換せよというのは酷な話だろう。

正直言って、こちらの予想をはるかに上回る精度で舌を巻く。そして、一般的なビジネス文書であれば精度は100%に近くなる。おかげで筆者は、メールから執筆記事に至るまで、ほとんどの文書作成で「Notta」を活用するようになった。

ただし、「Notta」といえども苦手な分野がある。日本語は同音異義語が非常に多いので、「精度」とすべき箇所が「制度」になったりする。

前後の文脈から適切な言葉を選ぶ能力はあるようだが、「以降は意向をくんで移行した」のような文章はお手上げに近い。

また、難読の地名・人名や、「守護・地頭」といった日本史上の用語も精度はかなり下がる。単語登録機能があるので、多少はそれでカバーできるが限界はある。

そのため、日本史や伝統文化の記事を書くときは、筆者はほぼ手入力をしている。いずれは、こうした言葉も変換できるようバージョンアップされると期待している。

■オンライン会議で精度の高さを本領発揮

最後に、世の中のニーズが一番高い、オンライン会議のテキスト化を見てみよう。これは、「Web会議の文字起こし」ボタンをクリックすると現れるミニウィンドウに、会議の招待URLを貼り付けるだけでOK。かなりの早口でも、リアルタイムでサクサクとテキスト化されていく。

わずかなタイムラグで、参加者の声が次々とテキスト化される

以下の文章は、筆者が参加したオンライン教養講座の講師の語りを、「Notta」でテキスト化したものだ。

「地球環境で考えると緑で植物たちの緑っていうのが地球という星のバランスを取る役割を担ってるらしいんですよね。だから、何二酸化炭素を吸って酸素を吐き出すだけとかいうこともだし、あとはこれはね、科学的なお薬を作ろうと思ったら例えば高血圧を抑える薬と低血圧おこうねなんかもうちょっと上げる薬っていうのは別々の薬品だそうなんですけども」

読点がほとんど入っていないため読みづらいが、これは講師が息継ぎをせず、よどみなく話していたことを反映している。

もし、区切って話をしていれば、「Notta」が判断して、適度に読点が入っていただろう。それ以外の点では、講師が話したことを100%に近い忠実さでテキスト化している。この素材をあとで読みやすく整えるのは、人間の仕事であるのは変わりないが。

このように非常に変換精度が高く、使い勝手の良い「Notta」だが、使用料金は月額で13.99ドルと、とてもリーズナブル。日頃から文章を大量に書く人、議事録やプレゼン原稿の作成を省力化したい人に、おすすめしたいサービスとなっている。

「Notta」公式サイト:https://www.notta.ai

文/鈴木拓也(フリーライター)


@DIME公式通販人気ランキング


興味のあるジャンルを登録して@DIMEをもっと便利に!Amazonギフト券が当たるキャンペーン実施中

@DIMEのSNSアカウントをフォローしよう!

DIME最新号

最新号
2022年11月21日(月) 発売

DIME最新号の特別付録は「携帯型スティック加湿器」! 特集は「マネしたくなる!最強の仕事基地#デスクツアーNo.1決定戦」

人気のタグ

おすすめのサイト

ページトップへ

ABJマークは、この電子書店・電子書籍配信サービスが、著作権者からコンテンツ使用許諾を得た正規版配信サービスであることを示す登録商標(登録番号 10401024号)です。詳しくは[ABJマーク]または[電子出版制作・流通協議会]で検索してください。