
日本でも『iPhone』で「Apple Intelligence」が使えるようになるなど、スマホで使えるAIが注目を集めている。「Chat GPT」のようなクラウド型のAIのほか、最近ハイエンドモデルを中心に採用が増えているのが、スマホの中で処理を行うオンデバイス型のAIだ。
クラウド+オンデマンドのハイブリッド型AIの可能性
たとえば独自の「Galaxy AI」を搭載するサムスンの『Galaxy S25』シリーズでは、オンデバイスとクラウドを組み合わせたハイブリッド型のAIを採用している。
Mobile Solution Lab Artificial Intelligence Part長の赤迫貴行氏。
「Galaxy AI」はクラウド+オンデマンドのハイブリッド型AI技術を採用。
「オンデバイスAIはネットワークを介さないため、安全かつトラフィックの影響を受けずに、高速に処理できるのがメリット。一方で、デバイスのリソースの消費を抑えるためにファイルサイズに制限があり、高機能化という観点ではある程度妥協しなければならない。ハイブリッド型は、クラウド上の大規模AIモデルやさまざまなサービスとの連携でオンデバイスAIをカバーしつつ、高速で安全かつ高機能なAIを実現できます」と説明するのは、サムスン日本研究所でAI開発に従事する、Mobile Solution Lab Artificial Intelligence Part長の赤迫貴行氏だ。
たとえば「Galaxy AI」では、音声認識→機械翻訳→音声合成の各AIモジュールをオンデバイスで処理することで、通話の自動通訳を実現。海外のレストランに電話をかけて、日本語で予約するといったことが可能になっている。ここで使用されている日本語の音声認識エンジン、日本語を入出力とする機械翻訳エンジン、日本語の音声合成エンジンの開発には、赤迫氏が率いる日本の研究所内の開発チームが携わっているという。
「『Galaxy AI』では特にオンデバイスAIの開発に注力していて、日本語を含む多言語対応を各言語にネイティブな開発者が担当しています」と赤迫氏。「日本語ならではの問題を早期に発見して開発できる体制が整っています」と説明する。
AI開発の障壁となっている日本語ならではの問題とは?
赤迫氏がいう日本語ならではの問題とは、たとえば以下のようなものだ。
1.同音異義語の多さ
例えば「はし」という単語にはいくつもの意味がある。イントネーションとかによってある程度は識別できるが、イントネーションは方言によっても変わるため、文脈から判断する必要がある。
2.文脈で人名表記を特定しづらい
同音異義語は人名にも当てはまるが、人名はよほどの著名人でなければ、文脈から漢字表記を特定できないため、特別な処理、何らかの考察が必要になる。
3.アラビア数字、英語の読み方が一定ではない
『Galaxy S25』を、「エスニジュウゴ」と読む人もいれば、「エストゥエンティファイブ」と読む人もいるように、アルファベットやアラビア数字の読み方が一定ではない。これは特に音声認識エンジンを開発する上で、考慮すべき課題だという。
4.同形異音語が多い
たとえば「その方」は「ソノホウ」とも「ソノカタ」とも読めるため、文脈によって読み方が変わってくる。テキストだけを見て、どちらで音声合成をすればいいのかを判断するのは難しい。
5.ハイコンテクストである
日本語はハイコンテクストな言語と言われ、主語が抜けていたり、正確に表現しなくても察する文化がある。これが、特に機械翻訳エンジンを開発する上では障壁となるという。
6.スペースで単語を区切らない
他言語では単語をスペースで区切るケースが多いが、日本語はそうではない。単語単位なのか、分節単位なのか、区切り方によって自然言語処理の言語理解の精度に影響をするとのこと。
こうした日本語ならではの問題に対処するにあたって、「国内に開発チームがあり、日本語ネイティブなエンジニアが多数開発に携わっていることは大きな強みです」と赤迫氏。実際に昨年4月に中国北京から日本の研究所に引き継いで以降、開発スピードが加速化していると話す。なお日本語のAIモジュールは、言語パックとしてダウンロードすることで、「Galaxy AI」でのオンデマンド処理が可能になるしくみ。言語パックは、定期的にバージョンアップが行われているという。
Galaxyの音声アシスタント「Bixby」も日本語に対応
「Galaxy AI」は昨年の「Galaxy S24」シリーズから搭載されているが、最新の「Galaxy S25」シリーズでは、通話の音声通訳に加えて、複数のアプリケーションを越えた処理も可能になるなど、進化を遂げている。また、Galaxy独自の音声AIアシスタントである「Bixby」も日本語に対応。この「Bixby」の日本語化にも、赤迫氏のチームが携わっている。
ハードウェアからソフトウェアまで研究開発を行っている、サムスン日本研究所。
「Bixby」では、「ランニングの記録を開始して」といったユーザーの声を認識。「Samsung Health」アプリを起動して、ランニングの記録を開始するといったタスクを実行する。その際に必要な日本語の音声認識や、「Bixby」が返答する際の日本語の音声合成には、「Galaxy AI」と同じ要素技術が用いられているという。
「『Bixby』では、より具体的なタスクの実行にフォーカスしていて、そこが他のAIとは異なる点です。サムスンのデバイスに最適化されていて、アプリケーションとの連携も深い。先ほどのランニングの例のように、単純に『Samsung Health』を立ち上げるだけではなくて、そのアプリケーションが持っている細かい機能を呼び出して、タスクを実行できるようになっています」(赤迫氏)
「Bixby」でも「Galaxy AI」同様、日本語の音声認識や音声合成機能の品質向上、機能拡張のためのバージョンアップは随時行われている。つい最近も2月からスタートした新サービス「Samsung Wallet」との連携が強化されるなどアップデートが行われたという。
サムスン日本研究所では今後も、「高品質で真に有用な日本語AIの開発を続けていく」と赤迫氏。「その活動を通じて、Galaxyユーザーの満足度向上を目指していきたい」と話していた。
取材・文/太田百合子