パナソニックが多様な画像特徴を滑らかに捉える画像分類AIを開発

2024.01.06

パナソニックホールディングスは、従来のAIが苦手とする「種類や撮影条件によって同一カテゴリ内の見た目が多様になる」場合にも、精度良く画像認識が可能なAI技術を開発したことを発表した。

見た目のバラエティが豊かなカテゴリもうまく認識

画像認識AIは、画像中の物体の特徴を捉えカテゴリを分類することで物体の認識を実現する。一方、「電車」「犬」など同じカテゴリに属しても、車種や犬種などのサブカテゴリ間で見た目が大きく異なる例も少なくない。

さらに同じ物体でも、向き・天候・光の当たり具合・背景など撮影条件の違いにより見た目が異なる例も多く、この見えの多様性をどう扱うかが、課題になっている。

このような背景から、従来はサブカテゴリ内の類似性や同一カテゴリに共通する特徴を見つけられるよう分類アルゴリズムを工夫することで、多様性に左右されず頑健に認識することを目指す研究が行なわれていた。

しかしながら、様々な現場でAIの展開が進み、大量の多様な画像を扱うようになると、「共通する特徴を見つける」というアプローチでは、特に同一カテゴリ内に「見えの傾向が異なる、より細かいカテゴリ」が存在する場合（多峰性分布）、それらをうまく同じカテゴリの物体として推定できなくなり、認識精度の低下をもたらすことが知られている。

そこで同社は、見えの違いを敢えて生かすことに着目し、2次元の正規直交行列により画像の多様性を捉える分類アルゴリズムを新たに開発。

ベンチマークデータセットを用いた実証実験では、AIが苦手とする「多峰性分布」のデータに対しても高精度に画像分類を行なえることを実証した。

なお、同技術は、パナソニックグループのトップ人材育成プログラムREAL-AIの研究成果として、2024年1月4日から2024年1月8日に米国ハワイで開催されるコンピュータビジョン分野のトップカンファレンスIEEE/CVF Winter Conference on Applications of Computer Vision （WACV 2024）で発表されるとのことだ。

■技術の内容

画像認識技術の応用が進み、技術の展開先はこれまで利用されてこなかった場面にも広がりを見せている。いわゆる「画像認識を適用しやすい」現場に限らない応用が進むにつれ、従来のAIが苦手とする「多様な見え方をする同じ物体」への対処が求められている。

従来の深層学習の枠組みにおいては、AIモデルは基本的に見えが似たものが同じカテゴリに属するように学習していく。一方で、特に近年、分類性能を向上させるために、データの数と見えのバリエーションを著しく増加させて学習させることが一般的になっている。

これにより、撮影方向や、光の加減、背景の違いなどによって、全く異なる見え方をする物体であっても、同じ物体は同一カテゴリである、と判別することができるようになる。

そのため、大量のデータが包含する多様な見えに惑わされず、対象の物体に共通する「本質的な特徴」をいかにうまく学習させるか、という点が着目されてきた。

一方、カテゴリ内の「見え」の分布は実は均一ではなく、同一カテゴリ内に「見えの傾向が連続的に異なる、より細かいカテゴリ」が複数存在する（多峰性分布）。

例えば、図1の「鳥」カテゴリには、「空を飛んでいる鳥」「草原の鳥」「木に留まっている鳥」「鳥の頭」のように、同じ「鳥」でも異なる傾向の画像群が存在し、それらの画像群それぞれが対象に関する豊かな情報を有している。

ここで「本質的な特徴」にフォーカスしてしまうと、せっかく画像群が有していた多様な情報を捨て去ることになる。

そこで同社は、物体の多様な見え方に関する情報を積極的に活用することでAIが苦手とする「多峰性分布」を有する画像の認識能力を上げるアルゴリズムを開発した。

具体的には、特徴の分布を連続的に捉えるため、従来1次元のベクトルのみが通常用いられてきた分類モデルの重みベクトルを、2次元の正規直交行列に拡張し、これにより、重み行列の各要素が画像のバリエーション（背景の色や、物体の向きなど）を表現できるようにした。

ベンチマークデータセットに対する実証実験の結果、本手法は図1に示すように、「鳥」のような見えが非常に多様なカテゴリに含まれる画像特徴を連続的に捉えられる分類器を導入することで、同じ物体として分類すべき特徴量群の淵を特定できることを示した（星印が、本手法が捉えた「鳥」カテゴリの淵）。

その結果、図2に示すように、「バス」「路面電車」のような見えが近く分類が難しいようなケースでも、従来法のように見た目が近い別の乗り物に惑わされることなく、同一カテゴリに属する画像を見つけ出すことに成功した。

シンプルなアルゴリズムのため、一般的な深層学習ベースの画像認識モデル（ResNet-50）に本アルゴリズムを追加した際のメモリ量増加は実用時の試算（10クラス）で0.1％程度であり、わずかなメモリ増加で認識精度と説明性の向上が期待できる。

↑図1 本手法での画像分類結果を示す図。左はAIによる画像分類結果について、異なるカテゴリを異なる色で示し二次元にマッピングした図。中央は、緑色で示す「鳥」カテゴリに対し、分類モデルの重み行列の各成分に対応する特徴量を示した図。右は、中央の図に示す青、オレンジ、黄、赤の星印からそれぞれ近い順に画像群を表示した図。上から順に、青：空に飛ぶ鳥、オレンジ：草原の鳥、黄：木の鳥、赤：鳥の頭、という異なる特徴（多峰性）を持った画像がそれぞれ近くなるような分類が出来ている。このことから、本手法は、人の感覚とあまり違和感のない、同一カテゴリにおける多峰性をうまく表現できる分類モデルが学習できているといえる。（採択論文より引用（C）2024 IEEE）

↑図2 同一カテゴリの画像を探してくる（query）タスクにおける、従来法DNC（左）と提案法（右）の認識結果。一行目はバス、二行目は電車、三行目は路面電車の画像を探すタスク。従来法は見た目が近い別の乗り物を見付けてきた一方、提案法は見た目のバリエーションが豊かな形で乗り物の画像を見つけ出せている。（採択論文より引用（C）2024 IEEE）