AIの医療評価に「誤り」が生まれる理由

2025.07.11

入力ミスや俗語はAIの医療評価に影響する

誤字・脱字や余分な空白などの一般的な入力ミスは、医療記録を確認して医療従事者を支援するために設計された人工知能（AI）プログラムに悪影響を及ぼす可能性のあることが、新たな研究で明らかになった。米マサチューセッツ工科大学（MIT）のAbinitha Gourabathina氏らによるこの研究結果は、米国計算機学会（Association for Computing Machinery；ACM）主催によるFAccT 2025（6月23～25日、ギリシャ・アテネ）で発表された。

臨床現場における大規模言語モデル（LLM）の採用は増加傾向にあり、慢性疾患の管理、診断支援、文書作成、請求、患者とのコミュニケーションなどの管理タスクを含むさまざまな医療アプリケーション向けに開発されている。この研究は、Gourabathina氏が、患者から送られてくる症状報告や相談などのメッセージに記されている性別に関する手がかりを入れ替え、それをAIに提示する実験を行ったことから始まった。同氏は、単純な書式の誤りがAIの回答に意味のある変化をもたらすことに驚いたという。

この問題をさらに調査するためにGourabathina氏らは、患者からのメッセージに意図的に性別に関する情報の入れ替えや削除、テキストへの余分なスペースや誤字の挿入、colorful language（彩り豊かな表現）や曖昧な表現の追加などの改変を加えた。Colorful languageの例は、「Wow（わあ）」といった感嘆詞や、「really（本当に）」「very（とても）」などの副詞などである。また、「曖昧な表現」の例は、「～みたいな感じ」「ちょっと～」「ある意味～」などの意を表す「kind of」や「sort of」、あるいは「たぶん」「～だと思う」などの意味を表す「suppose」や「possibly」などである。

これらのテキスト上の変更は、患者と臨床医とのコミュニケーションに関する心理社会的研究に基づき、脆弱な立場にある患者集団が書く可能性のあるテキストを模倣するように設計されていた。ただし、薬剤情報や診断歴などの臨床情報には変更が加えられなかった。

改変したテキストをGPT-4を含む4つのLLMに提示し、「自宅で様子を見るので良いか（自宅療養）」「来院すべきか」「検査や医療リソースを割り当てるべきか」を問いかけた。その結果、治療推奨についてのLLMの回答には一貫性がなく、LLM間で著しい意見の相違が見られることが示された。

また、提示した9種類の患者メッセージの全てにおいて、自宅療養に関する提案が7～9％増加していることも確認された。これは、例えば患者のメッセージに誤字や性別について中立的な代名詞が含まれている場合には、LLMは患者に医療機関を受診しなくても良いと勧める傾向が強くなることを意味する。

特に、俗語や誇張表現などのcolorful languageがLLMに及ぼす影響は大きかったという。さらに、臨床的状況から性別の手がかりを全て取り除いた場合でも、モデルは女性患者に対して約7％多くの誤りを犯し、女性患者に自宅療養を推奨する傾向が強いことも判明した。

Gourabathina氏は、「研究では、集計された統計に注目する傾向があるが、その過程で失われる情報は少なくない。われわれは、こうした間違いがどの方向に向かい、どんな影響をもたらし得るのかを検討する必要がある。例えば、診療を勧めるべきときにそれを勧めないことは、不必要な診療を勧めるよりもはるかに有害だ」と指摘している。

なお、学会発表された研究結果は、査読を受けて医学誌に掲載されるまでは一般に予備的なものと見なされる。（HealthDay News 2025年6月26日）

（参考情報）
Abstract/Full Text
https://dl.acm.org/doi/10.1145/3715275.3732121

Press Release
https://news.mit.edu/2025/llms-factor-unrelated-information-when-recommending-medical-treatments-0623

構成／DIME編集部

「腹腔鏡下手術」と「ロボット支援下手術」直腸がんの術後改善が期待できるのはどっち？

腹腔鏡下手術vs.ロボット支援下手術、直腸がんの術後転帰に差直腸がんの手術では、狭い骨盤内での作業が必要となる。そのため、多関節アームやモーションスケーリング…