背景と概要

私はふとしたきっかけから保育園で園児の体温を赤外線カメラで取得するプロジェクトに携わることになり、その中で顔画像を用いた医学的診断について調査する機会があった。門外漢ながらかなり興味をそそられるものだったので、その結果を報告しようと思う。医学的な専門知識はないので間違い等発見された場合にはぜひご指摘いただきたい。

結論から言えば、顔画像から様々な生体情報を取得することができるものの、その精度上の懸念から機械が自動診断を下すまでには至っていないものがほとんどのようである。近年の機械学習技術の進歩にもかかわらず精度が今一つな理由は、公開データの少なさ、および個人差を取り込むことが十分にできていないことであると考えられる。なお、ここでは私の動機に関連して、一台のRGBカメラだけではなく、三次元カメラやサーマルカメラ(赤外線カメラ)から得られる画像も対象に含めることにする。

顔認識と医学的診断

さて、現在顔認識は完全に市場レベルの技術になり、様々な用途に使われている。各社提供するクラウド顔認識APIや機械学習ライブラリDLIBの提供する顔認識APIなどは、画像内から顔領域を検出できるのみならず、目や口などの位置が正確に求められ、ざっくりとした感情まで推定できるものもある。GoogleのCloud Vision APIは倫理的な理由から、個人特定を可能にする機能はAPI化しない旨昨年末にアナウンスがあった。顔認識の性能向上により、その応用が新たな段階に進んだことを顕著に示すものだろう。

他方、画像による医学的診断は非接触・非侵襲に行うことができるので、新生児も含め、患者の負担なく容易に実施できるのに加え、遠隔医療にも適している。特に顔領域は通常、皮膚が露出していて生体情報を取得しやすいのに加え、感情伝達にも使われるため精神状態も表出している可能性がある。したがって、顔面を自動的に分析することができれば、対象となる人物について多くを定量化してアルゴリズムを適用することにより、自動的に異常を発見したり将来を予測したり、あるいはコミュニケーションにも利用することができると考えられる。

骨格・筋肉・脈波

顔の外見に最も大きな影響を与えているのは頭部の骨格であり、その三次元的な位置と方向を取得するだけでも斜頸(頭部が傾く疾患)の検出が可能である。顔面の筋肉と脂肪の分布も重要である。特に筋肉の活動状況を把握することでは顔面マヒや顔面・眼瞼けいれんなどの検知を行うことができる。また、顔面の微細で周期的な変化を検知することで、脈波を検知することもできる。簡便に行うには頬または額の映像の緑チャンネルに着目すると血流量の変化を比較的容易にとらえることができ、脈波を計ることができる(HueやYCbCr色空間で判定を行っているものもある)。以前はコントロールされた照明下でしか安定に動作しなかったが、現在は比較的自由な環境照明下で、より短時間で取得できるようになり、Webカメラやスマートフォンカメラを利用できるようになってきた。スマートフォンのカメラと照明を用いて脈拍を計測するアプリも数多く存在するので、ご存知の方も多いだろう。実際に使ってみると、大きな誤差はないように思われる。また、色の変化ではなく微細な動き(例えば頭部の動き)を検出し、そこから脈波を推定するものもあり、精度的には色ベースの手法と大差ないがより安定に脈波を取得できるとのことである。脈波が検知できれば、乳児の突然死や睡眠時無呼吸症候群の検出を行うことができる。

痛み

顔面の情報を用いることで、患者が感じている痛みの程度を推定することもできる。痛みの程度に応じて痛み止めなどの処方の可否が変わるので、重要な情報である。痛みと表情の変化を関連付ける基礎データとしてはSTOICやCOPEなどいくつか公開データベースが存在し、俳優が演じたものや、幼児に実際に刺激を与えたものなどがある。痛みを感じる度合いには個人差があるため、本人や周囲の人によるアンケート結果を交えたデータベースもある(CMU PAINFUL DATA等)。これらのデータベースを用いて作られた推定は年齢が高いほど難しく、一般に9割程度の正答率に留まっているので、その他の生体データを組み合わせて性能を向上させる試みがなされている。

先天的な障害

先天的な神経学的障害にも画像診断技術を用いることができる。ダウン症やコルネリア・デランゲ症候群、胎児性アルコール症候群など、顔面に特徴が表出する障害の場合は画像診断が有効で、三次元スキャンも組み合わせるとさらに精度が向上する。幼児のダウン症検出は97%の正答率を達成したとの報告もあるが、まだ使われているデータのサイズが小さいため、現在アクティブに研究がなされている。胎児性アルコール症候群の場合は年齢が小さいほど正確で、5歳児であれば95%ほどの正解率だが12歳児となると80%ほどに低下するとのことである。

精神疾患

また、精神疾患のある患者は通常と異なる眼球運動があるため、これを検出することでADHD(注意欠如・多動症)や自閉症の推定が可能である。それに加えこれらの疾患では特徴的な行動パターンも見られるため、顔面だけでなく全身運動を観察することも有用である。KOOMAというデータベースでは55名(正常・ADHD,自閉症)のKinect撮影データを公開している。顔面情報と全身の3Dデータを組み合わせて、96%の正答率を達成したとのことである。統合失調症や双極性障害、社交不安障害などの患者においても特徴的な視線の動きがあり、推定に使えるとのことである。全身姿勢に関しては、現在であればKinectを用いずともOpenPoseなどの深層学習系ポーズ推定技術もあるので、より簡易な装置で推定ができるものと思われる。

うつ病の推定は、外部刺激に対する頭部の動きと表情の変化を観察することである程度行うことができる。通常は特定のインタビューを行いながらビデオ撮影を行い、それを分析することで推定を行う。この正解率は現在80%程度とのことである。また、統合失調症の患者は感情に連動して顔面の温度がより大幅に変わるため、赤外線を利用したサーマルカメラを用いることで判断が容易になり、95%近くの正解率を達成したという報告もある。サーマルカメラ利用という路線では、発熱を伴う疾患、例えば顎関節症などの推定にも有用である。

サーマルカメラ

サーマルカメラによる体温計測についても比較的長い研究の歴史がある。応用としてはSARSやエボラ出血熱の患者を空港など水際でマススクリーニングしパンデミックを防ぐといった用途が最も顕著であるが、カジュアルに実施できる方法が確立されればホテルや学校など公共の場での利用も増加していくと考えられる。近年では家庭向けに販売されている体温計でも赤外線を用いて非接触・短時間で計測できるものが増えてきており、短時間で計測できるので一定の人気を獲得している。計測部位は額やこめかみ、耳孔など様々であるが、実際のところは体表温度は脇下で計測される温度とはかなり異なっており、また発汗や計測環境・年齢などによって影響されやすく、安定に計測することは困難である。顔面の中で最も安定に表面温度を測定でき、中核温(体内の温度)に近いものは眼角(canthi)と呼ばれる目と鼻の間の領域とされているが、安定度を増すためには複数の点を計測することが望ましいので、市販の体温計では額全体をスキャンするなどの工夫がなされていることもある。またマススクリーニングにおいても、顔領域を検出したのちにいくつかの参照点を設定し、それらの情報を総合して体温の推定を行う。そのためには赤外線画像からの顔検出や、赤外線カメラと可視光カメラの位置合わせを行って顔検出の精度を上げるなどの工夫が必要であり、いまだ研究が必要な領域である。
そもそも赤外線サーモグラフィは表面温度を直接計測しているわけではなく赤外線の放射強度を温度に変換しているため、周囲の環境から放射され体表で反射する赤外線なども影響を与えているし、測定対象と検出器の間の大気による拡散も考慮に入れる必要がある。また、検出素子や筐体も赤外線を放射して測定に影響を与えるために、ペルチェ素子などで冷却するか、あるいは定期的に温度の決まっているシャッターを下ろして補正を行うなどの工夫がなされている。最近はサーマルカメラも装備したスマートフォンも販売されているが、研究室のコントロールされた環境であればともかく、一般の環境において正確な値を得るには前述のようにまだ多くの技術革新が必要であり、研究の観点からは面白い課題でもある。

まとめ

ここまで見てきたように、顔画像から様々な医学的知見を得ることができる可能性があることがわかった。しかし、これらの技術が人間による診断の正確さを上回るにはまだ至っていない。それにはいくつかの要因がある。一つには、診断システムを作るための教師データを医師自身が与えているケースが多いことであり、囲碁や将棋のように検索の問題に落とし込めるものよりもアプローチしにくいことがある。もう一つには、顔面データを含むデータセットは、仮に匿名化されていたとしても多分にプライバシーの問題があり、研究のバックアップとなる公開データが乏しいことが挙げられる。大阪駅ビルで顔識別を用いた実証実験が批判を集めたことをご記憶の方も多いだろう。さらにデータの種類も問題で、単に疾患の有無を分類するだけでは不十分で、一人の人間がどのような既往歴・親族構成を持って発病に至ったかなど、単一の個人の時間軸を追うようなデータも全く不足している。
現在優れたパフォーマンスを達成している深層学習技術の土台には大量のデータがあり、それを集める仕組みを持った組織や企業が先頭を走っていることはご存じのとおりである。したがって、技術の発展のための一番大事な要素はデータを集めるための仕組みを作ることであるといっても過言ではない。これには研究室にある知識だけでは不十分であり、社会とつながりを持った企業の力や、優れたユーザーインターフェース、付随するサービスなどの要素も検討する必要があると思われる。

参考文献:
J. Thevenot, M.B. López, A. Hadid “A Survey on Computer Vision for Assistive Medical Diagnosis From Faces”, IEEE Journal of Biomedical and Health Informatics ( Volume: 22 , Issue: 5 , Sept. 2018 )

カテゴリー: Blog