健康とアクセシビリティを改善するための眼球運動研究

画像




倦怠感のない参加者(左)と精神的疲労感のある参加者(右)が円形の経路をたどって物体を追跡する場合の視線追跡の例。



眼球運動は、視覚言語、および ユーザビリティの専門家によって広く研究 されています1970年代から。基礎研究だけでなく、目の動きをよりよく理解することは、ユーザビリティとユーザーエクスペリエンスの研究、ゲーム、運転、健康へのアクセスのための視線ベースのインタラクションなど、さまざまなアプリケーションで役立ちます。ただし、これまでの研究のほとんどは、高価で拡張が難しい特殊なハードウェアアイトラッカーに焦点を当てていたため、進歩は限られていました。



では «スマートフォンを追跡し、手頃な価格と正確な目経由加速眼球運動の研究»に掲載 ネイチャー・コミュニケーションズ、および« デジタル精神のバイオマーカーではない疲労»に掲載 npj Digital Medicineは、正確なスマートフォンの視線追跡と機械学習を導入しています。これにより、視覚、アクセシビリティ、健康、ウェルネスの分野で新しいアプリの研究を解き放ち、世界中のさまざまな人々に拡張性を提供することができます。スマートフォンのフロントカメラ。また、このテクノロジーを精神的疲労のデジタルバイオマーカーとして使用する可能性についても議論しています。これは、幸福の改善に役立つ可能性があります。



モデルの概要



私たちの視線モデルの中核はMIT GazeCaptureデータセットでトレーニングされフィードフォワード多層 畳み込みニューラルネットワーク(ConvNet) でした。顔検出アルゴリズムは、目の隅に対応するランドマークがある顔の領域を選択しました。これらのランドマークは、目の領域だけに画像をトリミングするために使用されました。これらのトリミングされたフレームは、同じ重量の2つの同一のConvNetタワーを通過しました。各畳み込み層の後には、中間のマージ層が続き ます。目の隅にあるランドマークは、完全に接続されたレイヤーを介して2つのタワーの出口と統合されました。 直線化された線形単位 (ReLU)は、アクティブ化されなかった最後の完全に接続された出力レベル(FC6)を除くすべてのレイヤーに使用されました。



画像




パーソナライズされていない視線モデルのアーキテクチャ。フロントカメラ画像から抽出された目の領域は、畳み込みニューラルネットワークへの入力として機能します。完全にリンクされた(FC)レイヤーは、出力を目の隅にあるランドマークと組み合わせて、重回帰出力レイヤーを介して画面上のX座標とY座標を出力します。



パーソナライズされていない視線モデルの精度は、各参加者の微調整とパーソナライズによって改善されました。後者の場合、軽量回帰モデルがReLUモデルの最後から2番目のレイヤーと特定の参加者のデータに適合しました。



モデル評価



モデルを評価するために、一致した研究参加者が空白の画面のランダムな場所に表示されたドットを見たときにデータを収集しました。モデルエラーは、刺激の位置とモデルの予測の間の距離(cm単位)として計算されました。結果は、パーソナライズされていないモデルの許容誤差は大きいものの、約30秒のキャリブレーションデータを使用したパーソナライズにより、エラーが4分の1以上減少したことを示しています(1.92cmから0.46cm)。視距離が25〜40 cmの場合、これは0.6〜1°の精度に相当します。これは、以前の研究で報告された2.4〜3°よりも大幅に改善されています[1、2]。



追加の実験によると、スマートフォンのアイトラッカーモデルの精度は、スマートフォンをデバイススタンドに置いたときと、ユーザーがスマートフォンをほぼ正面に手で自由に持ったときの両方で、最新のウェアラブルアイトラッカーの精度に匹敵することが示されています。彼らの頭。各目の近くに複数の赤外線カメラを備えた特殊な視線追跡装置とは異なり、スマートフォンで単一の前面RGBカメラを使用してモデルを起動すると、大幅に経済的(約100倍安価)でスケーラブルになります。



このスマートフォン技術を使用して、標準的な動眼神経タスク(基本的な視覚脳機能を理解するため)や画像の自然な理解など、神経科学および心理学における以前の眼球運動研究からの重要な発見を再現することができました。たとえば、画面に表示される刺激の方向に目をすばやく動かす能力をテストする単純なプロサッケード問題 では、平均サッケード遅延(目を動かす時間)が以前の作業と一致し ていることがわかりました 基本的な眼の健康のために(210ミリ秒対200-250ミリ秒)。ガイド付き視覚探索タスクでは、ターゲットの可視性や目の動きに対する乱雑さの影響などの重要な結果を再現することができました。



画像




視線スキャンの軌跡の例は、視覚探索の有効性に対するターゲットの可視性(つまり、色のコントラスト)の影響を示しています。署名の多いターゲット(左)(ディストラクタを除く)を見つけるために必要な凝視は少なく、署名の低いターゲット(右)を見つけるために必要な凝視は多くなります(ディストラクタと同様)。



自然画像などの複雑な刺激の場合、スマートフォンのアイトラッカーからの視線分布(すべての参加者の視線位置を集計して計算)は、実験室のフォーカスシステムなどの厳密に制御された設定を使用したかさばる高価なアイトラッカーから得られるものと類似していることがわかりましたあご用。スマートフォンの注視ヒートマップは、ハードウェアのアイトラッカーよりも広く普及しています(つまり、「ぼやけた」ように見えます)が、ピクセルレベル(r = 0.74)とオブジェクトレベル(r = 0、90)の両方で高い相関関係があります。 。これらの結果は、この技術を使用して、自然画像や医用画像などの複雑な刺激の視線分析をスケーリングできることを示唆しています(たとえば、放射線科医はMRI / PETスキャンをレビューします)。



画像




より高価な(100x)アイトラッカー(OSIEデータセットと比較したスマートフォン使用時の熱視線マップ



スマートフォンは読解の問題の検出にも役立つことがわかりました。パッセージを読んだ参加者は、正解すると、関連するパッセージを探すのにかなり多くの時間を費やしました。しかし、理解の難しさが増すにつれて、彼らは答えを含む適切な一節を見つける前に、テキストの無関係な一節を研究することに多くの時間を費やしました。関連するパッセージで費やされた注視時間の割合は、理解の良い指標であり、理解の難しさと強く負の相関がありました(r = -0.72)。



精神的倦怠感のデジタルバイオマーカー



視線検出は、覚醒と健康状態を判断するための重要なツールであり、医学、睡眠研究、および医療手術、飛行安全などの重大な状態で広く研究されています。ただし、既存の疲労試験は主観的なものであり、多くの場合時間がかかります。npj Digital Medicineに掲載された最近の 記事では、スマートフォンの視線が精神的倦怠感のために著しく損なわれ、倦怠感の発症と進行を追跡するために使用できることを示しました。



単純なモデルは、割り当ての参加者からの視線データを使用して、わずか数分で精神的疲労を確実に予測します。これらの結果を、言語に依存しないオブジェクト追跡タスクと言語に依存する検証タスクの2つの異なる実験で検証しました。以下に示すように、オブジェクトを追跡するタスクでは、参加者の視線は最初にオブジェクトの円形のパスをたどりますが、彼らが疲れているとき、彼らの視線は大きなエラーと逸脱を示します。電話が普及していることを考えると、これらの結果は、スマートフォンを見ることが精神的疲労のスケーラブルなデジタルバイオマーカーとして役立つ可能性があることを示唆しています。



画像




倦怠感のない参加者(左)と精神的疲労感のある参加者(右)が円形の経路をたどって物体を追跡する場合の視線追跡の例。



画像




タスク実行時間の関数としての疲労推定(信頼度)とモデル予測の対応する進行。



スマートフォンを見ると、気分が良くなるだけでなく、自閉症スペクトラム障害失読症脳震盪などの健康状態をスクリーニングまたは監視するためのデジタル表現型を提供することもできます 。これにより、特に医療サービスへのアクセスが制限されている国では、タイムリーで早期の介入が可能になります。



非常に有益なもう1つの分野は、アクセシビリティです。以下のような条件を持つ人々では ALSロックイン人物症候群脳卒中、発話、運動能力が損なわれます。最近Lookto Speakで実証されたように、スマートフォンを見ると、視線を使用して対話することにより、日常のタスクを簡素化する強力な方法が提供され ます。



倫理的配慮



目の研究では、そのようなテクノロジーの正しい使用を含め、慎重に検討する必要があります。アプリケーションは、特定のタスクを完了するために、ユーザーから完全な承認と十分なインフォームドコンセントを受け取る必要があります。私たちの仕事では、すべてのデータは、ユーザーの完全な承認と同意を得て、調査目的で収集されました。さらに、ユーザーはいつでもオプトアウトしてデータの削除を要求することができました。私たちは、機械学習を公正にし、人口統計全体での注視技術の精度と信頼性を責任を持って秘密厳守で改善するための追加の方法を引き続き模索しています。



結論



スマートフォンでの正確で手頃な機械学習ベースの視線追跡の結果により、ドメイン間の眼球運動(神経科学、心理学、人間とコンピューターの相互作用など)の大規模な研究の可能性が開かれます。それらは、アクセシビリティのための目と目の相互作用、幸福と健康のためのスマートフォンベースのスクリーニングおよび監視ツールなど、公共財のための潜在的な新しいアプリケーションを開きます。



謝辞



-, . , : , , , ; , ​​, ; , ; UXR: , . , .



All Articles