
簡単な説明
実在の人物の顔とカメラの偽の顔の違いは、制御システムと施設へのアクセスにおいて依然として最も難しい問題の1つです。標準的なカメラからのビデオシーケンスでリアルタイムで目の瞬きを検出するためのアルゴリズムが提案されており、これはカメラ内の人が本物であるという事実を私たちに与える。フィールドのデータセットでトレーニングされた最新のランドマーク検出器は、カメラに対する頭の向き、変化する照明条件、顔の表情に対して優れた耐性を示します。目印が十分に正確に検出され、開眼のレベルを確実に推定できることを示します。したがって、提案されたアルゴリズムは、ランドマークの位置を推定し、各フレームの開眼を特徴付ける1つのスカラー(眼底比(EAR))を抽出します。最後に、SVM分類器は、短い時間枠でEAR値のパターンとして瞬きを検出します。単純なアルゴリズムは、2つの標準データセットで最新の結果よりも優れています。
Dlibライブラリ
この記事では、dlibの顔の領域の顔のインデックスを使用します。dlibライブラリ内に実装された顔のランドマーク検出器は、特定の顔の構造にマッピングされる68(x、y)の座標を生成します。これらの68ポイントのマッピングは、ラベル付けされたiBUG300-Wデータセットで形状予測子をトレーニングすることによって取得されました。
以下に、これらの68個の座標のそれぞれが何にマッピングされているかを視覚化できます。図1- iBUG 300-Wデータセットから68個の顔の座標点のそれぞれをレンダリング する画像を調べると、単純なPythonインデックスを使用して顔の領域にアクセスできることがわかります(上の画像が1つのインデックス付けであるため、Pythonを使用したゼロインデックス付けを想定しています):

- 口にはポイント[49、68]からアクセスできます。
- ポイントを通る右眉[18、22]。
- ポイントを通る左眉[23、27]。
- ポイントを通る右目[37、42]。
- ポイントを通る左目[43、48]。
- ポイントを通る鼻[28、36]。
- そして、ポイント[1、17]を通る顎。
アイプロポーション(EAR)を理解する。顔のランドマーク検出を適用して、目、眉、鼻、耳、口など、顔の重要な領域を 特定でき

ます。図2-画像内の顔のランドマークのリアルタイム検出
これは、特定のインデックスを知ることで特定の顔の構造を抽出できることも意味します。顔の一部:


図3-顔のさまざまな領域、つまり右目と口を特定するための顔のランドマークの適用
点滅検出
まばたき検出の観点からは、2セットの顔の構造(目)にのみ関心があります。各眼は、(あなたは人を見ていたかのように)眼の左上隅から開始し、次いで領域の残りの部分の周りに時計方向に作動6(X、Y)座標で表される。

図4 - 6眼に関連付けられた顔の目印
に基づいてこの画像では、重要なポイントを選択する必要があります。これらの座標の幅と高さには関係があります。 SoukupovaとCechの2016年の論文「顔のランドマークを使用したリアルタイムの目の点滅の検出」の作業に基づいて、この関係を反映する、目のアスペクト比(EAR)と呼ばれる方程式を導き出すことができます。図5-目の比率の

方程式
ここで、p1、…、p6は顔の2Dランドマークです。この式の分子は垂直眼のランドマーク間の距離を計算し、分母は水平眼のランドマーク間の距離を計算し、それに応じて分母を重み付けします。これは、水平点が1セットだけで、垂直点が2セットあるためです。
さて、ご存知のように、目のアスペクト比は、目を開いているときはほぼ一定ですが、点滅が発生するとすぐにゼロになります。この単純な
方程式を使用すると、画像処理技術を回避し、目の視点までの距離の比率に基づいて、人が点滅しているかどうかを判断できます。明確にするために、次の図を検討してください。

図6-目のランドマークの視覚化
左上隅には、完全に開いた目があります。ここでのアスペクト比は大きくなり、時間の経過とともに比較的一定になります。しかし、人が瞬きするやいなや(右上)、目のアスペクト比は劇的に減少し、ゼロに近づきます。上の図は、ビデオクリップの目のアスペクト比のグラフを示しています。ご覧のとおり、目のアスペクト比は一定で、すぐにゼロに近づき、再び増加します。これは、1回の点滅を示します。

図7-瞬目検出
例外
ただし、ビデオストリームのノイズ、顔のランドマークの低い検出率、または表示角度の急激な変化により、目のアスペクト比の単純なしきい値は誤検出につながる可能性があり、被験者が実際に点滅していないときに点滅が発生したことを示します。ある医療記事を読んでいると、人は1分間に平均20回点滅します。これは、3秒に1回点滅していることを示しています。
これに基づいて、点滅検出器をこれらの問題に対してより耐性にするために、点滅を読み取るまでの時間間隔を作成し、3秒が経過し、点滅が検出されたときに少なくとも3フレームを取得する必要があります。私たちの研究の結果は非常に良い結果をもたらしました。検出器は正確に機能しました。 20のテストのうち、18が陽性でした。
このアプローチの問題
このアプローチには未解決の問題もあります。点滅している人の顔を示す技術的な手段でカメラにビデオを表示すると、システムが誤検知につながる可能性があります。この問題の解決策は、2台のカメラを使用して深度マップを取得し、オブジェクトまでの距離を計算できるイメージステレオペアを使用して実行できます。
問題解決
ステレオペアカメラの動作を示しています。画像が修正された後、2つの画像から対応するポイントのペアが検索されます。最も簡単な方法を図8に示します。これは、次のとおりです。座標(x0、y0)を持つ左側の画像の各ピクセルについて、右側の画像でピクセルが検索されます。右の画像のピクセルは座標(x0-d、y0)を持つ必要があると想定されます。ここで、dは視差と呼ばれる値です。対応するピクセルの検索は、応答関数の最大値を計算することによって実行されます。これは、たとえば、ピクセルの近傍の相関関係などです。

図8-深度マップの計算