Blacklightは、リアルタイムのWebサイトプライバシーインスペクターです。
このツールは、Webを閲覧しているユーザーを監視する方法をエミュレートします。ユーザーが希望のURLをBlacklightに入力すると、検査官はWebサイトに移動し、既知のタイプのプライバシー違反をスキャンして、調査対象サイトのプライバシー分析をすぐに返します。
Blacklightの仕組みは、The Markupによって作成された専用ソフトウェアを実行しているヘッドレスブラウザー(グラフィカルインターフェイスのないブラウザー)を使用して各Webサイトにアクセスすることです。ソフトウェアは、7つのテストを実行して、サイト上のどのスクリプトがユーザーを潜在的に監視できるかを監視し、それぞれが異なる既知の監視方法を調べます。
Blacklightは、次のタイプの監視を監視します。
- サードパーティのCookie
- 広告トラッカー
- キーロガー
- セッションレコーディング
- キャンバスへのフィンガープリント
- Facebookの追跡
- 「リマーケティングオーディエンス」GoogleAnalytics
それらとそれらの制限についての詳細を以下に説明します。
Blacklightは、NodeJSJavascript環境であるPuppeteerNodeライブラリの上に構築されており、Chromiumブラウザ(オープンソースのChrome)を高レベルで制御できます。ユーザーがBlacklightにURLを入力すると、ツールは新しいプロファイルでヘッドレスブラウザーを起動し、サイトのホームページと、同じWebサイト内のより深いランダムに選択されたページにアクセスします。
あなたがインターネットで働いたり、勉強したり、サーフィンしたりしている間、誰があなたをスパイしていますか?
ブラウザがWebサイトにアクセスしている間、ブラウザはバックグラウンドで専用のソフトウェアを実行し、スクリプトとネットワークリクエストを監視して、ユーザーデータがいつどのように収集されるかを理解します。スクリプトを監視するために、Blacklightは、フィンガープリントに使用できるブラウザーWindowAPIのさまざまなプロパティを変更します。これにより、Blacklightは、Stacktrace-jsパッケージを使用して特定の関数を呼び出したスクリプトを追跡できます。ネットワーク要求は、PuppeteerAPIに含まれている監視ツールを使用して収集されます。
Blacklightは、スクリプトデータとネットワーク要求を使用して、上記の7つのテストを実行します。その後、ブラウザを閉じて、ユーザーのレポートを生成します。
検索されたWebサイトが要求したすべてのURLのリストを記録します。さらに、要求されたすべてのドメインとサブドメインのリストを作成します。ユーザーが適切なオプションを使用して結果を共有することを選択しない限り、公開されているツールはこれらのリストを保存しません。パブリックサフィックス+1メソッド
を使用してドメイン名を定義します。独自のドメイン(ファーストパーティドメイン)の概念とは、サブドメインを含む、アクセスしたWebサイトに対応する任意のドメインを意味します。することにより、サードパーティ製私たちは、あなたが訪問しているWebサイトに対応していない任意のドメインを意味します。このツールは、Webサイト要求からのサードパーティドメインのリストをTrackerRadarデータセットと比較しますDuckDuckGoのWebサイト。
このデータ融合により、Blacklightは、調査中のサイトで見つかったサードパーティドメインに関する次の情報を追加できます。
- ドメイン所有者名。
- DuckDuckGoによって各ドメインに割り当てられたカテゴリで、観察可能な目的と意図を説明します。
サードパーティドメインに関するこの追加情報は、Blacklightテスト結果のコンテキストとしてユーザーに提供されます。特に、この情報は、Webサイトに存在する広告関連のトラッカーの数を計算するために使用されます。
Blacklightは、ツールのインターフェイスに入力されたページルートURLに基づいてテストを実行します。たとえば、ユーザーがexample.com/sportsと入力すると、Blacklightはexample.comから探索を開始し、/ sportsパスを削除します。ユーザーがsports.example.comに入ると、Blacklightはsports.example.comで探索を開始します。
要求された各ドメインのBlacklightチェックの結果は、24時間キャッシュされます。このようなキャッシュされたレポートは、24時間以内に行われた同じWebサイトのユーザーからの後続の要求に応じて返されます。これは、何千もの自動アクセスでWebサイトを過負荷にしようとすることにより、ツールの悪用を防ぐためです。
Blacklightはまた、ユーザーのスコアが、Trancoリストの上位100,000のWebサイトのスコアよりも高いか、低いか、またはほぼ等しいかをユーザーに通知します。これについては、以下で詳しく説明します。
Blacklightコードベースはオープンソースであり、Githubで入手できます。NPMモジュールとしてダウンロードすることもできます。
私たちの分析は限られています。 Blacklightは、Webサイトにアクセスするユーザーをエミュレートしますが、その自動化された動作は人間の動作とは異なり、この動作はさまざまなタイプの監視をトリガーできます。たとえば、自動化されたリクエストは、より多くの不正チェックをトリガーできますが、広告は少なくなります。
Webテクノロジーの動的な性質を考えると、これらのテストの一部は時間の経過とともに廃止される可能性もあります。さらに、Blacklightが違反と見なすテクノロジーの新しい許容可能な使用法があるかもしれません。
このため、Blacklightの結果は、潜在的なWebサイトのプライバシー侵害に関する最終決定と見なされるべきではありません。むしろ、それらは最終決定のために追加の研究を必要とする最初の自動化された研究と見なされるべきです。
前作
Blacklightは、過去10年間に作成されたさまざまなプライバシー制御ツールに基づいて構築されています。
Javascript機能を実行し、ブラウザーのJavascriptAPI呼び出しを追跡できるようにします。作業のこの側面は、プリンストン大学のSteven Englehard、Gunes Akar、Dillon Reisman、およびArvindNarayananによって作成されたオープンソースのWebプライバシー測定ツールであるOpenWPMに基づいています。このツールは現在、Mozillaでサポートされています。
OpenWPMは、PrincetonのWeb Transparency and Accountability Projectによって使用されました。このプロジェクトは、Webサイトとサービスを監視して、企業がデータを収集および使用し、ユーザーを誤解させる方法を調査しました。
Princetonの研究者は 、2015年から2019年の間に実施されたさまざまな調査を通じて、さまざまなプライバシー侵害テクノロジーを特定しました。これには、ブラウザのフィンガープリントとCookieの同期、およびパスワードと機密ユーザーデータを収集するセッション再作成スクリプトが含まれます。注目すべき例の1つは、walgreens.comからの処方箋と健康データの漏洩です。
Blacklightが実行する7つのテストのうち5つは、前述のPrincetonの調査で説明されている手法に基づいています。これらは、キャンバスフィンガープリント、キーロギング、セッションレコーディング、およびサードパーティのドメインCookieです。
OpenWPMには、他のプライバシー研究ツールからコードや技術が含まれてFourthParty、プライバシーアナグマ、およびFP探偵:
- FourPartyは、動的Webコンテンツを測定するためのオープンソースプラットフォームであり、2011年8月に開始され、 2014年まで維持されました。Home Depotのようなウェブサイトがユーザー名を第三者に漏らした方法を説明する研究を含む、さまざまな研究で使用されてきました。Blacklightは、FourthPartyの方法論を使用して、ネットワークを介したサードパーティへのユーザー情報の送信を監視します。
- Privacy Badger — , Electronic Frontier Foundation 2014 . .
- FP Detective . 2013 .
Blacklightデータ分析の開発者は、欧州連合の電子データ保護スーパーバイザー(EDPS)によって開発されたWebsite EvidenceCollectorに一部触発されました。Website Evidence Collectorは、Puppeteerライブラリを使用してWebサイトがユーザーの個人データを収集する方法を調査するNodeJSパッケージです。収集されたデータのカテゴリのいくつかは、EDPSによって選択されました。
ブラックライトの開発に影響を与えた他のプロジェクトには、2012年のUCバークレーのWebプライバシーセンサスとウォールストリートジャーナルの「彼らが知っていること」シリーズが含まれていました。
各タイプの追跡を分析した方法
サードパーティのCookie
サードパーティのドメインCookieは、追跡会社がWebサイトにアクセスしたときにユーザーのWebブラウザーに保存する小さなデータです。これは、同じ会社に属する追跡コードを含む他のWebサイトにアクセスするときに訪問者を識別するテキストであり、通常は一意の番号または文字列です。サードパーティのドメインCookieは、ユーザープロファイルを収集し、その動作に基づいてカスタマイズされた広告を表示するために、何百もの企業によって使用されています。
人気のあるブラウザ(Edge、Brave、Firefox、Safari)は、デフォルトでサードパーティのドメイン追跡Cookieをブロックし、Chrome開発者はそれらを拒否すると発表しました。
Blacklightがテストしているもの
Blacklightは、「Set-Cookie」ヘッダーに対するネットワーク要求を監視し、document.cookiejavascriptプロパティを使用してCookieを設定するすべてのドメインを監視します。Blacklightは、サードパーティのドメインCookieを、アクセスしているWebサイトとドメインが一致しないCookieとして識別します。DuckDuckGo Tracker Radarでこれらのサードパーティドメインを検索して、それらの所有者、使用頻度、提供するサービスの種類を確認します。
キーロギング
キーロギングは、送信ボタンをクリックする前にユーザーがWebページに入力したテキストをサードパーティが追跡するプロセスです。この手法は、匿名ユーザーの識別、住所や本名との照合など、さまざまな目的で使用されます。
自動完了機能を提供するなど、キーロギングには他の理由もあります。Blacklightには、ターゲットWebサイトがこの手法を使用している意図を認識する方法がありません。
Blacklightがテストしているもの
サイトがキーロギングされているかどうかをテストするために、Blacklightはすべての入力フィールドに事前定義されたテキスト(付録を参照)を入力しますが、送信ボタンをクリックすることはありません。ネットワーク要求を監視して、入力されたデータがサーバーに渡されているかどうかを確認します。
セッションレコーディング
セッション記録は、送信ボタンを押さなくても、マウスの動き、クリック、ページのスクロール、すべてのフォーム入力など、Webページ上のすべてのユーザーの動作をサードパーティが追跡および記録できるようにするテクノロジーです。
2017年の研究でプリンストン大学の研究者は、セッションレコーダーがパスワードやクレジットカード番号などの重要な情報を収集することを発見しました。研究者が関連会社に連絡したとき、彼らのほとんどは迅速に対応し、データ侵害の原因を排除しました。しかし、この研究は、これらは単なるバグではなく、研究者によると完全に停止されるべきである危険な慣行であることを強調しています。セッション記録機能を提供するほとんどの企業は、データを使用して顧客(テクノロジーをインストールするWebサイト)にWebサイトのユーザーエクスペリエンスを向上させる方法に関する有用な情報を提供していると報告しています。ある会社のInspectletは、そのサービスを「サイト上の個々のユーザーの行動を、私たちが背後にいるかのように追跡する」と説明しています。(Inspectletは、コメントを要求する電子メールに応答しませんでした。)
有名なセッションレコーディングサービスプロバイダーであるInspectletのスクリーンショット。
Blacklightがテスト
するものセッション記録とは、セッション記録サービスを提供することで知られている会社による特別なタイプのスクリプトのロードを意味します。
Blacklightは、特定のURLサブストリングに対するネットワーク要求を監視します。これは、2017年にプリンストン大学の研究者がまとめたリストによると、セッションの記録時にのみ発生します。
キーロギングは、記録セッションの一部として実行される場合があります。このような場合、Blacklightは、両方のテストが同じスクリプトを認識していても、両方の動作が観察されるため、セッション記録をキーロギングとセッション記録の両方として正しく報告します。
Blacklightは、Webサイトがこれらのスクリプトをロードする状況を正確に認識しますが、企業は通常、サイト訪問のサンプルのみを記録するため、すべてのユーザーがログに記録されるわけではなく、すべての訪問が記録されるわけでもありません。
キャンバスへのフィンガープリント
フィンガープリントとは、Cookieを作成せずにブラウザを識別しようとする一連の手法を指します。ユーザーがすべてのCookieをブロックしている場合でも、ユーザーを識別できます。
キャンバスフィンガープリントは、ユーザーのWebページに形状やテキストを描画することでユーザーを識別し、レンダリング方法のわずかな違いに気付くタイプのフィンガープリントです。
Blacklightによって発見されたキャンバスフィンガープリントの4つの例。
フォントレンダリング、アンチエイリアシング、アンチエイリアシング、およびその他の側面におけるこれらの違いは、マーケターやその他の専門家が個々のデバイスを識別するために使用します。 Chromeを除くすべての主要なインターネットブラウザは、そのような慣行で見られるスクリプトのデータクエリを実行しないか、ユーザーの指紋の標準化に努めることによって、キャンバスの指紋を阻止しようとします。
上の画像は、フィンガープリントスクリプトで使用されるキャンバスタイプの例を示しています。これらのキャンバスは通常、ユーザーには表示されません。
ブラックライトがテスト
するものこの記事で説明されている方法に従っていますプリンストン大学の研究者は、HTMLキャンバス要素が追跡に使用されていることを認識しています。次のパラメータを使用して、フィンガープリントによってレンダリングされるキャンバスを識別します。
- キャンバス要素の高さと幅のプロパティは16px以上である必要があります。
- テストは、少なくとも10文字でキャンバスに書き込む必要があります。
- スクリプトは、レンダリングコンテキストのsave、restore、またはaddEventListenerメソッドを呼び出さないでください。
- スクリプトは、toDataURLを使用するか、少なくとも16px × 16pxの領域を指定してgetImageDataを1回呼び出すことで、画像をフェッチします。
これは実際には見たことがありませんが、Blacklightがこれらのヒューリスティックに一致するように賢明なキャンバスの使用法に誤ってラベルを付ける可能性があります。これに対応するために、ツールはスクリプトによってレンダリングされた画像を取得してレンダリングします。ユーザーは画像を見るだけでキャンバスの使い方がわかります。典型的なフィンガープリントスクリプトの結果を上に示します。
広告トラッカー
広告トラッカー(広告トラッカー)は、ユーザーに関する情報を識別して収集するテクノロジーです。このようなテクノロジーは通常(常にではありませんが)、Webサイトの所有者の同意を得てある程度使用されます。これらは、Webサイトのユーザーに関する分析を収集し、広告をターゲティングし、データブローカーやその他のデータコレクターを使用してユーザープロファイルを作成するために使用されます。それらは通常、JavascriptおよびWebビーコンスクリプトの形式を取ります。
Webビーコンは、追跡目的でサードパーティによってWebサイトに投稿された小さな1px x1pxの画像です。この手法を使用すると、サードパーティはユーザーの動作(特定のユーザーがサイトにアクセスしたとき、ブラウザーのタイプ、および使用されたIPアドレス)を判別できます。
Blacklightがテストしているもの
Blacklightは、すべてのネットワーク要求を、追跡されることがわかっているURLおよびURLサブストリングのEasyPrivacyリストと照合します。 Blacklightは、これらのURLおよびサブストリングに対して行われた要求についてネットワークアクティビティを監視します。
Blacklightは、サードパーティのドメインに対して行われた要求のみを記録します。 EasyPrivacyリスト内の独自のURLドメインに一致するURLパターンはすべて無視されます。たとえば、EFFは独自の分析を保存します。そのため、EFFは分析サブドメインhttps://anon-stats.eff.orgにリクエストを送信します。ユーザーがeff.orgと入力した場合、Blacklightはanon-stats.eff.orgへの呼び出しをサードパーティドメインへの要求とは見なしません。
DuckDuckGo Tracker Radarデータセットでこれらのサードパーティドメインを見つけて、それらの所有者、それらの一般性、およびそれらが提供するサービスの種類を確認します。TrackerRadarデータセットのAdMotivatedTrackingカテゴリにあるサードパーティドメインのみをリストします。
ピクセルフェイスブック
Facebook Pixelは、Facebookによって作成されたコードであり、他のWebサイトがFacebook広告を使用して訪問者をターゲットにできるようにします。ピクセルによって追跡される最も一般的なアクションのいくつかは、ページまたは特定のコンテンツの閲覧、請求情報の追加、または購入です。
Blacklightがテストするもの
Blacklightは、Facebookにつながるサイトからのネットワーク要求を探し、Facebookのピクセルドキュメントに記載されているパターンに一致するURLデータ要求パラメーターを調べます。「標準イベント」、「カスタムイベント」、「高度なマッチング」の3つの異なるデータタイプを探しています。
「リマーケティングオーディエンス」GoogleAnalytics
Google Analyticsは、今日最も人気のあるWebサイト分析プラットフォームです。whotracks.meによると、Webトラフィックの41.7%がGoogleAnalyticsによって分析されています。このサービスのほとんどの機能は、Webサイトの開発者とWebサイトの所有者に、サイトのオーディエンスとのやり取りに関する情報を提供することですが、このツールを使用すると、Webサイトでユーザーの行動に基づいてカスタムのオーディエンスリストを作成し、 Google AdsとDisplay&Video 360を使用したWeb。Blacklightは、このツールについて調査しているサイトを調べますが、使用方法は調べません。
Blacklightがテストしているもの
Blacklightは、調査中のサイトから、「stats.g.doubleclick」で始まるURLにアクセスするネットワークリクエストを探します。このURLには、GoogleアカウントIDの前に「UA-」が付いています。これについては、GoogleAnalytics開発者向けドキュメントで詳しく説明されています。
調査
インターネット上での追跡技術の普及を判断するために、Blacklightを使用してTrancoリストで最も人気のある10万のWebサイトをテストしました。データと分析コードはGithubにあります。Blacklightは、これらのURLのうち81,593個のデータを正常にキャプチャしました。それ以外の場合は、解決に失敗したか、数回試行した後にタイムアウトが発生したか、Webページを読み込めませんでした。以下に示すパーセンテージは、81,617件の成功した結果に基づいています。
私たちのレビューで行われた主な発見:
- Webサイトの6%がキャンバスフィンガープリントを使用していました。
- Webサイトの15%は、既知のセッション記録サービスからスクリプトをダウンロードしました。
- Webサイトの4%がキーストロークロギングを実行しました。
- 13%のサイトは、サードパーティのドメインCookieをロードしたりネットワークリクエストを追跡したりしていません。
- サードパーティのドメインCookieの数の中央値は3です。
- ダウンロードされた広告トラッカーの数の中央値は7です。
- サイトの74%にGoogle追跡テクノロジーがロードされています。
- Webサイトの33%にFacebook追跡テクノロジーがロードされています。
- サイトの50%がGoogleAnalyticsリマーケティング機能を使用していました。
- サイトの30%がFacebookピクセルを使用していました。
次のドメインのいずれかに対して行われたネットワークリクエストは、Googleトラッキングテクノロジーとして分類されています。
- google-analytics.com
- Doubleclick.net
- Googletagmanager.com
- Googletagservices
- Googlesyndication.com
- Googleadservices
- 2mdn.net
次のFacebookドメインのいずれかに対して行われたネットワーク要求をFacebook追跡テクノロジとして分類しました。
- facebook.com
- Facebook.net
- atdmt.com
制限事項
Blacklightの分析は、次の4つの主な要因によって制限されます。
- これはユーザーの行動のシミュレーションであり、他の追跡システムの応答をトリガーする可能性のある実際の行動ではありません。
- 監視されているWebサイトは、適切な目的でユーザーのアクションを追跡できます。
- 誤検知(キャンバスのフィンガープリントで発生する可能性があります):HTMLキャンバス要素の合理的な使用が、Blacklightがキャンバスのフィンガープリントを識別するために使用するヒューリスティックと一致することはめったにありません。
- : Javascript- Blacklight window API . , jQuery, jQuery , Blacklight , . , ; , 100 000 .
誤検知の場合、Blacklightがサイトにアクセスすると、そのサイトは、リクエストがAmazonAWSクラウドインフラストラクチャでホストされているコンピューターから送信されていることを確認できます。ボットネットはクラウドインフラストラクチャでよく使用されるため、このツールは、キャンバスのフィンガープリントを含む、サイト上のボット認識ソフトウェアをトリガーできます。これは、テストがユーザーの追跡ではなく、ボットネットの認識に使用されている場合でも、キャンバスフィンガープリントテストの誤検知結果につながる可能性があります。
これをテストするために、AWSでBlacklightを実行したTrancoリストの先頭から1,000サイトのランダムサンプルを取得しました。このサンプルをニューヨークのIPアドレスを使用してローカルコンピューターのBlacklightソフトウェアで実行したところ、オンプレミスのBlacklightスキャンの結果は非常に似ていますが、クラウドインフラストラクチャで実行した結果とまったく同じではないことがわかりました。
サンプル結果:ローカルマシンとAWS
地元 | AWS | |
---|---|---|
キャンバスへのフィンガープリント | 8% | 十% |
セッションレコーディング | 18% | 19% |
キーロギング | 4% | 6% |
サードパーティドメインCookieの数の中央値 | 4 | 五 |
サードパーティトラッカーの数の中央値 | 7 | 8 |
ユーザーに見えないすべての追跡活動が必ずしも悪意があるわけではありません。たとえば、キャンバスフィンガープリントは、デバイスの識別を可能にするため、不正防止に使用されます。また、キーロギングを使用して自動完了機能を実装できます。
Blacklightは、検出した特定の追跡テクノロジーを使用する理由を推測しようとはしません。
また、Blacklightは、セッションを記録し、マウスの動きやキーストロークなどのユーザーの動作を監視するスクリプトをロードすることによって、収集したユーザーデータをWebサイトがどのように使用しているかを正確に判断することもできません。
Blacklightは、ユーザー追跡アクティビティの開示について、Webサイトの利用規約およびプライバシーポリシーを確認しません。
応用
入力フィールドの値次の
表に、Webサイトの入力フィールドに入力するためにBlacklightで記述した値を示します。参考のために、autocomplete属性に関するMozillaの記事を使用しました。Blacklightは、これらの値のbase64、md5、sha256、およびsha512バージョンもチェックします。
自動完了属性 | ブラックライトの意味 |
---|---|
日付 | 2026年1月1日 |
Eメール | blacklight-headless@themarkup.org |
パスワード | SUPERS3CR3T_PASSWORD |
探す | TheMarkup |
テキスト | IdaaaaTarbell |
Url | themarkup.org |
組織 | マークアップ |
組織のタイトル | 非営利ニュースルーム |
現在のパスワード | S3CR3T_CURRENT_PASSWORD |
新しいパスワード | S3CR3T_NEW_PASSWORD |
ユーザー名 | idaaaa_tarbell |
苗字 | ターベル |
名 | Idaaaa |
名前 | IdaaaaTarbell |
住所 | POボックス#1103 |
住所1 | POボックス#1103 |
郵便番号 | 10159 |
CC名 | IDAAAATARBELL |
CC-与えられた名前 | IDAAAA |
CC-家族名 | TARBELL |
CC番号 | 4479846060020724 |
CC-Exp | 01/2026 |
CCタイプ | ビザ |
取引金額 | 13371337 |
謝辞
ドラフト記事に関するコメントと提案をしてくれたGunesAkar(University of Leuven)、Stephen Englehard(Mozilla)、Arvind Narayanan、Jonathan Mayer(Princeton Princeton、CITP)に感謝します。
広告
サイトをホストするサーバーがある叙事詩Vdsinaから。
Intelの非常に高速なNVMeドライブを使用しており、ハードウェアを節約することはありません。ブランド化された機器と市場で最も最新のソリューションのみです。