私のコンテンツには何が含まれていますか?何世紀も前の進化とコンテンツのパーソナライズの基本原則

こんにちは%ユーザー名%!今日は、個人の好みとユーザーのデジタルフィンガープリントの両方に基づいて、コンテンツのパーソナライズの歴史、つまり私たち一人一人に「コンテンツバブル」を形成する原則について説明します。さて、講演は、QIWIのチームリードデータサイエンティストであり、スキルボックスの「プロフェッショナル」‌データ‌‌サイエンティスト‌コースの教師であるリディアクラモワによって行われます。彼女は、この記事が専門家だけでなくすべての人に理解できるように、コンテンツ形成プロセスの最も重要で興味深いニュアンスについて話そうとしました。



すべての楽しみはカットの下にあります!



朝の居眠りで私たちのお気に入りのソーシャルネットワークのフィードをスクロールすると、アルゴリズムがどのように機能するかについてほとんど考えません。それは私たちにとって興味深い情報を提供します。このアルゴリズムや他のアルゴリズムのおかげで、コンテンツはどこでも私たちをフォローしています。運が良ければ(雰囲気のある写真や音楽が入った大きくて居心地の良い毛布のように見えますが、運が悪ければ)それは私たちの後ろに届きます。



物理的な世界が新しい次元、つまり独自のルールと特性を持つコンテンツの次元を持っていることに気づかなかったようです。しかし、私たちはすぐにそれに慣れました。



豊富な情報は、知識と経験の粒を取得してふるいにかける方法を忘れさせてくれます-結局のところ、それは準備ができて分類されており、さまざまな料理のようにすでに私たちの皿にあります。しかし、これらすべてはどこから来ているのでしょうか。最も重要なのは、コンテンツ環境にどのように影響を与えることができるのでしょうか。そして、私たちはできますか?



ランク付けと検索の歴史



一般的な信念に反して、さまざまな有用な目的のために情報を選択してランク付けするためのツールは、かなり古い発明です。今は登場しませんでしたが、今では半分忘れられていたライブラリカタログの時代に。



15世紀に本の印刷機が発明される前は、図書館のカタログは、貴重な本とそのタイトルの単なる目録でした。図書館員と読者に必要な作品のカタログ化と便利な検索の必要性を生じさせたのは、印刷されたコピーの出現でした。

誰が最初のカタログの作成者になったのかを正確に特定するのはかなり困難です。一部の情報源は、その発明をスポンジハイムのアボットであり、図書館員であり、歴史家であり、暗号学の愛好家であるヨハン・トリテミウスに帰していますが、オーストリアの役人であり、ウィーンの帝国図書館の首長であるゴットフリード・ヴァン・スウィーテンについて言及しています。



1780年に最初のカードカタログを作成したのはGottfriedVan Swietenでした。これは、現代の図書館カタログと非常によく似ています。本のタイトル、著者の名前、発行年、簡単な説明が記載されたカードです。カードカタログは、現代の検索エンジンの先駆けとなったと言えます。実際、これは最初のメタ情報、つまり検索とナビゲーションに必要なその他の情報に関する情報でした。もちろん、Van Swietenの控えめなカードは、読者や研究者のすべてのニーズに対応することはできませんでしたが、アメリカの図書館員Melville Deweyの発明のおかげで、1870年にのみ交換されました。



デューイは長い間カタログの効率を改善するために働き、内容による本の分類に基づく全く新しいシステム、いわゆるデシマルシステムになりました。彼女のアイデアは、すべての作品を一般から宗教、言語、地理、歴史までの10のセクションに分割することに基づいていました。次に、各セクションは10個のサブセクションに分割され、以下同様に、コードはセクションとサブセクションの数値インデックスから形成されました。これらは右側に栄光を示しています。たとえば、

500自然科学と数学

510数学

516幾何学

実際、これは最初の国規模のテーマ別ディレクトリであり、必要な情報を簡単に見つけることができます。さらに、トピックのインデックスに数字以外の文字がないため、デューイのシステムは機械処理に最適であり、米国とカナダの図書館でも引き続き有効です。



この発明は、ベルギーの書誌学者であるポール・オトルとアンリ・ラ・フォンテーヌをさらに大胆なアイデアに駆り立てました。紙の本を情報の断片を含む電子カードのシステムに置き換えることで、著者の主観的な意見なしに分類できるようになりました。 1934年、このアイデアはPaul Otletによる本「Monde」に具体化されました。多くの研究者によると、この本はインターネットの作成を予期していました。残念ながら、この本はロシア語で見つけるのが難しいので、英語で1つだけ引用します。

「宇宙のすべて、そして人間のすべては、それが生産されたときに遠くに登録されるでしょう。このようにして、彼の記憶の真の鏡である世界の動画が確立されます。遠くからでも、誰もが個々のスクリーンに映し出された、目的の主題に拡大されて制限されたテキストを読むことができます。このようにして、彼の肘掛け椅子の誰もが、全体として、またはその一部で、創造を考えることができるようになります。 」



は私たちの現実を思い出させますね。



残念ながら、Paul Otletのアイデアは彼の生涯の間に実現せず、World WideWebはずっと後に生まれました。そしてすでに1998年に、SergeyBrinとLarryPageによるインターネットページを評価するためのPageRankアルゴリズムの発明により、無限のWebサーフィンの時代が始まりました。



情報が利用できるようになり、検索は便利で簡単です。そして、新しいストレージとコンピューティング能力の出現により、ビジネスはデータの収集を開始しました。



ビッグデータの両刃の剣



蓄積されたデータの増加は、より良い顧客洞察から完全に新しいデジタル製品まで、新しいビジネスチャンスを約束しました。



各仮説のテストに関するジュエリー作業からの分析は、世界の人々と現象を説明する膨大な量のデータの安定したパターンの検索に変わりました。このアプローチにより、これまで利用できなかったものを確認し、広告から製品提供までのさまざまなプロセスをモデル化および最適化し、さまざまな分野での顧客体験をパーソナライズし、クライアントとビジネスの喜びに合わせて改善することができました。私の意見では、この飛躍は、中世の本の在庫から、各オブジェクトに独自の棚スペースとタグが割り当てられる一貫したカードカタログシステムへの移行に匹敵します。



それにもかかわらず、ビッグデータでの作業はまだすべての万能薬にはなっておらず、これにはいくつかの理由があります。



  • , , , . , – , , , .
  • , . , , , , , .
  • , , . , – , .
  • – , , – , -.


これらの制限にもかかわらず、ますます多くの企業が、顧客体験をパーソナライズして収益を増やすために独自のサービスを展開するためのリソースと機会を見つけています。知識の源から、データは収益化の源になり、時には非常に積極的です。場合によっては、情報の過負荷からいわゆるコンテンツバブルまで、クライアントとビジネスの両方に副作用が発生する可能性もあります。そして、それらについて話す前に、それを理解しましょう-推奨事項の内部に何が隠れているのでしょうか?



個人的な推奨事項の下で



コンテンツ、製品、またはサービスを提供するモデルのほとんどは、5つの単純な概念のいずれかに分類されます。



  1. . , – , , , .
  2. . , / , , .
  3. . , , « – » . , – , .
  4. . , – , . , – , . – , . , , 70- – .
  5. – , .


推奨事項の問題とコンテンツ環境の再読み込み



これらのモデルはすべて(ヒューリスティックでも!)非常にうまく機能しますが、それでも不快な状況につながる可能性があります。



  • 過飽和。不完全なデータでトレーニングされた多くの同様のモデル(結局のところ、すべての企業は1つの知識しか持っていません)は、同じ提案であなたを攻撃します。あなたがコーヒー好きだとしましょう。そして今朝、あなたは最寄りのカフェで素晴らしい香りのカプチーノを提供されました。この提案は、クレマを吸収することへのあなたの熱意と喜びを刺激しました。しかし、それから別のプッシュがコーヒーのヒント、別のバナーでノックするようになります-そして今それらの15があります。一日に何杯のコーヒーを飲むことができますか?
  • – , , / , . , – .
  • – -, .
  • – , , 9 , . , , .
  • – , , , - . , .


このような状況は、クライアントだけでなくビジネスにとっても非常に望ましくありません。アドバタイズされたサービスとの対話を継続したり、1つまたは別の製品やアプリケーションを使用したりする欲求を大幅に減らす可能性があるためです。



それらの重要な部分は、推奨システム内で修正できます。たとえば、関係のない時間や煩わしい推奨は、十分に開発された通信ポリシーとスケジュールによって排除されます。



代替の提案を表示する推奨システムに競合するアルゴリズムを追加したり、まったく新しいものを提供し、興味がある場合は推奨の境界を拡大したりするランダム性の追加要素を追加すると、コンテンツバブルでさえ単調さが少なくなる可能性があります(図1を参照)。





図: 1ランダムに追加された競合モデル。



それにもかかわらず、不完全な推奨の結果のいくつかは私たち自身によって扱われなければならないでしょう。楽しいコンテンツ環境のために戦うのに役立つ方法は何ですか?



コンテンツ環境



改善する方法関連性があり関連性のあるコンテンツへの道を見つけるには、周囲のアルゴリズムを試して、それらが最もよく反応するものを見つけてください。しかしその前に、私はあなたを最も厄介な推奨から救ういくつかの簡単なデータ科学衛生規則を採用することを提案します。



  • – , , , . – , – , email.
  • – , .
  • – « », , - .
  • 購入の支払いには注意してください。家族全員に別々の支払い手段を用意するのが最善であり、場合によっては別々の目的に使用することもあります。
  • パブリックネットワークが多い場所では、定期的にWi-Fiをオフにしてください。


それ以外の場合は、アクティブ検索をより頻繁に使用して、新しいことを試してください。最も優れた推奨モデルは、レトロデータ(長期間のアクティビティに関するデータ)だけでなく、現在のアクションに関するデータも使用するため、優先度が高くなります。新しいリクエストを少し試してみると、現在の気分に合わせてコンテンツの一部を取得できます。



そして、これが十分ではないと思われる場合は、データセンティストの細いランクに参加して、非常に理想的な推奨システムを作成し、内部からすべての微妙な点を学びます。好奇心旺盛な人間の心がなければ、機械学習は欠かせません!

このトピックにおいて:







  1. www.history.ox.ac.uk/british-medieval-library-catalogues
  2. Fred Lerner, “The story of libraries, from invention of writing to the computer age”, continuum, 2006
  3. en.wikipedia.org/wiki/Gottfried_van_Swieten#As_librarian
  4. en.wikipedia.org/wiki/Dewey_Decimal_Classification
  5. Milena Tsvetkova. – – : . Scientific Enquiry in the Contemporary World: Theoretical basis and innovative approach, 2016, San Francisco, United States. pp.115-128
  6. boxesandarrows.com/forgotten-forefather-paul-otlet
  7. www.mondotheque.be/wiki/images/e/e2/Heuvel_Rayward_Facing_Interfaces.pdf
  8. Sergey Brin, Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. — 1998.
  9. googleblog.blogspot.com/2009/12/personalized-search-for-everyone.html



All Articles