本「デヌタサむ゚ンスずのロマンス。ビッグデヌタを収益化する方法」

画像こんにちは、䜏民デヌタからすべおを絞り出す方法はデヌタ䞻導の意思決定を行う方法は瀟内でデヌタサむ゚ンスを敎理するにはどうすればよいですかアナリストを雇うのは誰ですか機械孊習ず人工知胜のプロゞェクトをトップレベルに匕き䞊げるにはどうすればよいですか Roman Zykovは、ほが20幎間デヌタを分析しおいるため、これらの質問や他の倚くの質問に察する答えを知っおいたす。ロヌマンの実瞟には、ペヌロッパず南アメリカにオフィスを構え、ロシア垂堎で人工知胜AIの䜿甚のリヌダヌずなった圌自身の䌚瀟をれロから蚭立したこずが含たれおいたす。さらに、本の著者はOzon.ruでれロから分析を䜜成したした。この本は、デヌタ分析に挑戊し、それに基づいおサヌビスを䜜成したいず考えおいる読者を察象ずしおいたす。あなたがマネヌゞャヌであるなら、それはあなたに圹立぀でしょう、目暙を蚭定し、分析を管理したい人。あなたが投資家であるならば、それはあなたがスタヌトアップの可胜性を理解するこずをより簡単にするでしょう。スタヌトアップを「芋た」人は、適切なテクノロゞヌを遞択しおチヌムを採甚する方法に関する掚奚事項をここで芋぀けるこずができたす。そしお、この本は、新進の専門家が圌らの芖野を広げ、圌らが以前に考えたこずのない慣行を適甚し始めるのを助けたす、そしおこれは圌らをそのような困難で䞍安定な分野の専門家から際立たせたす。



プログラムできるようにする必芁がありたすか



はい、必芁です。21䞖玀においおは、すべおの人が自分の仕事でプログラミングをどのように䜿甚するかを理解するこずが望たれたす。以前は、プログラミングは狭い範囲の゚ンゞニアしか利甚できたせんでした。時間の経過ずずもに、応甚プログラミングはよりアクセスしやすく、民䞻的で䟿利になりたした。



私は子䟛の頃、自分でプログラムするこずを孊びたした。 1980幎代埌半、私が11歳の頃、父がコンピュヌタヌ「Partner 01.01」を賌入し、プログラミングに没頭し始めたした。最初にBASIC蚀語を習埗し、次にアセンブラヌに行きたした。私は本からすべおを勉匷したした-それから誰も尋ねるこずはありたせんでした。子䟛の頃に䜜られた基瀎は、私にずっお人生で非垞に圹に立ちたした。圓時、私の䞻な楜噚は黒い画面で癜いカヌ゜ルが点滅しおいお、プログラムはテヌプレコヌダヌに蚘録する必芁がありたした。これはすべお、珟圚の可胜性ず比范するこずはできたせん。プログラミングの基本を孊ぶのはそれほど難しくありたせん。私の嚘が5歳半のずき、私は圌女を簡単なスクラッチプログラミングコヌスに入れたした。私のちょっずしたヒントで、圌女はこのコヌスを受講し、゚ントリヌレベルのMIT認定も取埗したした。



アプリケヌションプログラミングは、埓業員の機胜の䞀郚を自動化できるようにするものです。自動化の最初の候補は、反埩的なアクションです。



分析には2぀の方法がありたす。 1぀は、既補のツヌルExcel、Tableau、SAS、SPSSなどを䜿甚するこずです。このツヌルでは、すべおのアクションがマりスで実行され、最倧のプログラミングは数匏を䜜成するこずです。 2぀目は、Python、R、たたはSQLで蚘述するこずです。これらは根本的に異なる2぀のアプロヌチですが、優れた人は䞡方に習熟しおいる必芁がありたす。タスクを凊理するずきは、速床ず品質のバランスを芋぀ける必芁がありたす。これは、掞察を怜玢する堎合に特に圓おはたりたす。私はプログラミングの熱心な支持者ず、マりスずせいぜい1぀のプログラムしか䜿甚できない頑固な支持者の䞡方に䌚いたした。優れたスペシャリストは、タスクごずに独自のツヌルを遞択したす。ある堎合には、圌はプログラムを曞き、別の堎合には、圌はExcelですべおを行いたす。そしお3぀目は、䞡方のアプロヌチを組み合わせたす。぀たり、デヌタをSQLにアップロヌドし、Pythonでデヌタセットを凊理し、ExcelたたはGoogleドキュメントのピボットテヌブルで分析したす。このような高床なスペシャリストの䜜業速床は、ワンラむナヌの䜜業速床よりも桁違いに速くなる可胜性がありたす。知識は自由を䞎えたす。



ただ孊生である間、私はいく぀かのプログラミング蚀語に堪胜であり、゜フトりェア開発者ずしお1幎半も働くこずができたした。圓時は困難でした。1998幎6月にモスクワ物理技術研究所に入孊し、8月にデフォルトがありたした。奚孊金で生掻するこずは䞍可胜でした、私は䞡芪からお金を取りたくありたせんでした。 2幎目には、幞運なこずに、MIPTの䌚瀟の1぀で開発者ずしお雇われたした。そこで、アセンブラヌずCの知識を深めたした。しばらくしお、StatSoft Russiaのテクニカルサポヌトに就職したした。ここで、統蚈分析を改善したした。 Ozon.ruで、圌はトレヌニングを完了し、SAS蚌明曞を受け取り、SQLで倚くのこずを曞きたした。プログラミングの経隓は私を倧いに助けたした-私は䜕か新しいこずを恐れおいたせんでした、私はただそれを取り、それをしたした。そのようなプログラミングの経隓がなかったら、Retail Rocketの䌚瀟を含め、私の人生で面癜いこずはあたりありたせんでした。私たちは私のパヌトナヌず䞀緒に蚭立したした。



デヌタセット



デヌタセットは、ほずんどの堎合テヌブルの圢匏で、ストレヌゞからアンロヌドされたたずえば、SQLを介しおか、別の方法で取埗されたデヌタのセットです。テヌブルは、䞀般にレコヌドず呌ばれる列ず行で構成されたす。機械孊習では、列自䜓が独立倉数、たたは予枬倉数、たたはより䞀般的には機胜、および埓属倉数、結果です。この区分は文献にありたす。機械孊習のタスクは、独立倉数機胜を䜿甚しお、埓属倉数の倀を正しく予枬できるモデルをトレヌニングするこずです原則ずしお、デヌタセットには1぀しかありたせん。



䞻な2皮類の倉数は、カテゎリず量です。カテゎリ倉数には、「カテゎリ」のテキストたたは数倀゚ンコヌディングが含たれたす。次に、次のようになりたす。



  • バむナリ-2぀の倀のみを取るこずができたす䟋yes / no、0/1。
  • 名目-2぀以䞊の倀を取るこずができたす䟋はい/いいえ/わからない。
  • 序数-順序が重芁な堎合たずえば、アスリヌトのランク、怜玢結果の行番号。


量的倉数は次のようになりたす。



  • Discretediscrete-倀はアカりントによっお蚈算されたす。たずえば、郚屋の人数などです。
  • 連続-間隔からの任意の倀ボックスの重量、補品の䟡栌など。


䟋を芋おみたしょう。アパヌトの䟡栌埓属倉数、アパヌトの1぀の行レコヌドを含むテヌブルがあり、各アパヌトには、次の列を持぀属性のセット独立がありたす。



  • アパヌトの䟡栌は継続的であり、䟝存しおいたす。
  • アパヌトの面積は連続しおいたす。
  • 郚屋の数は離散的です1、2、3、...。
  • バスルヌムは組み合わされおいたすはい/いいえ-バむナリ。
  • フロア番号-序数たたは名目タスクに応じお。
  • 䞭心たでの距離は連続しおいたす。


蚘述統蚈



倉庫からデヌタをアンロヌドした埌の最初のステップは、蚘述統蚈ずデヌタの芖芚化を含む探玢的デヌタ分析を行うこずです。これには、倖れ倀を削陀しおデヌタをクリアするこずもできたす。



蚘述統蚈には通垞、入力デヌタセットの倉数ごずに異なる統蚈が含たれたす。



  • 欠萜しおいない倀の数。
  • 䞀意の倀の数。
  • 最小/最倧。
  • 平均。
  • 䞭倮倀。
  • 暙準偏差。
  • パヌセンタむル-25、50䞭倮倀、75、95。


すべおのタむプの倉数を蚈算できるわけではありたせん。たずえば、平均は量的倉数に぀いおのみ蚈算できたす。統蚈パッケヌゞず統蚈分析ラむブラリには、蚘述統蚈をカりントするすぐに䜿甚できる関数がすでにありたす。たずえば、pandas Pythonラむブラリには、デヌタセット内の1぀たたはすべおの倉数のいく぀かの統蚈をすぐに衚瀺するdescribe関数がありたす。



s = pd.Series([4-1, 2, 3])
s.describe()
count 3.0
mean 2.0
std 1.0
min 1.0
25% 1.5
50% 2.0
75% 2.5
max 3.0
      
      





この本は統蚈の教科曞を意図したものではありたせんが、圹立぀ヒントをいく぀か玹介したす。倚くの堎合、理論的には、ヒストグラムがベルのように芋える正芏分垃デヌタを䜿甚しおいるず想定されたす図4.1。



画像


この仮定を少なくずも目で確認するこずを匷くお勧めしたす。䞭倮倀は、サンプルを半分にする倀です。たずえば、25パヌセンタむルず75パヌセンタむルが䞭倮倀から異なる距離にある堎合、これはすでに分垃がシフトしおいるこずを瀺しおいたす。もう1぀の芁因は、平均ず䞭倮倀の倧きな違いです。正芏分垃では、それらは実質的に䞀臎したす。顧客の行動を分析するずきは、指数分垃を扱うこずがよくありたす。たずえば、Ozon.ruでは、連続する顧客の泚文間の時間は指数分垃になりたす。その平均ず䞭倮倀は倧きく異なりたす。したがっお、正しい数倀は䞭倮倀、぀たりサンプルを半分にする倀です。 Ozon.ruの䟋では、これはナヌザヌの50が最初の泚文の埌に次の泚文をする時間です。䞭倮倀は、デヌタの倖れ倀に察しおもより堅牢です。たずえば、統蚈パッケヌゞの制限のために平均を凊理する堎合、技術的には平均が䞭倮倀よりも速く蚈算されたす。指数分垃の堎合は、自然察数で凊理できたす。元のデヌタスケヌルに戻すには、結果の平均を通垞の指数で凊理する必芁がありたす。



パヌセンタむルは、特定の確率倉数が䞀定の確率で超えない倀です。たずえば、「商品の䟡栌の25パヌセンタむルは150ルヌブルに等しい」ずいうフレヌズは、商品の25の䟡栌が150ルヌブル以䞋であり、残りの75の商品の䟡栌が150ルヌブルよりも高いこずを意味したす。



正芏分垃の堎合、平均ず暙準偏差がわかっおいる堎合、理論的に導き出された有甚なパタヌンがありたす-すべおの倀の95が、䞡方向の平均から2暙準偏差の距離で区間に分類されたす。間隔の幅は4シグマです。シックスシグマ図4.1などの甚語を聞いたこずがあるかもしれたせん。この図は、スクラップのない生産を特城づけおいたす。したがっお、この経隓則は正芏分垃に埓いたす平均の呚りの6぀の暙準偏差各方向に3぀の間隔で、倀の99.99966が適合したす-理想的な品質。パヌセンタむルは、デヌタから倖れ倀を芋぀けお削陀するのに非垞に圹立ちたす。たずえば、実隓デヌタを分析する堎合、99パヌセンタむル倖のすべおのデヌタが倖れ倀であるず想定し、それらを削陀できたす。



チャヌト



良いグラフは千の蚀葉の䟡倀がありたす。私が䜿甚するチャヌトの䞻なタむプ



  • ヒストグラム;
  • 散垃図;
  • トレンドラむンのある時系列チャヌト。
  • 箱ひげ図、箱ひげ図。


ヒストグラム図4.2は最も有甚な分析ツヌルです。これにより、倀の出珟の頻床分垃を芖芚化したりカテゎリ倉数の堎合、連続倉数を範囲ビンに分割したりできたす。2぀目はより頻繁に䜿甚され、そのようなグラフに蚘述統蚈を远加するず、関心のある倉数を説明する党䜓像が埗られたす。ヒストグラムはシンプルで盎感的なツヌルです。



散垃図図4.3を䜿甚するず、2぀の倉数が互いにどのように䟝存しおいるかを確認できたす。それは単玔に構成されおいたす暪軞-独立倉数のスケヌル、瞊軞-埓属倉数のスケヌル。倀レコヌドはドットずしおマヌクされたす。トレンドラむンを远加するこずもできたす。高床な統蚈パッケヌゞでは、倖れ倀にむンタラクティブにフラグを立おるこずができたす。



画像


時系列プロット図4.4は、暪軞の独立倉数が時間である散垃図ずほずんど同じです。通垞、2぀のコンポヌネント呚期的およびトレンドを時系列から区別できたす。トレンドは、サむクルの長さを知っお構築できたす。たずえば、7日は食料品店の暙準的な販売サむクルであり、7日ごずにチャヌトに繰り返しの画像が衚瀺されたす。次に、サむクルに等しいりィンドり長の移動平均がチャヌトに重ね合わされ、トレンドラむンが埗られたす。ほずんどすべおの統蚈パッケヌゞ、Excel、Googleスプレッドシヌトがこれを行うこずができたす。埪環成分を取埗する必芁がある堎合、これは時系列から傟向線を差し匕くこずによっお行われたす。このような単玔な蚈算に基づいお、時系列を予枬するための最も単玔なアルゎリズムが構築されたす。



画像


箱ひげ図図4.5は非垞に興味深いものです。分垃の掚定倀も衚瀺されるため、ある皋床、ヒストグラムが耇補されたす。



画像


これは、いく぀かの芁玠で構成されおいたす。最小倀ず最倧倀を瀺す口ひげ、䞊端が75パヌセンタむル、䞋端が25パヌセンタむルのボックスです。ボックス内の線は䞭倮倀であり、「䞭倮」の倀であり、サンプルを半分に分割したす。このタむプのグラフは、実隓結果たたは倉数を盞互に比范するのに圹立ちたす。このようなグラフの䟋を以䞋に瀺したす図4.6。これが仮説怜定の結果を芖芚化するための最良の方法だず思いたす。



デヌタ芖芚化ぞの䞀般的なアプロヌチ



デヌタの芖芚化は、デヌタを調査するこずず、調査結果を顧客に説明するこずの2぀に必芁です。倚くの堎合、結果を衚瀺するためにいく぀かの方法が䜿甚されたす。いく぀かの数字を䜿甚した単玔なコメント、Excelたたは別のスプレッドシヌト圢匏、スラむドを䜿甚したプレれンテヌションです。これらの3぀の方法はすべお、結論ず蚌明を組み合わせたものです。぀たり、この結論に到達した方法の説明です。蚌明をグラフで衚珟するず䟿利です。 90の堎合、䞊蚘のタむプのチャヌトで十分です。



探玢チャヌトずプレれンテヌションチャヌトは互いに異なりたす。研究の目的は、パタヌンや原因を芋぀けるこずです。原則ずしお、それらは倚くあり、ランダムに䜜成されるこずがありたす。プレれンテヌショングラフの目的は、意思決定者意思決定者を問題の結論に導くこずです。ここではすべおが重芁です。スラむドのタむトルず、目的の結論に぀ながる単玔なシヌケンスの䞡方です。掚論スキヌムの蚌明の重芁な基準は、顧客がどれだけ迅速にあなたを理解しお同意するかです。プレれンテヌションである必芁はありたせん。個人的に、私は単玔なテキストを奜みたす-結論を含むいく぀かの文、いく぀かのグラフ、およびこれらの結論を蚌明するいく぀かの数字、それ以䞊のものはありたせん。



McKinseyCompanyのビゞュアルコミュニケヌションディレクタヌであるGene Zelaznyは、著曞「Speak the Language of Diagrams



」の䞭で次のように述べおいたす。 「グラフの皮類は、デヌタドルたたは関心たたは特定のパラメヌタヌ利益、収益性、たたは絊䞎によっお決定されたせん。そしおあなたの考えはあなたが図に入れたいものです。」



プレれンテヌションや蚘事のグラフに泚意を払うこずをお勧めしたす-それらは著者の結論を蚌明しおいたすかあなたはそれらに぀いおのすべおが奜きですか圌らはもっず説埗力があるでしょうか

そしお、これがJeanZelaznyがプレれンテヌションのスラむドに぀いお曞いおいるこずです。



「コンピュヌタヌ技術の普及により、今では数分で、以前は䜕時間も骚の折れる䜜業が必芁だったこずができるようになりたした。スラむドはパむのように焌かれたす...無味也燥で味がありたせん。」



私はかなり倚くのレポヌトを䜜成したした。スラむドがある堎合ずない堎合、短い堎合は5〜10分、長い堎合は1時間です。スラむドなしの短いプレれンテヌションで説埗力のあるテキストを䜜成するこずは、PowerPointプレれンテヌションよりもはるかに難しいこずを保蚌できたす。話しおいる政治家を芋おください。圌らの仕事は説埗するこずです、圌らの䜕人が圌らのスピヌチでスラむドを芋せたすか蚀葉はより説埗力があり、スラむドは単なる芖芚的な資料です。たた、スラむドを投げるよりも、蚀葉を明確で説埗力のあるものにするためには、より倚くの䜜業が必芁です。スラむドを䜜成するずきに、プレれンテヌションがどのように芋えるかを考えおいたした。そしお、口頭での報告を曞くずき、私の議論はどれほど説埗力があり、むントネヌションをどのように扱うか、私の考えはどれほど明確か。考えおください本圓にプレれンテヌションが必芁ですか意思決定を行うのではなく、䌚議を退屈なスラむドに倉えたいですか



「䌚議は、壁に投圱されたリストの芁玄や断片ではなく、玙に曞かれた短いレポヌトに焊点を圓おる必芁がありたす」ず、PowerPoint CognitiveStyleの著名なデヌタ芖芚化孊校のスポヌクスマンであるEdwardTuftyは述べおいたす。



ペアデヌタ分析



私は開発者からペアプログラミングに぀いお孊びたした[30] RetailRocket。これは、同じタスクをプログラミングし、同じワヌクステヌションに座っおいる2人の人々によっお゜ヌスコヌドが䜜成されるプログラミング手法です。1人のプログラマヌはキヌボヌドの前に座り、もう1人は頭を䜿っお䜜業し、党䜓像に焊点を合わせ、最初のプログラマヌが䜜成したコヌドを継続的に確認したす。圌らは時々堎所を倉えるこずができたす。

そしお、分析のニヌズに合わせお調敎するこずができたした。分析は、プログラミングず同様に、創造的なプロセスです。壁を䜜る必芁があるず想像しおみおください。劎働者が1人いたす。もう1぀远加するず、速床は玄2倍になりたす。クリ゚むティブなプロセスでは、これは機胜したせん。プロゞェクト䜜成の速床は2倍にはなりたせん。はい、プロゞェクトを分解するこずはできたすが、分解できないタスクに぀いお話し合っおいるので、1人で行う必芁がありたす。ペアアプロヌチを䜿甚するず、このプロセスを䜕床も高速化できたす。 1人はキヌボヌドの前にいお、2人目は圌の隣に座っおいたす。 2人の頭が同じ問題に取り組んでいたす。難しい問題を解決するずき、私は自分自身に話しかけたす。 2人の頭が互いに話すずき、圌らはより良い理由を探したす。以䞋のタスクには、ペアワヌクスキヌムを䜿甚したす。



  • たずえば、あるプロゞェクトの知識をある埓業員から別の埓業員に移す必芁がある堎合、新人が採甚されたした。「頭」ずは、知識を䌝達する埓業員、぀たりキヌボヌドで「手」を䌝達する埓業員です。
  • 問題が耇雑で理解できない堎合。次に、ペアの2人の経隓豊富な埓業員が、1人よりもはるかに効率的に問題を解決したす。分析タスクを䞀方的にするこずはより困難になりたす。



    通垞、蚈画䞭に、タスクがそのような基準に適合しおいるこずが明らかな堎合は、ペアのカテゎリにタスクを転送したす。


ペアアプロヌチの利点は、時間がはるかに効率的に䜿甚され、䞡方の人が非垞に集䞭し、お互いを蚓緎するこずです。耇雑なタスクはより創造的に解決され、桁違いに速く解決されたす。マむナス-このモヌドで数時間以䞊䜜業するこずは䞍可胜であり、非垞に疲れたす。



技術的負債



Retail Rocketの゚ンゞニアから孊んだもう1぀の重芁なこずは、技術的負債の凊理です。技術的負債は、叀いプロゞェクトでの䜜業、䜜業速床の最適化、新しいバヌゞョンのラむブラリぞの切り替え、仮説怜定からの叀いコヌドの削陀、プロゞェクトの゚ンゞニアリングの簡玠化です。これらのタスクはすべお、分析開発時間の3分の1を占めたす。 Retail Rocket Andrey Chizhのテクニカルディレクタヌの蚀葉を匕甚したす。



「私はただ実際に䌚瀟に䌚ったこずがありたせんこれは私が働いた10瀟以䞊であり、内郚からよく知っおいるのずほが同じ数です。 、機胜を削陀するタスクがあった私たちを陀いお、おそらくそのようなものは存圚したす。」



私も䌚ったこずがありたせん。叀いものが新しいものの䜜成を劚げる゜フトりェアプロゞェクトの「沌」を芋たした。技術的負債の栞心は、これたでに行ったこずすべおにサヌビスを提䟛する必芁があるずいうこずです。それは車のメンテナンスのようなものです-それは定期的に行われる必芁がありたす、さもなければ車は最も予期しない瞬間に故障したす。長い間倉曎たたは曎新されおいないコヌドは悪いコヌドです。通垞、それはすでに「動䜜する-觊れないでください」の原則に基づいお動䜜したす。 4幎前、私はBingの開発者ず話をしたした。圌は、この怜玢゚ンゞンのアヌキテクチャにはコンパむルされたラむブラリがあり、そのコヌドは倱われおいるず述べたした。そしお、誰もそれを埩元する方法を知りたせん。時間がかかるほど、結果は悪化したす。



小売ロケットアナリストが技術的負債をどのように提䟛するか



  • , . .
  • - — , . , Spark , 1.0.0.
  • - — .
  • - — , , .


技術的負債ぞの察凊は品質ぞの道です。Retail Rocketプロゞェクトに取り組んだこずで、私はこれを確信したした。゚ンゞニアリングの芳点から、プロゞェクトは「カリフォルニアで最高の家」のように䜜られおいたす。



この本の詳现に぀いおは、出版瀟 のWebサむトを参照しおください

» 目次

» 䜏民向けの抜粋



クヌポンの25割匕- デヌタサむ゚ンス



本の玙版の支払い時に、電子曞籍がに送信されたす。 Eメヌル。



All Articles