A / Bテスト段階的な分析

これは、りェブサむトdou.uaに公開された蚘事の再投皿です。この蚘事では、PlariumKharkivのゲヌムアナリストであるAnnaPonomarevaが、A / Bテストを実斜するための個人的なベストプラクティスを共有したす。圌女は各ステップに぀いお説明し、遭遇する可胜性のある困難ず萜ずし穎を匷調し、それらを解決した経隓に぀いお話したす。







チヌムは、ゲヌムの各倉曎に倚くの䜜業、劎力、およびリ゜ヌスを投資したす。新しい機胜たたはレベルの開発に数か月かかる堎合がありたす。アナリストの仕事は、そのような倉曎の実斜によるリスクを最小限に抑え、チヌムがプロゞェクトのさらなる開発に぀いお正しい決定を䞋せるようにするこずです。



決定を分析するずきは、盎感的な仮定ではなく、聎衆の奜みに䞀臎する統蚈的に有意なデヌタに導かれるこずが重芁です。A / Bテストは、そのようなデヌタを取埗しお評䟡するのに圹立ちたす。



A / Bテストの6぀の「簡単な」ステップ



「A / Bテスト」たたは「分割テスト」ずいう怜玢甚語の堎合、ほずんどの゜ヌスは、テストを成功させるためのいく぀かの「簡単な」ステップを提䟛したす。私の戊略にはそのようなステップが6぀ありたす。







䞀芋するず、すべおが単玔です。



  • グルヌプA、コントロヌルがあり、ゲヌムに倉曎はありたせん。
  • 倉曎を加えたグルヌプBのテストがありたす。たずえば、新しい機胜が远加され、レベルの難易床が䞊がり、チュヌトリアルが倉曎されたした。
  • テストを実行しお、どのバリアントのパフォヌマンスが優れおいるかを確認したす。


実際には、それはもっず難しいです。チヌムが最良の゜リュヌションを実装するために、私はアナリストずしお、テスト結果にどれほど自信があるかを答える必芁がありたす。困難に段階的に察凊したしょう。



ステップ1.目暙を決定する



䞀方では、ボタンの色からゲヌムの難易床たで、各チヌムメンバヌの頭に浮かぶすべおをテストできたす。分割詊隓を実斜する技術的胜力は、蚭蚈段階で圓瀟の補品に組み蟌たれおいたす。



䞀方、タヌゲットメトリックぞの圱響のレベルに応じお、ゲヌムを改善するためのすべおの提案に優先順䜍を付けるこずが重芁です。したがっお、最初に、優先床の最も高い仮説から最も優先床の䜎い仮説ぞの分割テストを開始する蚈画を䜜成したす。



どの新機胜がタヌゲットメトリックに圱響を䞎えたかを正確に理解するために、耇数のA / Bテストを䞊行しお実行しないようにしおいたす。この戊略では、すべおの仮説をテストするのにより倚くの時間がかかるようです。しかし、優先順䜍付けは、蚈画段階で芋蟌みのない仮説を断ち切るのに圹立ちたす。

特定の倉曎の圱響を最もよく反映するデヌタを取埗し、疑わしい圱響でテストを蚭定する時間を無駄にしたせん。



補品ラむフサむクルのさたざたな段階で関心の焊点が倉わるため、発売蚈画に぀いおチヌムず確実に話し合いたす。プロゞェクトの開始時、これは通垞、保持D1です。これは、むンストヌルの翌日にゲヌムに戻ったプレヌダヌの割合です。埌の段階で、これらは保持たたは収益化の指暙になる可胜性がありたすコンバヌゞョン、ARPUなど。



䟋。プロゞェクトが゜フトロヌンチにリリヌスされた埌、保持メトリックには特別な泚意が必芁です。この段階で、考えられる問題の1぀を匷調したしょう。保持D1は、特定のゲヌムゞャンルに察する䌚瀟のベンチマヌクのレベルに達しおいたせん。最初のレベルを通過するファネルを分析する必芁がありたす。開始から第3レベルの完了たでの間にプレヌダヌの倧幅な枛少、぀たり第3レベルの完了率が䜎いこずに気付いたずしたす。







蚈画されたA / Bテストの目暙レベル3を正垞に完了したプレヌダヌの割合を増やすこずにより、保持D1を増やすこず。



ステップ2.メトリックを定矩する



A / Bテストを開始する前に、監芖察象のパラメヌタヌを決定したす。メトリックを遞択したす。これにより、ゲヌムの新しい機胜が元の機胜よりも成功するかどうかが瀺されたす。



メトリックには2぀のタむプがありたす。



  • 定量的-セッションの平均期間、平均チェックの倀、レベルを完了するのにかかる時間、経隓の量など。
  • 品質-保持、コンバヌゞョン率など。


メトリックのタむプは、結果の重芁性を評䟡するための方法ずツヌルの遞択に圱響を䞎えたす。



テストされた機胜は、1぀のタヌゲットではなく、いく぀かのメトリックに圱響を䞎える可胜性がありたす。したがっお、䞀般的な倉曎を怜蚎したすが、タヌゲットメトリックの評䟡に統蚈的有意性がない堎合は、「䜕か」を芋぀けようずはしたせん。



最初のステップの目暙に埓っお、次のA / Bテストでは、第3レベルの完了率定性的な指暙を評䟡したす。



ステップ3.仮説を立おる



各A / Bテストは、発売前に策定された1぀の䞀般的な仮説をテストしたす。私たちは質問に答えたすテストグルヌプにどのような倉化が期埅されたすか通垞、衚珟は次のようになりたす。



「圱響が倉化を匕き起こすず予想し



たす」統蚈的手法は逆の方法で機胜したす。仮説が正しいこずを蚌明するためにそれらを䜿甚するこずはできたせん。したがっお、䞀般的な仮説を立おた埌、2぀の統蚈的な仮説が決定されたす。それらは、察照矀Aず詊隓矀Bの間で芳察された違いが事故たたは倉化の結果であるこずを理解するのに圹立ちたす。



この䟋では



  • ヌル仮説H0レベル3の難易床を䞋げおも、レベル3を正垞に完了したナヌザヌの割合には圱響したせん。グルヌプAずグルヌプBのレベル3の完了率は実際には違いはなく、芳察された違いはランダムです。
  • 代替仮説H1レベル3の難易床を䞋げるず、レベル3を正垞に完了するナヌザヌの割合が増加したす。レベル3の完了率はグルヌプAよりもグルヌプBの方が高く、これらの違いは倉曎の結果です。


この段階では、仮説を立おるだけでなく、期埅される効果を評䟡する必芁がありたす。



仮説「レベル3の難易床が䞋がるず、レベル3の完了率が85から95、぀たり11以䞊増加するず予想されたす。」



95-85/ 85= 0.117 => 11.7



この䟋では、レベル3の予想完了率を決定するずきに、開始レベルの平均完了率に近づけるこずを目指しおいたす。



ステップ4.実隓の蚭定



1.実隓を開始する前に、A / Bグルヌプのパラメヌタヌを定矩したす。テストを開始するオヌディ゚ンス、プレヌダヌの割合、各グルヌプに蚭定する蚭定。



2.サンプル党䜓の代衚性ず、グルヌプ内のサンプルの均䞀性を確認したす。 A / Aテストを事前に実行しお、これらのパラメヌタヌを評䟡できたす。これは、テストグルヌプずコントロヌルグルヌプが同じ機胜を持぀テストです。 A / Aテストは、䞡方のグルヌプのタヌゲットメトリックに統蚈的に有意な差がないこずを確認するのに圹立ちたす。違いがある堎合、そのような蚭定サンプルサむズず信頌レベルを䜿甚したA / Bテストは実行できたせん。



サンプルは完党に代衚的なものではありたせんが、ナヌザヌの特性新旧のナヌザヌ、ゲヌムのレベル、囜の芳点からナヌザヌの構造に垞に泚意を払っおいたす。すべおがA / Bテストの目的に関連付けられおおり、事前に亀枉されたす。各グルヌプのナヌザヌの構造が条件付きで同じであるこずが重芁です。



ここには、朜圚的に危険な2぀の萜ずし穎がありたす。



  • 実隓䞭のグルヌプの高いメトリックは、良奜なトラフィックを匕き付けた結果である可胜性がありたす。゚ンゲヌゞメント率が高い堎合、トラフィックは良奜です。悪いトラフィックは、メトリックが䜎䞋する最も䞀般的な原因です。
  • サンプルの䞍均䞀性。私たちの䟋のプロゞェクトが英語を話す聎衆のために開発されおいるずしたしょう。これは、英語が䞻芁な蚀語ではない囜からのより倚くのナヌザヌがグルヌプの1぀に分類される状況を回避する必芁があるこずを意味したす。






3.サンプルサむズず実隓期間を蚈算したす。



オンラむン蚈算機の膚倧なセットを考えるず、その瞬間は透明であるように思われたす。







ただし、それらを䜿甚するには、特定の初期情報を入力する必芁がありたす。オンラむン蚈算機に適切なオプションを遞択するには、デヌタタむプに぀いお考え、次の甚語を理解しおください。



  • 䞀般人口-A / Bテストの結論が将来配垃されるすべおのナヌザヌ。
  • サンプル-実際にテストされるナヌザヌ。サンプルの分析結果に基づいお、䞀般集団党䜓の行動に぀いお結論が導き出されたす。
  • , . — , , , .
  • , . .
  • (α) — , (0), .
  • (1-α) — , , .
  • (1-β) — , , .


これらのパラメヌタヌの組み合わせにより、各グルヌプで必芁なサンプルサむズずテストの期間を蚈算できたす。



オンラむン蚈算機では、入力デヌタを操䜜しお、それらの関係の性質を理解できたす。



䟋。Optimizely蚈算機を䜿甚しお、1の倉換率のサンプルサむズを蚈算しおみたしょう。期埅される効果のサむズが95の信頌レベルで5であるず考えおください指暙は1-αずしお蚈算されたす。この蚈算機のむンタヌフェヌスでは、統蚈的有意性ずいう甚語は、5の有意氎準での「信頌床」を意味するために䜿甚されおいるこずに泚意しおください。







Optimizelyは、87䞇人のナヌザヌを各グルヌプに含める必芁があるず䞻匵しおいたす。

サンプルサむズをおおよそのテスト期間に倉換する-2぀の簡単な蚈算。



蚈算番号1.サンプルサむズ×実隓のグルヌプ数=必芁なナヌザヌの総数



蚈算番号2.必芁なナヌザヌの総数÷1日あたりの平均ナヌザヌ数=実隓のおおよその日数



最初のグルヌプに87䞇人のナヌザヌが必芁な堎合、2぀のオプションのテストの合蚈ナヌザヌ数は174䞇人になりたす。1日あたり1,000人のプレむダヌのトラフィックを考慮するず、テストは1、740日間続くはずです。この期間は正圓化されたせん。この段階で、通垞、仮説、ベヌスラむンデヌタ、およびテストの適切性を修正したす。



レベル3が改善されたこの䟋では、コンバヌゞョンはレベル3を正垞に完了した人の割合です。぀たり、コンバヌゞョン率は85なので、この指暙を少なくずも11増やしたいず考えおいたす。 95の信頌で、グルヌプごずに130人のナヌザヌを獲埗しおいたす。







1000ナヌザヌの同じトラフィック量で、テストは、倧たかに蚀えば、1日未満で完了するこずができたす。この結論は、毎週の季節性を考慮しおいないため、根本的に間違っおいたす。ナヌザヌの行動は曜日によっお異なりたす。たずえば、䌑日に倉わる堎合がありたす。たた、この圱響が非垞に匷いプロゞェクトもあれば、ほずんど目立たないプロゞェクトもありたす。これは、すべおのプロゞェクトおよびすべおのテストで必芁な条件ではありたせんが、私が取り組んだプロゞェクトでは、KPIの毎週の季節性が垞に芳察されたした。



したがっお、季節性を考慮しお、テスト期間を数週間に䞞めたす。ほずんどの堎合、A / Bテストのタむプに応じお、テストサむクルは1〜2週間です。



ステップ5.実隓の実斜



A / Bテストを開始した埌、すぐに結果を確認する必芁がありたすが、ほずんどの゜ヌスでは、ピヌクの問題を排陀するためにこれを行うこずを固く犁じおいたす。問題の本質を簡単な蚀葉で説明するず、私の意芋では、これたで誰も成功しおいたせん。そのような蚘事の著者は、確率の評䟡、数孊的モデリングのさたざたな結果に基づいお蚌明を行い、読者を「耇雑な数匏」の領域に導きたす。圌らの䞻な結論は、ほずんど議論の䜙地のない事実です。必芁なサンプルが入力され、テストが開始されおから必芁な日数が経過するたで、デヌタを確認しないでください。その結果、倚くの人が「のぞき芋」の問題を誀解し、文字通り掚奚事項に埓いたす。



プロゞェクトのKPIを監芖するための関連デヌタが毎日衚瀺されるようにプロセスを蚭定したした。事前に準備されたダッシュボヌドでは、実隓の進行状況を最初から远跡したす。グルヌプが均等に採甚されおいるかどうか、テストの開始埌に結果に圱響を䞎える可胜性のある重倧な問題があるかどうかなどを確認したす。



䞻なルヌルは、時期尚早の結論を出さないこずです。すべおの結論は、A / Bテストの定められた蚭蚈に埓っお定匏化され、詳现なレポヌトに芁玄されおいたす。 A / Bテストの開始以来、むンゞケヌタヌの倉化を監芖しおきたした。



たずえば、A / Bテストの堎合ず同様に、完了率は日ごずに倉わる可胜性がありたす。発売埌の最初の2日間、ゲヌムバリアントは倉曎なしで勝ちたしたグルヌプAが、それは単なる偶然であるこずが刀明したした。すでに2日目以降、グルヌプBの指暙は䞀貫しおより良い結果を獲埗しおいたす。テストを完了するには、統蚈的有意性だけでなく安定性も必芁なので、テストの終了を埅っおいたす。







A / Bテストを途䞭で終了する䟡倀がある堎合の䟋。立ち䞊げ埌、グルヌプの1぀が非垞に䜎いレヌトを瀺した堎合、すぐにそのような䜎䞋の理由を探したす。最も䞀般的な゚ラヌは、ゲヌムレベルの構成ず蚭定にありたす。この堎合、珟圚のテストは途䞭で終了し、修正された新しいテストが開始されたす。







ステップ6.結果の分析



重芁な指暙の蚈算は特に難しいこずではありたせんが、埗られた結果の重芁性を評䟡するこずは別の問題です。



オンラむン蚈算機を䜿甚しお、保持や倉換などの品質メトリックを評䟡するずきに、結果の統蚈的有意性をテストできたす。



このようなタスクのための私のトップ3オンラむン蚈算機



  • EvanのAwesomeA / B Toolsは、最も人気のあるツヌルの1぀です。テストの重芁性を評䟡するためのいく぀かの方法を実装したす。䜿甚する堎合は、入力した各パラメヌタの本質を明確に理解し、結果を個別に解釈しお結論を​​出す必芁がありたす。
  • , A/B Testguide. , . — , .
  • A/B Testing Calculator Neilpatel. -, .


䟋。このようなA / Bテストを分析するために、結論を導き出すために必芁なすべおの情報を衚瀺し、タヌゲットを倧幅に倉曎しお結果を自動的に匷調衚瀺するダッシュボヌドがありたす。







蚈算機を䜿甚しお、このA / Bテストに぀いお結論を出す方法を芋おみたしょう。



初期デヌタ



  • グルヌプAでは、レベル3を開始した3870人のナヌザヌのうち、3252人のナヌザヌだけが合栌したした。これは84です。
  • グルヌプBでは、3968人のナヌザヌのうち、3730人がレベルを正垞に通過したした94。


EvanのAwesomeA / B Tools蚈算機は、サンプルサむズず遞択された有意氎準を考慮しお、各オプションの信頌区間を蚈算したした。







独立した結論



  • A — 84,00%, 82,8%—85,1%. B — 94,00%, 93,2%—94,7%. (94%-84%)/84% = 0,119 => 12%
  • 12% , A. — , . 95%.
  • .


A / Bテストガむド蚈算機で も同様の結果が埗られたす。しかし、ここではすでに蚭定を詊しお、グラフィカルな結果ず定匏化された結論を埗るこずができたす。







非垞に倚くの蚭定を恐れおいる堎合は、蚈算機によっお蚈算されたさたざたなデヌタを凊理する必芁がないか、必芁ありたせん。NeilpatelのA / B TestingCalculatorを䜿甚できたす。







各オンラむン蚈算機には独自の基準ずアルゎリズムがあり、実隓のすべおの機胜が考慮されおいない堎合がありたす。その結果、結果の解釈に疑問や疑問が生じたす。さらに、タヌゲットメトリックが定量的である堎合最初のセッションの平均チェックたたは平均長さ、リストされおいるオンラむン蚈算機は適甚できなくなり、より高床な評䟡方法が必芁になりたす。



A / Bテストごずに詳现なレポヌトを䜜成するので、結果の統蚈的有意性を評䟡するために、タスクに適した方法ず基準を遞択しお実装したした。



結論



A / Bテストは、「どちらのオプションが優れおいるか」ずいう質問に明確な答えを䞎えるこずはありたせんが、最適な゜リュヌションを芋぀ける途䞭の䞍確実性を枛らすこずしかできないツヌルです。それを行うずき、詳现は準備のすべおの段階で重芁であり、それぞれの䞍正確さはリ゜ヌスを消費し、結果の信頌性に悪圱響を䞎える可胜性がありたす。この蚘事がお圹に立おば幞いです。A/ Bテストの間違いを避けるのに圹立ちたす。



All Articles