有用で有益なグラフを作成するための重要な原則
データの視覚化は、データサイエンスを理解するプロセスにおいて不可欠なステップです。ここで、直感的で理解しやすいグラフィック形式で結果を提示および報告します。
データの視覚化には多くの作業が必要です。多くのクリーニングと分析が、汚れたデータを抽出して美しいグラフやチャートに変換することになります。ただし、準備されたデータを使用しても、有用で有益なグラフィックを作成するには、特定の原則または方法論に準拠する必要があります。
ただし、この記事を書く際に、データグラフを便利にする方法に関する6つの原則が含まれているEdwardTaftの本BeautifulEvidenceからインスピレーションを得ました。有用なチャートを役に立たないチャートから分離するのはこれらの原則です。
この記事は、RでのRoger D. Pengの探索的データ分析からも大きな影響を受けています。Bookdownで無料で入手でき、EDAの詳細を読むことができます。
これらの原則を詳しく見てみましょう。
データにおける私たちの世界でのデータ視覚化の例
1.比較を表示します(コントロールグループと実験グループ)
比較のデモンストレーションは、優れた科学的研究の基盤です。仮説の証明は常に他の何かに関連しています。例を見てみましょう。「ダークチョコレートは集中力と学習能力を向上させます」とあなたは言います。この声明の重要な質問は「何と比較して?」です。比較(相対的な仮説)がなければ、このステートメントは役に立ちません。
比較を示す1つの方法は、対照群と治療群を使用することです。 1つのグループの人々はチョコレートを食べますが、2番目のグループの人々は食べません。このように、テスト結果に基づいて、または脳の活動を測定することにより、濃度と学習能力に対するチョコレートの効果を比較できます。
研究を提示するためのグラフを作成する場合、口ひげボックスを使用してコントロールグループと治療グループをグラフ化できます。このようにして、読者は実験の効果について明確な考えを得ることができます。
研究を表すグラフを作成する場合、長方形のチャートを使用してコントロールグループと治療グループをグラフ化できます。このようにして、読者は治療の効果を明確に理解することができます。
2.因果関係と説明
以下は、あなたが答えようとしている質問について考える際の因果関係を示す説明です。実験群では効果が得られるが対照群では得られないことを示した場合は、その理由についての証拠から仮説を立てる必要があります。
前の例に戻って、実験グループの被験者がテストでより高いスコアを付けたとしましょう。これは、ダークチョコレートが濃度を改善することを示しています。重要な質問:なぜこれが正確に当てはまるのですか?
この質問は、研究全体を通してあなたの仮説に反論したり支持したりする可能性のある他の質問を提起するのに役立つため、重要です。
因果関係やメカニズムを示すために、対照群と治療群の脳活動を測定し、それらを並べて表示することで結果をグラフ化することができます。テストスコアグラフと脳活動グラフを使用すると、チョコレートを服用した被験者がより高いスコアを受け取った理由、つまりダークチョコレートが認知機能をどのように改善するかという質問への回答がわかります。
3.多くの変数(3つ以上の変数)を持つデータ
現実の世界は複雑であり、2つのイベント間の関係は通常非線形です。したがって、研究では、測定できる属性または変数があります。これらの変数はすべて、さまざまな方法で相互作用します。それらのいくつかは混乱する可能性がありますが 、他はイベントの関係を説明する重要な属性である可能性があります。
すでにご存知のように、相関関係は因果関係を意味するものではありません。したがって、研究を2つの変数のみに制限することはお勧めできません。これは、誤った結論につながります。したがって、チャートにはできるだけ多くのデータを表示する必要があります。これは、データの混乱を明らかにするのに役立ちます。 シンプソンのパラドックスを
取る 、確率論的統計の逆説であり、「グループを組み合わせると、異なるデータグループに現れる傾向が消える」。説明する:
- 2つの変数-負の関係。
- 3つの変数は正の関係(x、y、z)です(紛らわしい変数があります)。
4.ツールに分析を促さないでください
優れたストーリーテラーは、生産的な方法でストーリーを語りながら、人々の注目を集める方法を知っています。ストーリーテラーはストーリー自体に限らず、さまざまな認識を組み合わせ、複数の画像を含めてストーリーを生き生きとさせるなど、独自の方法でストーリーを表現することができます。
同様に、優れたデータビジュアライザーは手元の視覚化ツールに限定されません。データを視覚化する人は、1つの表現形式(線や円など)から複数の表示モードを使用するように切り替えることができます。
たとえば、テキストのみを含むレポートを作成する代わりに、画像、グラフ、単語、数字などのインフォグラフィックを使用すると、これらすべてが情報を充実させます。豊富な情報とグラフにより、読者は証拠の多くの異なる相関関係を1か所で観察できます。だからあなたは物語を語っていることを忘れないでください。ツールがあなたの思考を制限させないでください。分析によってツールを動かし、見事で証拠が豊富なグラフィックを作成しましょう。
5.適切なラベル、スケール、データソースを使用してチャートを文書化します
チャートを最初に見ると、最初にタイトルが表示され、次にチャートのコンテキストラベルが表示されます。それらがないと、グラフは何もわかりません。優れたレポート/グラフは、各グラフに適切なスケールとラベルが割り当てられて適切に文書化されています。グラフの作成に使用されるデータソースも重要です。したがって、データとグラフの生成に使用されたコードを保持することをお勧めします。これにより、データを再現できます。また、チャートに信頼性を追加します。さらに、コードを保存することで、必要に応じてグラフを編集できます。
6.コンテンツが最初に来る
最終的に、上記のすべての原則に関係なく、高品質で関連性があり、全体論的なコンテンツがなければ、グラフィックは役に立たないか誤解を招く可能性があります。言い換えれば、「内側のゴミ、外側のゴミ」です。結果を報告する前に、結果が興味深く重要なものであることを確認してください。グラフィックがどれほど美しく視覚的であっても、無駄な結果を望んでいる人は誰もいません。興味深いのは、個人的な経験やインターネットに触発されたものです。いずれにせよ、常に質問をしてください。これがアイデアが現実になる方法です。
結論
データの視覚化は素晴らしいスキルです。データを取得して、人々にストーリーを伝える美しいグラフィックやプロットに変換できます。データが飛躍的に増大する時代において、データで物語を語ることができることがますます重要になっています。これは、新しいことを学ぶのに最適な瞬間です。そして原則の要約:
- 比較を表示します。
- 理由を示してください。
- 多次元データを表示します。
- できるだけ多くの証拠を組み合わせてください。
- スケジュールを説明し、文書化します。
- あなたの話が面白いことを確認してください。
この記事から取り上げてほしいのは、これです。常に、良い質問から始めて、正しいアプローチを使用し、良い質問に答えるために必要な情報のみを提示することを忘れないでください。 統計の新時代を先導した
アメリカの数学者ジョン・トゥキーからのこの引用を残します :
単純なグラフは、どのデバイスよりも多くの情報をデータアナリストの心にもたらしました。
これらの原則をより深く理解するには、Roger D.Pengの著書「ExploratoryDataAnalysis in R」を参照することをお勧めします(以下にリンクを残します)。
リソースとリンク
データの視覚化について詳しく知りたい場合は、次のすばらしい無料の本をご覧ください。
- クロースO.ウィルケ。データ視覚化の基礎
- ハドリーウィッカム他。ggplot2:データ分析用のエレガントなグラフィック
- ウィンストンチャン。Rグラフィッククックブック。
美しい視覚化を紹介するプラットフォーム
チャートを作成するためのガイドは、これらのリソースで入手できます。
この記事へのリンク
読んでくれてありがとう!