データサイエンス

情報 · 高校 · 読了目安 4 分

【情報Ⅱ】データサイエンスの世界へようこそ！

皆さん、こんにちは！このチャプターでは「データサイエンス」について学んでいきます。「数学が苦手だから難しそう…」と感じる人もいるかもしれませんが、大丈夫です！データサイエンスは計算が得意な人だけのものではなく、「データを使って、身の回りの問題を解決する考え方」のことなんです。
例えば、YouTubeのおすすめ動画や、コンビニの商品の並べ方など、私たちの生活はデータサイエンスで溢れています。このノートで、その仕組みを一緒に楽しく解き明かしていきましょう！

1. データサイエンスって何？

データサイエンスとは、膨大なデータの中から価値のある情報を引き出し、社会の役に立てる学問のことです。ただデータを集めるだけでなく、それを分析して「次に何をすべきか」という意思決定に繋げることがゴールです。

ポイント：データサイエンスの3つの力

データサイエンスを使いこなすには、主に3つの力が必要だと言われています。
1. ビジネス力：どんな課題を解決したいか考える力
2. データサイエンス力：統計学などの数学的な知識
3. データエンジニアリング力：コンピュータを使ってデータを処理する力

💡 豆知識：
最近では、プロ野球やサッカーなどのスポーツ界でもデータサイエンスが活用されています。「どのコースに投げれば打たれにくいか」などをデータで分析し、戦略を立てているんですよ！

2. 問題解決のステップ「PPDACサイクル」

データを使って問題を解決するとき、行き当たりばったりでは上手くいきません。そこで使われるのがPPDACサイクルというフレームワークです。これはぜひ覚えておきましょう！

P (Problem) - 問題の把握：何を調べたいのか、何を解決したいのかを明確にする。
P (Plan) - 調査の計画：どんなデータを、どうやって集めるか計画を立てる。
D (Data) - データの収集：計画に基づいてデータを集め、整理する。
A (Analysis) - データの分析：グラフにしたり、計算したりして特徴を見つける。
C (Conclusion) - 結論：分析結果からわかったことをまとめ、次のアクションを考える。

🌟 覚え方のコツ：
「料理」に例えるとわかりやすいです！
P：何を作るか決める → P：レシピと材料を確認 → D：買い出しと下ごしらえ → A：実際に調理する → C：味見をして完成！

3. データの整理と可視化（EDA）

集めたデータはそのままではバラバラで分かりにくいです。そこで、データをきれいに掃除（データクレンジング）し、グラフなどを使って特徴を掴む探索的データ解析（EDA）を行います。

代表値：データの真ん中を知る

データ全体がどんな感じかを知るための数値です。
・平均値：すべての合計を個数で割ったもの。 \( \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \)
・中央値（メディアン）：順番に並べたときにちょうど真ん中にくる値。外れ値（極端に大きい・小さい値）の影響を受けにくいのが特徴です。
・最頻値（モード）：最も多く現れる値。

散らばり具合を知る

同じ平均値でも、データがギュッと集まっているか、バラバラに散らっているかで意味が変わります。
・分散：平均からのズレ（偏差）を2乗して平均したもの。
・標準偏差：分散のルート。単位が元のデータと同じになるので扱いやすいです。

⚠️ よくある間違い：
「平均値さえ分かれば完璧！」と思いがちですが、それは危険です。例えば、年収の調査などで一部の超お金持ちが平均をグイッと引き上げている場合、平均値は「ふつうの人」の感覚とはズレてしまいます。そんな時は中央値も一緒に見ることが大切です。

4. 相関関係と因果関係

ここがデータサイエンスで一番間違いやすい、かつ重要なポイントです！

相関関係：Aが変化すると、Bも変化する関係。（例：気温が上がると、アイスの売上が上がる）
因果関係：Aが原因で、Bという結果が起こる関係。（例：雨が降ったから、傘が売れた）

💡 ポイント：
「相関関係があるからといって、必ずしも因果関係があるとは限らない」ということを覚えておきましょう！
例えば、「身長が高い子ほど、テストの点数が高い」というデータがあったとします。でも、「身長を伸ばせば成績が上がる」わけではありませんよね？実際には「学年（年齢）」という共通の要因が関係しているだけかもしれません。これを見せかけの相関と呼びます。

5. 機械学習のきほん

情報Ⅱでは、コンピュータに学習させる機械学習についても触れます。大きく分けて2つの種類があります。

① 教師あり学習

「正解」のデータを与えて学習させる方法です。
・回帰：数値を予想する（例：明日の気温を予想する）
・分類：種類を分ける（例：メールがスパムかどうか分ける）

② 教師なし学習

正解を与えず、データ自体の構造を見つけさせる方法です。
・クラスタリング：似たもの同士をグループ分けする（例：お客さんを購買傾向でグループ化する）

まとめ：今回のポイント

・データサイエンスは「データで課題を解決する」こと。
・PPDACサイクル（問題・計画・収集・分析・結論）を回すことが大切。
・平均値だけでなく、散らばり（標準偏差）や中央値もチェックする。
・相関関係と因果関係を混同しないように気をつける。

最初は用語が多くて大変に感じるかもしれませんが、ニュースのグラフを見たり、アプリのレコメンド機能を見たりする時に「これってデータサイエンスかな？」と考えてみるだけで、ぐっと理解が深まりますよ！
これからも一緒に頑張りましょう！応援しています！

クイックチェック

今なら答えられる？

各質問を開いて、この章の重要ポイントを確認しましょう。

データサイエンスの主な目的は何ですか？

膨大なデータの中から価値のある情報を引き出し、社会の役に立てる意思決定に繋げることです。

データサイエンスを実践するために必要とされる「3つの力」とは何ですか？

ビジネス力、データサイエンス力、データエンジニアリング力の3つです。

データを使った問題解決のフレームワーク「PPDACサイクル」の各工程は何を指しますか？

Problem（問題）、Plan（計画）、Data（収集）、Analysis（分析）、Conclusion（結論）の5つの工程です。

データの可視化や分析の前に行う「データクレンジング」や「EDA」とは何ですか？

データクレンジングは不備のあるデータを修正・除去すること、EDA（探索的データ解析）はグラフなどを用いてデータの特徴を把握することです。

平均値と比較した際の中央値（メディアン）の大きな特徴は何ですか？

外れ値（極端に大きい値や小さい値）の影響を受けにくいという特徴があります。

データの散らばり具合を数値で表す「分散」と「標準偏差」の違いは何ですか？

分散は偏差の2乗の平均であり、標準偏差はその分散の正の平方根（ルート）をとったものです。

「相関関係」と「因果関係」の違いを簡潔に説明してください。

相関関係は2つの事象が連動して変化する関係であり、因果関係は一方が原因で他方が結果となる関係です。

「見せかけの相関（偽相関）」とはどのような現象ですか？

2つの事象に直接の因果関係はないが、共通の第三の要因（潜伏変数）によって相関があるように見える現象です。

理解度をチェックしませんか？

このノートの内容を試験形式で演習。AIが生成する無制限の問題で、即座に採点・解説を受けられます。

このトピックを演習

情報の他の章

※ thinkaのコンテンツはAIにより生成されているため、内容が正確でない場合があります。補助教材としてご使用いただき、公式の教材と合わせてご確認ください。

学んだ内容を実践しよう

読むだけで終わらせない。AIが生成する無制限の演習問題で理解を定着させよう。100,000人以上の学生が成績アップを実感。

無料で問題を解く料金を見る

読み終わった？AI問題で理解度をチェック

このトピックを今すぐ演習