【数学Ⅰ】データの分析 〜攻略ガイド〜
皆さん、こんにちは!今日は「データの分析」について一緒に学んでいきましょう。
「数学なのに計算だけじゃなくて、グラフとか表が出てくるの?」と思うかもしれません。でも、実はこの分野は私たちの日常に一番近い数学なんです。
天気予報、スポーツの成績、テストの平均点など、身の回りにあるたくさんの数字(データ)をどう読み解くか、そのコツを伝授します!
最初は言葉が多くて大変に感じるかもしれませんが、一つずつ整理すれば大丈夫ですよ。
1. データを整理しよう:度数分布表とヒストグラム
まずは、バラバラにある数字を整理する基礎から始めます。
・度数分布表(どすうぶんぷひょう)
データをいくつかの区間(階級)に分けて、それぞれの区間に何個のデータがあるか(度数)を表にしたものです。
・階級値(かいきゅうち)
その階級の真ん中の値のことです。例えば「10以上〜20未満」の階級なら、階級値は \((10+20) \div 2 = 15\) になります。
・ヒストグラム
度数分布表を棒グラフにしたものです。データの「形」が一目でわかります。
ポイント:
ヒストグラムの横軸は「階級」、縦軸は「度数」です。グラフの山がどこにあるか注目しましょう!
2. データの中心を知る:代表値(だいひょうち)
たくさんのデータがあるとき、「だいたいこれくらい」と言える数字が代表値です。主に3つあります。
① 平均値(へいきんち):
すべてのデータを足して、データの数で割ったもの。記号では \(\bar{x}\)(エックス・バー)と書きます。
例:1, 2, 9 の平均は \((1+2+9) \div 3 = 4\)
② 中央値(ちゅうおうち / メジアン):
データを大きさの順に並べたとき、ちょうど真ん中にくる値です。
・データが奇数個なら:真ん中の値。
・データが偶数個なら:真ん中2つの平均値。
③ 最頻値(さいひんち / モード):
データの中で最も多く現れる値です。
よくある間違い:
中央値を探すとき、データを並べ替えるのを忘れてしまう人が多いです!必ず「小さい順(または大きい順)」に並べてから真ん中を探しましょう。
豆知識:
「平均値」は極端に大きい(または小さい)数字に引っ張られやすいという弱点があります。例えば、クラスに一人だけ大富豪がいたら、平均年収は跳ね上がりますが、実態とはズレてしまいますよね。そんな時は「中央値」の方が実態に近いことがあります。
3. データのバラつき:四分位数と箱ひげ図
次に、データがどれくらい「散らばっているか」を見ます。
・四分位数(しぶんいすう)
データを小さい順に並べて、4等分したときの区切りの値です。
1. 第1四分位数 (\(Q_1\)): 前半部分の中央値
2. 第2四分位数 (\(Q_2\)): 全体の中央値
3. 第3四分位数 (\(Q_3\)): 後半部分の中央値
・四分位範囲と四分位偏差
四分位範囲 \(= Q_3 - Q_1\) (真ん中50%のデータの幅)
四分位偏差 \(= \frac{Q_3 - Q_1}{2}\)
・箱ひげ図(はこひげず)
「最小値、\(Q_1\)、\(Q_2\)、\(Q_3\)、最大値」の5つの値をグラフにしたものです。
覚え方のコツ:
四分位数は「クラスを4つのチームに分ける境界線」だと思ってください。箱ひげ図の「箱」が長いほど、真ん中のデータのバラつきが大きいことを意味します。
4. 分散と標準偏差(ぶんさん と ひょうじゅんへんさ)
ここが「データの分析」の山場です!計算は少し複雑ですが、意味を理解すれば怖くありません。
・偏差(へんさ)
個々のデータから平均値を引いた値です。 \((x - \bar{x})\)
・分散(ぶんさん) \(s^2\)
「偏差を2乗したものの平均値」です。
なぜ2乗するの?:偏差をそのまま足すとプラスとマイナスが打ち消し合って 0 になってしまうからです。2乗することで、すべてプラスにしてバラつきを測ります。
・標準偏差(ひょうじゅんへんさ) \(s\)
分散にルートをつけたものです。 \(s = \sqrt{分散}\)
2乗して大きくなりすぎた単位を元に戻すイメージです。
まとめ:
分散や標準偏差が大きい = データが平均から遠くに散らばっている(バラバラ)
分散や標準偏差が小さい = データが平均の周りに集まっている(まとまっている)
5. 2つのデータの関係:散布図と相関係数
最後は、2つのデータの関係性(例:数学の点数と英語の点数)を調べます。
・散布図(さんぷず)
2つのデータを \(x\) 軸、 \(y\) 軸にとって、点 \((x, y)\) を打ったグラフです。
・相関関係(そうかんかんけい)
1. 正の相関: \(x\) が増えると \(y\) も増える(右上がりの傾向)
2. 負の相関: \(x\) が増えると \(y\) は減る(右下がりの傾向)
3. 相関がない: 点がバラバラで傾向がない
・相関係数(そうかんけいすう) \(r\)
相関の強さを \(-1\) から \(1\) までの数字で表したものです。
・\(1\) に近いほど、強い正の相関
・\(-1\) に近いほど、強い負の相関
・\(0\) に近いほど、相関が弱い
例え話:
「勉強時間」と「テストの点数」の関係は正の相関になりやすいです。一方、「ゲームの時間」と「テストの点数」は負の相関になるかもしれませんね(笑)。
重要 takeaway:
相関係数 \(r\) は必ず \(-1 \leqq r \leqq 1\) の範囲に収まります。もし計算して \(1.5\) とかになったら、どこかで計算ミスをしていますよ!
最後に:データの分析を解くコツ
この章の問題は、「公式を覚える」よりも「表を丁寧に埋める」ことが一番の近道です。
1. 平均を出す。
2. 各データの偏差(データ − 平均)を出す。
3. 偏差を2乗する。
4. その平均を出す(=分散)。
5. ルートをつける(=標準偏差)。
この手順を紙に表として書き出すと、計算ミスがぐっと減ります。最初は時間がかかるかもしれませんが、慣れれば確実に点数が取れるボーナス単元になりますよ。頑張りましょう!