【数学Ⅰ】データの分析:基礎から共通テスト対策まで

皆さん、こんにちは!この章では「データの分析」について学んでいきます。数学というと「計算が大変そう…」というイメージがあるかもしれませんが、この章は「集まった数字をどう読み解くか」という、とても実用的な分野です。
最近のニュースやスポーツ、SNSのトレンド分析など、日常生活のいたる所で使われている知識なんですよ。共通テストでも配点が高く、コツをつかめば確実に得点源にできる分野です。「計算が苦手だから…」と食わず嫌いせず、一緒に楽しくマスターしていきましょう!

1. データを代表する値(代表値)

たくさんのデータがあるとき、そのデータ全体の特徴をひとつの数字で表したものを代表値と呼びます。主に次の3つを覚えましょう。

① 平均値(Mean)

すべてのデータの値を足して、データの数で割ったものです。
\( \bar{x} = \frac{x_1 + x_2 + \dots + x_n}{n} \)
例:テストの点数が 50, 60, 70点なら、平均は (50+60+70)÷3 = 60点です。

② 中央値(Median)

データを大きさの順に並べたとき、真ん中にくる値のことです。
・データの数が奇数のとき:ちょうど真ん中の値。
・データの数が偶数のとき:真ん中の2つの値の平均。
ポイント:平均値は「極端に大きい(または小さい)値」に引っ張られやすいですが、中央値はその影響を受けにくいという特徴があります。

③ 最頻値(Mode)

データの中で最も頻繁に現れる(個数が多い)値のことです。
例:靴のサイズ(23cm, 24cm, 24cm, 25cm)なら、24cmが最頻値です。

【まとめ:代表値の使い分け】
・全体を平均的にならしたいとき → 平均値
・極端な値(外れ値)を除いた「普通」を知りたいとき → 中央値
・一番人気のもの(流行など)を知りたいとき → 最頻値


2. データの散らばりと箱ひげ図

データがどれくらい広がっているか(散らばっているか)を調べる方法です。

① 範囲(レンジ)と四分位数

範囲(レンジ):最大値 - 最小値
四分位数(しぶんいすう):データを小さい順に並べて、4等分する位置にある値です。
・第1四分位数 (\( Q_1 \)):下位グループの中央値(25%の位置)
・第2四分位数 (\( Q_2 \)):全体の中央値(50%の位置)
・第3四分位数 (\( Q_3 \)):上位グループの中央値(75%の位置)

ポイント:第2四分位数は「中央値」そのものです!

② 四分位範囲と四分位偏差

四分位範囲:\( Q_3 - Q_1 \)
四分位偏差:\( \frac{Q_3 - Q_1}{2} \)
これらは、真ん中の50%のデータがどれくらい散らばっているかを表します。極端な値に左右されない便利な指標です。

③ 箱ひげ図(Box Plot)

データの散らばり具合を視覚的に表した図です。共通テストで非常によく出題されます!
・箱の両端は \( Q_1 \) と \( Q_3 \)
・箱の中の線は \( Q_2 \)(中央値)
・左右に伸びる線(ひげ)の端は 最小値 と 最大値

【よくある間違い】
「箱が長いほうがデータがたくさんある」と勘違いしがちですが、それは間違いです!箱の長さやひげの長さは「データの散らばり具合(範囲)」を表すもので、データの数(人数など)はどこも同じ(全体の約25%ずつ)です。


3. 分散と標準偏差(ちょっと高度な散らばり)

「平均値からどれくらい離れているか」を計算で出す方法です。数式が出てきますが、意味を理解すれば怖くありません!

① 偏差(へんさ)

(各データの値)-(平均値)のこと。これが大きいほど、平均から遠いデータです。

② 分散(ぶんさん:\( s^2 \))

偏差を2乗したものの平均値です。
\( s^2 = \frac{1}{n} \{ (x_1-\bar{x})^2 + (x_2-\bar{x})^2 + \dots + (x_n-\bar{x})^2 \} \)
なぜ2乗するの?:そのまま足すとプラスとマイナスで打ち消し合って0になってしまうからです。

③ 標準偏差(\( s \))

分散にルート(平方根)をつけたものです。 \( s = \sqrt{分散} \)
分散は2乗しているので単位が変わってしまいますが、ルートをつけることで元のデータの単位(点、cmなど)に戻すことができます。

豆知識:分散にはもう一つの公式があります。
分散 =(2乗の平均)-(平均の2乗)
「じじょうのへいきん、ひく、へいきんのじじょう」とリズムで覚えましょう!計算が楽になることが多いですよ。


4. データの相関(2つのデータの関係)

身長と体重のように、2つのデータの間に関連があるかどうかを調べます。

① 散布図と相関関係

2つのデータをグラフにしたものを散布図といいます。
正の相関:右上がりの形(一方が増えるともう一方も増える)
負の相関:右下がりの形(一方が増えるともう一方は減る)
相関なし:バラバラな形

② 共分散(きょうぶんさん)

2つのデータの偏差の積の平均です。正なら正の相関、負なら負の相関がある傾向を示します。

③ 相関係数(\( r \))

相関の強さを数値化したものです。共通テストで超重要!
\( r = \frac{共分散}{xの標準偏差 \times yの標準偏差} \)
特徴:
・値は必ず -1 から 1 の間に収まります。
・1に近い:強い正の相関(一直線に近い右上がり)
・-1に近い:強い負の相関(一直線に近い右下がり)
・0に近い:相関がない

注意ポイント!:
「相関関係がある」からといって「因果関係(一方が原因でもう一方が結果)」があるとは限りません。例えば「アイスの売上」と「水難事故の数」には正の相関がありますが、アイスが事故の原因ではありません(どちらも暑さが原因です)。


最後に:学習のアドバイス

「データの分析」は、計算力よりも「図や表を正しく読み取る力」が試される分野です。
最初は「分散」や「標準偏差」の計算が面倒に感じるかもしれませんが、公式の形を覚えるだけでなく、「これはデータのバラツキ具合を表しているんだな」とイメージを持つことが大切です。

最初は難しく感じるかもしれませんが、大丈夫です!
たくさんの箱ひげ図や散布図を見ていくうちに、自然と感覚が身についていきます。まずは教科書の例題から一歩ずつ進めていきましょう!応援しています!