ハンガリー留学記: 統計学第６-７週中心傾向

今週も講義スライドは、ほぼ触れず Central Tendency の説明から入り、事前配布されいているエクセルデータで統計値を表にまとめる演習を行った。

メイントピックがなにかというと、

Mode（最頻値）

Median（メディアン：中央値）

Mean（平均）

上記３つの話題が主。

おおむね中学数学の内容であるが、Quantiles（分位数）で少々拡張がある。

分位数とはランク付けされた母集団をいくつかのパートに分けるものである。

四分位数であれば、４－１＝３か所で分割点があり、ランキング（Yi/k）Y1/4で表される値は、1/4の領域（25%）はY1/4 より小さく（第１四分位数より小さい領域）、逆に1-1/4の領域（75%）はY1/4 より大きい（第１四分位数より大きい）ということを表す。

Notable quantiles

Median（中央値）：Me

Quartile（四分位数）：Qi（Q1, Q2, Q3）

Quintile（五分位数）：Ki（K1, K2, K3, K4）

Decile（十分位数）：Di（D1, D2,・・・, D9）

Percentile（百分位数）：Pi（P1, P2,・・・, P99）

となり、中学数学から少し知識が増える。

百分位数はすなわちパーセンテージと同じだが、分位数、四分位数、五分位数の英単語が似すぎで、あたまに入ってこない。

各分位数の関係性が文字だけだと良くわからないので、数直線上でまとめてみると、以下のような感じになる。

D2 = K1だったり、D5 = Q2 = Meということだ。

Pi に関しては記載するまでもなく、P1=1%、P2=2%・・・。

これを踏まえて、今週の小テストの問題を再度見てみる。

We know the following about a data set with 500 elements.

P3 = 34

K2 = 40

Median = 55

Q3 = 85

At least what value does the top 60% of the data take?

毎週のことだが、何を聞かれているのか、英語がわからなかった。

統計との戦いではなく、英語との戦いだ。

どうも上位60%のデータを取る値はどれか、というようなことを聞いている。

数直線を作成してみたので、該当するポジションは K2 であることは明白で、K2 = 40だそうなので、回答は40。

私は回答欄にQ3と、かなりとんちんかんなことを書いた。

ということで、講義はエクセルの実技なので、その作業をする際の前提知識となるスライドの内容をまとめる。

上で説明したように、Me = Q2 = P50 となり、これを Y0,5と表現する。

K2 = Y0,4 = P40であり、エクセル計算では、

Me：MEDIAN

Qi：QUARTILE.EXC

・

Pi：PERCENTILE.EXC

をそれぞれ使用して算出できる。

例題：1, 5, 3, 4, 6, 10のデータ群でメディアンは？

→順に並べると、1, 3, 4, 5, 6, 10（Y*：ランキング）

S1/2 = 1/2(6 + 1)：（データ数＋１）

= 3.5

s = 3.5 → Y*3 + 0.5(Y*4 - Y*3)

Me = Q2

= 4 + 0.5(5 - 4)

= 4.5

と計算するらしい。この辺は中学数学では学習しない。

中学数学では、真ん中は４と５の間なので、中間値は4.5となる。

例題：124, 141, 110, 115, 136, 106, 146（cm）の小人がいる。

四分位数の小さい方の身長は？五分位数の２番目K2の身長は？

→順に並べると、106, 110, 115, 124, 136, 141, 146

S1/4 = 1/4(7 + 1)

= 2

s = 2 → Y*2 = 110 (=Q1)

S2/5 = 2/5(7 + 1)

s = 3.2 → Y*3 + 0.2(Y*4 - Y*3) = 115 + 0.2(124 - 115)

= 116.8 (= K2)

Q1に関しては中学数学でもQ1 = 110と回答できるが、K2はそうはいかない。

この方式を知って、五分位数も計算ができるようになりましたと。

Depiction of Frequency Tables

Bar chart：棒グラフ

Stick chart　→　少ない数しかない変数を取り扱うとき

Histogram　→　階級つき度数表を取り扱うとき

Line chart：線グラフ

Frequency polygon　→　度数折れ線

Frequency curve　→　頻度曲線（連続変数）

Ogiva　→　累積コラム

Boxplot（box-and-whiskers）：箱ひげ図

中学数学の復習になるが、箱ひげ図は以下から構成される。

Smallest value（最小値）

Lower quartile（第１四分位数）

Median（メディアン＝第２四分位数）

Upper quartile（第３四分位数）

Largest value（最大値）

・中間の50%の値が箱の中にある

・どちら側に箱が寄っているか

・そのレンジはどうか（せまい？ひろい？）

という特徴を見て取れる。

ここからは大学生の範疇に入る。

そして第７週メイン、めずらしくスライド資料の説明をフルでやってくれた。

度数分布表の主な特徴

Position

横軸の平均値の位置（midvalues）→　Central tendency の算出

Dispersion（分散）

ある基準値から、またはお互いの偏差（diviations）→　分散（dispersion）の算出

Shape

同じ position と dispersion の正規分布（normal distribution）と比較したときの見た目

　→歪度（skewness）、尖度（kuritosis）

Midvalues

量的変数（quantitative variables）が１つの数値によって特徴づけられる。

変数Yの測定単位。

必要条件：

of medium position

typical

clearly and easily defined

easy to interpret

Classification of midvalues

Positional midvalues

モード（最頻値）

メディアン（中央値）

Calculated midvalues（means）

arithmetic（算術平均、相加平均）

measure

harmonic（調和平均）

square

geometric（幾何平均、相乗平均）

Harmonic mean（調和平均）の具体例

往路：すすきのから旭丘まで 10km の道のりを自転車で時速 8 kmで走った。

復路：旭丘からすすきのまで 10km の道のりを自転車で時速 32 kmで走った。

往復の平均速度は？　※平均 = (8 km/h + 32km/h) / 2 とはならない

調和平均式

平均 = (1 + 1)/(1/8 + 1/32)

= 12.8 km/h

中学生のように確かめてみる。

往路にかかった時間 = 10km / 時速 8km =1.25h

復路にかかった時間 = 10km / 時速 32km =0.3125h

往復にかかった時間 = 1.5625h

往復の距離は 20km だから、20km/1.5625h = 12.8km/h（平均速度）

Geometric mean（幾何平均、相乗平均）の具体例

2021→2022年　+10%

2022→2023年　+22%

2023→2024年　－8%

の成長率（前年比率）の会社がある。３年間の平均の成長率は何％か？

※平均 = (10 + 22 - 8) / 3 = 8% とはならない

相加平均式

平均 = (1.1 x 1.22 x 0.92)^(1/3)

= 1.073

平均成長率は 7.3% 。

実際に相加・相乗平均の成長率を、2021年を100と想定し、具体的に確かめてみた。

相乗平均の 7.3% と与えられた条件とが一致する。

Mode（モード：最頻値）

離散型変数（discrete variable）の場合、最頻度の（典型の）変数。

連続型変数（continuous variavle）の場合、頻度曲線の最大値。

raw mode：モードを含む階級幅の中央値（Ymo）

モードの特徴

外れ値に対してロバスト：not sensitive (robust) to extreme (outlier) values

測定のすべての尺度に適用可

常に存在するわけではない（常に一意ではないため）

多くの値のセットがあるときは使用できない

　→　要素数に比較してたくさんの値を取る離散型変数にとって、特定の値が発生する確率が小さい

　→　母集団は連続と見なされ、階級幅と度数コラムからモードは見積もられる

メディアン

ランク付けされた値を、同頻度で２つの領域に分ける。

(N + 1) / 2番目の要素。

メディアンの特徴

常に一意（unique）

外れ値に対してロバスト

順序尺度、名義尺度、比例尺度に適用可

少ない値の場合は使用しない

Midvalues の計算（Arithmetic mean 算術平均）

Arithmetic mean

(Y1 + Y2 + ・・・+ Yk) / N = ΣYi / N（i = 1 to N）

Yi：i番目の値

N：データ合計数

これを度数表から計算する場合（Weighted mean 加重平均）

ΣfiYi / Σfi = ΣfiYi / N = Σ(fi/N)Yi = ΣgiYi

fi：度数

gi：相対度数

算術平均の特徴

量的変数でのみ計算可

計算ではすべての値が考慮される

外れ値に対して敏感（→　trimmed mean：刈り込み平均、最大最小を除外）

Midvalues の比較

分散の算出

Dispersion（分散）：観測されたY値からの差異

算出オプション：

Deviation of extreme values

領域を算出

Deviations from each other

平均絶対差（average absolute difference）など

Deviations from a specified value（mean）

平均絶対偏差（average absolute deviation）

標準偏差（standard deviation）など

　⇔　Variance（分散：ばらつき）の式

領域の算出

Range：R = Ymax - Ymin

メリット：シンプル

デメリット：２つの極端な値にしか依存していない

Interquartile range（四分位範囲）：R0,5 = Q3 - Q1

中央の50%の範囲

（同様に Iterdecile range は R0,8 = D9 - D1 中央の80%の範囲とできる）

Standard deviation（標準偏差）

最も重要な分散の尺度。式を見れば何を意味するのかは一目瞭然。

↓加重平均の場合

Deviations from the Mean

平均（mean）からの偏差は０になる。

平均（mean）からの絶対偏差

平均（mean）からの2乗偏差（分散）

Relative Standard Deviation（相対標準偏差）

すべての変数値が等しければ標準偏差の値がゼロである。

　⇔　２つの標準偏差を比較する時のすべて

相対標準偏差：V = σ / Y　※Yはワイバーとする

違う母集団の同士の標準偏差を比較したいときに使う（％）。

The Shape of Distributions

Single mode

Multi-Mode

Skewness（歪度）

Long left tail - Symmetric - Long right tail

Kurtosis（尖度）

Leptokurtosis（too pointy） - Platykurtosis（too flat）

Skewness, Kurtosis

Asymmetry

Long right tail　⇔　モード　＜　メディアン　＜　平均

α3：歪度の算出（SKEW.P）

α3 < 0：Long left tail

α3 = 0：Symmetric

α3 >0：Long right tail

α4：尖度の算出（KURT）

α4 < 0：正規分布よりたいら（platykurtosis）

α4 = 0：正規分布と等しい

α4 >0：正規分布より尖る（leptokurtosis）

以上、エクセルのデータをいじくるのに必要な基礎知識まとめ終わり。

どの分野でも最も使用する統計で最も大事なパートではなかろうか。

しかし講義自体はサクっと流れてしまうので、７週目の内容は、初めて統計を取り組む大学生にとっては、予習をしっかりしていないと何を話しているかわからないだろう。

データの分析と統計的な推測が1冊でしっかりわかる本

新品価格
￥1,320から
(2025/3/31 04:58時点)

ハンガリー留学記

広告

2025/03/30

統計学第６-７週中心傾向

0 件のコメント:

コメントを投稿

ブログを記し始めて２年半

広告

広告

広告

広告

広告

2025/03/30

統計学 第６-７週 中心傾向

0 件のコメント:

コメントを投稿

ブログを記し始めて２年半

広告

広告

広告

広告

統計学第６-７週中心傾向