本サイトはアフィリエイト広告が含まれます.

広告

2025/03/30

統計学 第6-7週 中心傾向

今週も講義スライドは、ほぼ触れず Central Tendency の説明から入り、事前配布されいているエクセルデータで統計値を表にまとめる演習を行った。


メイントピックがなにかというと、


Mode(最頻値)

Median(メディアン:中央値)

Mean(平均)


上記3つの話題が主。

おおむね中学数学の内容であるが、Quantiles(分位数)で少々拡張がある。


分位数とはランク付けされた母集団をいくつかのパートに分けるものである。

四分位数であれば、4-1=3か所で分割点があり、ランキング(Yi/k)Y1/4で表される値は、1/4の領域(25%)はY1/4 より小さく(第1四分位数より小さい領域)、逆に1-1/4の領域(75%)はY1/4 より大きい(第1四分位数より大きい)ということを表す。



Notable quantiles


Median(中央値):Me

Quartile(四分位数):Qi(Q1, Q2, Q3

Quintile(五分位数):Ki(K1, K2, K3, K4

Decile(十分位数):Di(D1, D2,・・・, D9

Percentile(百分位数):Pi(P1, P2,・・・, P99


となり、中学数学から少し知識が増える。
百分位数はすなわちパーセンテージと同じだが、分位数、四分位数、五分位数の英単語が似すぎで、あたまに入ってこない。

各分位数の関係性が文字だけだと良くわからないので、数直線上でまとめてみると、以下のような感じになる。


D2 = K1だったり、D5 = Q2 = Meということだ。
Pi に関しては記載するまでもなく、P1=1%、P2=2%・・・。




これを踏まえて、今週の小テストの問題を再度見てみる。

We know the following about a data set with 500 elements.

P3 = 34
K2 = 40
Median = 55
Q3 = 85

At least what value does the top 60% of the data take?

毎週のことだが、何を聞かれているのか、英語がわからなかった
統計との戦いではなく、英語との戦いだ。

どうも上位60%のデータを取る値はどれか、というようなことを聞いている。

数直線を作成してみたので、該当するポジションは K2 であることは明白で、K2 = 40だそうなので、回答は40

私は回答欄にQ3と、かなりとんちんかんなことを書いた




ということで、講義はエクセルの実技なので、その作業をする際の前提知識となるスライドの内容をまとめる。



上で説明したように、Me = Q2 = P50 となり、これを Y0,5と表現する。

K2 = Y0,4 = P40であり、エクセル計算では、

Me:MEDIAN
Qi:QUARTILE.EXC
Pi:PERCENTILE.EXC
をそれぞれ使用して算出できる。


例題:1, 5, 3, 4, 6, 10のデータ群でメディアンは?
→順に並べると、1, 3, 4, 5, 6, 10(Y*:ランキング)

S1/2 = 1/2(6 + 1):(データ数+1)
        = 3.5
s = 3.5 → Y*3 + 0.5(Y*- Y*3)
Me = Q2 
     = 4 + 0.5(5 - 4)
     = 4.5


と計算するらしい。この辺は中学数学では学習しない。
中学数学では、真ん中は4と5の間なので、中間値は4.5となる。



例題:124, 141, 110, 115, 136, 106, 146(cm)の小人がいる。
四分位数の小さい方の身長は?五分位数の2番目K2の身長は?
→順に並べると、106, 110, 115, 124, 136, 141, 146

S1/4 = 1/4(7 + 1)
        = 2
s = 2 → Y*2 = 110 (=Q1)


S2/5 = 2/5(7 + 1)
s = 3.2 → Y*3 + 0.2(Y*4 - Y*3) = 115 + 0.2(124 - 115)
                                                = 116.8 (= K2)



Q1に関しては中学数学でもQ1 = 110と回答できるが、K2はそうはいかない。
この方式を知って、五分位数も計算ができるようになりましたと。




Depiction of Frequency Tables


Bar chart:棒グラフ
Stick chart → 少ない数しかない変数を取り扱うとき
Histogram → 階級つき度数表を取り扱うとき

Line chart:線グラフ
Frequency polygon → 度数折れ線
Frequency curve → 頻度曲線(連続変数)
Ogiva → 累積コラム






Boxplot(box-and-whiskers):箱ひげ図


中学数学の復習になるが、箱ひげ図は以下から構成される。
Smallest value(最小値)
Lower quartile(第1四分位数)
Median(メディアン=第2四分位数)
Upper quartile(第3四分位数)
Largest value(最大値)



・中間の50%の値が箱の中にある
・どちら側に箱が寄っているか
・そのレンジはどうか(せまい?ひろい?)

という特徴を見て取れる。




ここからは大学生の範疇に入る。
そして第7週メイン、めずらしくスライド資料の説明をフルでやってくれた。



度数分布表の主な特徴

Position
横軸の平均値の位置(midvalues)→ Central tendency の算出




Dispersion(分散)
ある基準値から、またはお互いの偏差(diviations)→ 分散(dispersion)の算出




Shape
同じ position と dispersion の正規分布(normal distribution)と比較したときの見た目
 →歪度(skewness)、尖度(kuritosis



Midvalues

量的変数(quantitative variables)が1つの数値によって特徴づけられる。
変数Yの測定単位。
必要条件:
of medium position
typical
clearly and easily defined
easy to interpret


Classification of midvalues

Positional midvalues
モード(最頻値)
メディアン(中央値)

Calculated midvalues(means)
arithmetic(算術平均、相加平均)
measure
harmonic(調和平均)
square
geometric(幾何平均、相乗平均)



Harmonic mean(調和平均)の具体例
往路:すすきのから旭丘まで 10km の道のりを自転車で時速 8 kmで走った。
復路:旭丘からすすきのまで 10km の道のりを自転車で時速 32 kmで走った。
往復の平均速度は? ※平均 = (8 km/h + 32km/h) / 2 とはならない

調和平均式





平均 = (1 + 1)/(1/8 + 1/32)
        = 12.8 km/h


中学生のように確かめてみる。
往路にかかった時間 = 10km / 時速 8km =1.25h
復路にかかった時間 = 10km / 時速 32km =0.3125h
往復にかかった時間 = 1.5625h

往復の距離は 20km だから、20km/1.5625h = 12.8km/h(平均速度)



Geometric mean(幾何平均、相乗平均)の具体例
2021→2022年 +10%
2022→2023年 +22%
2023→2024年 -8%
の成長率(前年比率)の会社がある。3年間の平均の成長率は何%か?
※平均 = (10 + 22 - 8) / 3 = 8% とはならない

相加平均式






平均 = (1.1 x 1.22 x 0.92)^(1/3)
        = 1.073
平均成長率は 7.3% 。


実際に相加・相乗平均の成長率を、2021年を100と想定し、具体的に確かめてみた。
相乗平均の 7.3% と与えられた条件とが一致する。












Mode(モード:最頻値)
離散型変数(discrete variable)の場合、最頻度の(典型の)変数。
連続型変数(continuous variavle)の場合、頻度曲線の最大値。



raw mode:モードを含む階級幅の中央値(Ymo



モードの特徴

外れ値に対してロバスト:not sensitive (robust) to extreme (outlier) values
測定のすべての尺度に適用可
常に存在するわけではない(常に一意ではないため)
多くの値のセットがあるときは使用できない
 → 要素数に比較してたくさんの値を取る離散型変数にとって、特定の値が発生する確率が小さい
 → 母集団は連続と見なされ、階級幅と度数コラムからモードは見積もられる



メディアン

ランク付けされた値を、同頻度で2つの領域に分ける。
(N + 1) / 2番目の要素。

メディアンの特徴

常に一意(unique)
外れ値に対してロバスト
順序尺度、名義尺度、比例尺度に適用可
少ない値の場合は使用しない




Midvalues の計算(Arithmetic mean 算術平均

Arithmetic mean
(Y1 + Y2 + ・・・+ Yk) / N = ΣY/ N(i = 1 to N)

Yi:i番目の値
N:データ合計数


これを度数表から計算する場合(Weighted mean 加重平均
ΣfiYi / Σfi = ΣfiYi / N = Σ(fi/N)Yi = ΣgiYi

fi:度数
gi:相対度数




算術平均の特徴

量的変数でのみ計算可
計算ではすべての値が考慮される
外れ値に対して敏感(→ trimmed mean:刈り込み平均、最大最小を除外)



Midvalues の比較




分散の算出

Dispersion(分散):観測されたY値からの差異

算出オプション:
Deviation of extreme values
領域を算出

Deviations from each other
平均絶対差(average absolute difference)など



Deviations from a specified value(mean)
平均絶対偏差(average absolute deviation)



標準偏差(standard deviation)など

 ⇔ Variance(分散:ばらつき)の式






領域の算出

Range:R = Ymax - Ymin

メリット:シンプル
デメリット:2つの極端な値にしか依存していない


Interquartile range(四分位範囲):R0,5 = Q3 - Q1

中央の50%の範囲
(同様に Iterdecile range は R0,8 = D9 - D1 中央の80%の範囲とできる)




Standard deviation(標準偏差)

最も重要な分散の尺度。式を見れば何を意味するのかは一目瞭然。



↓加重平均の場合





Deviations from the Mean

平均(mean)からの偏差は0になる。


平均(mean)からの絶対偏差


平均(mean)からの2乗偏差(分散)






Relative Standard Deviation(相対標準偏差)

すべての変数値が等しければ標準偏差の値がゼロである。
 ⇔ 2つの標準偏差を比較する時のすべて

相対標準偏差:V = σ / Y ※Yはワイバーとする


違う母集団の同士の標準偏差を比較したいときに使う(%)。




The Shape of Distributions

Single mode
Multi-Mode



Skewness(歪度)

Long left tail - Symmetric - Long right tail


Kurtosis(尖度)

Leptokurtosis(too pointy) - Platykurtosis(too flat)



Skewness, Kurtosis

Asymmetry
Long right tail ⇔ モード < メディアン < 平均




α3:歪度の算出(SKEW.P)
α3 < 0:Long left tail
α3 = 0:Symmetric
α3 >0:Long right tail


α4:尖度の算出(KURT)
α4 < 0:正規分布よりたいら(platykurtosis)
α4 = 0:正規分布と等しい
α4 >0:正規分布より尖る(leptokurtosis)




以上、エクセルのデータをいじくるのに必要な基礎知識まとめ終わり。
どの分野でも最も使用する統計で最も大事なパートではなかろうか。


しかし講義自体はサクっと流れてしまうので、7週目の内容は、初めて統計を取り組む大学生にとっては、予習をしっかりしていないと何を話しているかわからないだろう。


広告

データの分析と統計的な推測が1冊でしっかりわかる本

新品価格
¥1,320から
(2025/3/31 04:58時点)



0 件のコメント:

コメントを投稿

ブログを記し始めて2年半

先週まで37℃ あって死にそうだったのに、今週は15℃ 前後というはちゃめちゃな天気変化。そのせいか、空気の流れが室内から外方向へ変わり、その際カーテンに押され 網戸が吹っ飛んだ 。 写真:今週は寒い日が続き、風でカーテンが外へ(網戸も外の世界へ) 窓から顔を出し、下を見ると、2...

広告