今週も講義スライドは、ほぼ触れず Central Tendency の説明から入り、事前配布されいているエクセルデータで統計値を表にまとめる演習を行った。
メイントピックがなにかというと、
Mode(最頻値)
Median(メディアン:中央値)
Mean(平均)
上記3つの話題が主。
おおむね中学数学の内容であるが、Quantiles(分位数)で少々拡張がある。
分位数とはランク付けされた母集団をいくつかのパートに分けるものである。
四分位数であれば、4-1=3か所で分割点があり、ランキング(Yi/k)Y1/4で表される値は、1/4の領域(25%)はY1/4 より小さく(第1四分位数より小さい領域)、逆に1-1/4の領域(75%)はY1/4 より大きい(第1四分位数より大きい)ということを表す。
Notable quantiles
Median(中央値):Me
Quartile(四分位数):Qi(Q1, Q2, Q3)
Quintile(五分位数):Ki(K1, K2, K3, K4)
Decile(十分位数):Di(D1, D2,・・・, D9)
Percentile(百分位数):Pi(P1, P2,・・・, P99)
百分位数はすなわちパーセンテージと同じだが、分位数、四分位数、五分位数の英単語が似すぎで、あたまに入ってこない。
各分位数の関係性が文字だけだと良くわからないので、数直線上でまとめてみると、以下のような感じになる。
D2 = K1だったり、D5 = Q2 = Meということだ。
Pi に関しては記載するまでもなく、P1=1%、P2=2%・・・。
これを踏まえて、今週の小テストの問題を再度見てみる。
We know the following about a data set with 500 elements.
P3 = 34
K2 = 40
Median = 55
Q3 = 85
At least what value does the top 60% of the data take?
毎週のことだが、何を聞かれているのか、英語がわからなかった。
統計との戦いではなく、英語との戦いだ。
どうも上位60%のデータを取る値はどれか、というようなことを聞いている。
数直線を作成してみたので、該当するポジションは K2 であることは明白で、K2 = 40だそうなので、回答は40。
私は回答欄にQ3と、かなりとんちんかんなことを書いた。
ということで、講義はエクセルの実技なので、その作業をする際の前提知識となるスライドの内容をまとめる。
上で説明したように、Me = Q2 = P50 となり、これを Y0,5と表現する。
K2 = Y0,4 = P40であり、エクセル計算では、
Me:MEDIAN
Qi:QUARTILE.EXC
・
・
・
Pi:PERCENTILE.EXC
をそれぞれ使用して算出できる。
例題:1, 5, 3, 4, 6, 10のデータ群でメディアンは?
→順に並べると、1, 3, 4, 5, 6, 10(Y*:ランキング)
S1/2 = 1/2(6 + 1):(データ数+1)
= 3.5
s = 3.5 → Y*3 + 0.5(Y*4 - Y*3)
Me = Q2
= 4 + 0.5(5 - 4)
= 4.5
と計算するらしい。この辺は中学数学では学習しない。
中学数学では、真ん中は4と5の間なので、中間値は4.5となる。
例題:124, 141, 110, 115, 136, 106, 146(cm)の小人がいる。
四分位数の小さい方の身長は?五分位数の2番目K2の身長は?
→順に並べると、106, 110, 115, 124, 136, 141, 146
S1/4 = 1/4(7 + 1)
= 2
s = 2 → Y*2 = 110 (=Q1)
S2/5 = 2/5(7 + 1)
s = 3.2 → Y*3 + 0.2(Y*4 - Y*3) = 115 + 0.2(124 - 115)
= 116.8 (= K2)
Q1に関しては中学数学でもQ1 = 110と回答できるが、K2はそうはいかない。
この方式を知って、五分位数も計算ができるようになりましたと。
Depiction of Frequency Tables
Bar chart:棒グラフ
Stick chart → 少ない数しかない変数を取り扱うとき
Histogram → 階級つき度数表を取り扱うとき
Line chart:線グラフ
Frequency polygon → 度数折れ線
Frequency curve → 頻度曲線(連続変数)
Ogiva → 累積コラム
Boxplot(box-and-whiskers):箱ひげ図
中学数学の復習になるが、箱ひげ図は以下から構成される。
Smallest value(最小値)
Lower quartile(第1四分位数)
Median(メディアン=第2四分位数)
Upper quartile(第3四分位数)
Largest value(最大値)
・中間の50%の値が箱の中にある
・どちら側に箱が寄っているか
・そのレンジはどうか(せまい?ひろい?)
という特徴を見て取れる。
ここからは大学生の範疇に入る。
そして第7週メイン、めずらしくスライド資料の説明をフルでやってくれた。
度数分布表の主な特徴
Position
横軸の平均値の位置(midvalues)→ Central tendency の算出
Dispersion(分散)
ある基準値から、またはお互いの偏差(diviations)→ 分散(dispersion)の算出
Shape
同じ position と dispersion の正規分布(normal distribution)と比較したときの見た目
→歪度(skewness)、尖度(kuritosis)
Midvalues
量的変数(quantitative variables)が1つの数値によって特徴づけられる。
変数Yの測定単位。
必要条件:
of medium position
typical
clearly and easily defined
easy to interpret
Classification of midvalues
Positional midvalues
モード(最頻値)
メディアン(中央値)
Calculated midvalues(means)
arithmetic(算術平均、相加平均)
measure
harmonic(調和平均)
square
geometric(幾何平均、相乗平均)
Harmonic mean(調和平均)の具体例
往路:すすきのから旭丘まで 10km の道のりを自転車で時速 8 kmで走った。
復路:旭丘からすすきのまで 10km の道のりを自転車で時速 32 kmで走った。
往復の平均速度は? ※平均 = (8 km/h + 32km/h) / 2 とはならない
調和平均式
平均 = (1 + 1)/(1/8 + 1/32)
= 12.8 km/h
中学生のように確かめてみる。
往路にかかった時間 = 10km / 時速 8km =1.25h
復路にかかった時間 = 10km / 時速 32km =0.3125h
往復にかかった時間 = 1.5625h
往復の距離は 20km だから、20km/1.5625h = 12.8km/h(平均速度)
Geometric mean(幾何平均、相乗平均)の具体例
2021→2022年 +10%
2022→2023年 +22%
2023→2024年 -8%
の成長率(前年比率)の会社がある。3年間の平均の成長率は何%か?
※平均 = (10 + 22 - 8) / 3 = 8% とはならない
相加平均式
平均 = (1.1 x 1.22 x 0.92)^(1/3)
= 1.073
平均成長率は 7.3% 。
実際に相加・相乗平均の成長率を、2021年を100と想定し、具体的に確かめてみた。
相乗平均の 7.3% と与えられた条件とが一致する。
Mode(モード:最頻値)
離散型変数(discrete variable)の場合、最頻度の(典型の)変数。
連続型変数(continuous variavle)の場合、頻度曲線の最大値。
raw mode:モードを含む階級幅の中央値(Ymo)
モードの特徴
外れ値に対してロバスト:not sensitive (robust) to extreme (outlier) values
測定のすべての尺度に適用可
常に存在するわけではない(常に一意ではないため)
多くの値のセットがあるときは使用できない
→ 要素数に比較してたくさんの値を取る離散型変数にとって、特定の値が発生する確率が小さい
→ 母集団は連続と見なされ、階級幅と度数コラムからモードは見積もられる
メディアン
ランク付けされた値を、同頻度で2つの領域に分ける。
(N + 1) / 2番目の要素。
メディアンの特徴
常に一意(unique)
外れ値に対してロバスト
順序尺度、名義尺度、比例尺度に適用可
少ない値の場合は使用しない
Midvalues の計算(Arithmetic mean 算術平均)
Arithmetic mean
(Y1 + Y2 + ・・・+ Yk) / N = ΣYi / N(i = 1 to N)
Yi:i番目の値
N:データ合計数
これを度数表から計算する場合(Weighted mean 加重平均)
ΣfiYi / Σfi = ΣfiYi / N = Σ(fi/N)Yi = ΣgiYi
fi:度数
gi:相対度数
算術平均の特徴
量的変数でのみ計算可
計算ではすべての値が考慮される
外れ値に対して敏感(→ trimmed mean:刈り込み平均、最大最小を除外)
Midvalues の比較
分散の算出
Dispersion(分散):観測されたY値からの差異
算出オプション:
Deviation of extreme values
領域を算出
Deviations from each other
平均絶対差(average absolute difference)など
Deviations from a specified value(mean)
平均絶対偏差(average absolute deviation)
標準偏差(standard deviation)など
⇔ Variance(分散:ばらつき)の式
領域の算出
Range:R = Ymax - Ymin
メリット:シンプル
デメリット:2つの極端な値にしか依存していない
Interquartile range(四分位範囲):R0,5 = Q3 - Q1
中央の50%の範囲
(同様に Iterdecile range は R0,8 = D9 - D1 中央の80%の範囲とできる)
Standard deviation(標準偏差)
最も重要な分散の尺度。式を見れば何を意味するのかは一目瞭然。
↓加重平均の場合
Deviations from the Mean
平均(mean)からの偏差は0になる。
平均(mean)からの絶対偏差
平均(mean)からの2乗偏差(分散)
Relative Standard Deviation(相対標準偏差)
すべての変数値が等しければ標準偏差の値がゼロである。
⇔ 2つの標準偏差を比較する時のすべて
相対標準偏差:V = σ / Y ※Yはワイバーとする
違う母集団の同士の標準偏差を比較したいときに使う(%)。
The Shape of Distributions
Single mode
Skewness(歪度)
Long left tail - Symmetric - Long right tail
Kurtosis(尖度)
Leptokurtosis(too pointy) - Platykurtosis(too flat)
Skewness, Kurtosis
Asymmetry
Long right tail ⇔ モード < メディアン < 平均
α3:歪度の算出(SKEW.P)
α3 < 0:Long left tail
α3 = 0:Symmetric
α3 >0:Long right tail
α4:尖度の算出(KURT)
α4 < 0:正規分布よりたいら(platykurtosis)
α4 = 0:正規分布と等しい
α4 >0:正規分布より尖る(leptokurtosis)
以上、エクセルのデータをいじくるのに必要な基礎知識まとめ終わり。
どの分野でも最も使用する統計で最も大事なパートではなかろうか。
しかし講義自体はサクっと流れてしまうので、7週目の内容は、初めて統計を取り組む大学生にとっては、予習をしっかりしていないと何を話しているかわからないだろう。
![]() | 新品価格 |

0 件のコメント:
コメントを投稿