本サイトはアフィリエイト広告が含まれます.

広告

2025/03/17

統計学 表、チャート、度数表

統計学の第3週、第4週、第5週まとめ。


第3週の講義も先週の復習の小テストから始まった。

どうやら毎回4問のようだ。(1問0.25点としてエクストラポイントとなる)

パーセントポイントの計算、減少率の計算、増加率の計算と3つの計算問題と、Rate の定義を正誤を問う問題の4題だった。


定義を問う問題は間違えてしまった。

Population = 母集団という訳が頭に出てこなく、誤答した。

なので今週は0.75点ということだ。


講義は事前に学生用プラットホーム Moodle にアップロードされているエクセルデータを使用し、前週学んだChained ratioFixed base ratioを計算して、事前に準備されている表を埋める作業が主だった。 


後半はエクセルのピボットテーブルの利用の仕方を学んだ。

むかしの職場でこの機能は特に使用していなかったが、何も難しいところはない。


第3週は総じてラクだった。



第4週


今週の小テストは、


1問目: Changed ratio の折れ線グラフの読み取り問題

前年より減少した年を選択肢から複数回答。100%以下の年を選ぶだけ。


2問目:Fixed base ratio の折れ線グラフの読み取り問題

基準年より減少した年を選択肢から複数回答。100%以下の年を選ぶだけ。


3問目:以下の表からアンケートに回答したソフトウェア部の男性人数を算出

アンケートに回答した従業員が150人という前提。


2つめの表が、男女比の合計が100%となっているので、150人の56.67%が男性、43.33%が女性ということ。

150人 x 56.67% / 100 = 85人

この男性人数のうち、(1つめの表から)45.53%がソフトウェア部の人数となる。

85人 x 43.53% / 100 = 37人


私が計算していたのは、ソフトウェア部の人数が全体に対して32.67%で、そのうち75.51%が男性、という考え方で、

350人 x 32.67% / 100 x 75.51% = 86.34191・・・

人数なのに小数点が出るので、「何が間違っているんだ?」と見直しているうちに強制終了となった。

考え方に誤りはないが、そもそも合計人数は150人なのになぜか350人とエクセルに打ち込んでしまっていた


だいたい1つ目と2つ目のグラフで、部署名の順番が違うし、表に題名もないなんて、こんな表にまとめたら、速攻で上司に怒られるような最低の表だ。

そのせいで最初、1つめのソフトウェア部の位置にある、2つ目のデータサイエンス部の数字で計算して、間違いに気づくまで時間がかかった。

まあ150人を350人と打ち間違えた時点で希望はなかったが。


4問目:あるクラスで生徒が目指す成績の目標の集計として適切なグラフを選ぶ

私は円グラフのほか、積み上げ棒グラフなども選択したが正解は円グラフのみらしい。

別に棒グラフでもいいではないか。


ということで今週は0.5点


講義は第3週に引き続き、講義資料のエクセルを使用しながら、ピボットテーブルでグラフをどんどん作成。

分析するデータの組み合わせによって、どのグラフを選択するか(棒、線、第二軸の追加)、扱うデータは個数、平均、パーセンテージのどれを選択するか、というところが重要点である。



第5週

小テスト範囲をこの日の講義で行うということで、いつもとは違い授業の最後にテストを受けた。

度数分布の説明なしに、いきなりエクセルの演習に入った。

オンラインプラットフォーム Moodle に授業スライドはアップされていたが、どうやら各自で予習しとけという体のようだ。


過去の講義動画もアップがあるので、これ見て予習しなさいということなのだろう。


授業終わりの小テストはというと、また問題文が何を問うているのかわからないものがあった。



問題:

図書館で表を作り、100冊の階級幅を設けた。

つまり1~100冊、101~200冊、という具合だ。


For the corresponding bins, we entered the number of libraries belonging to that category and the total number of books in them.

(まず bins が class interval と同じ階級という意味であることがわからなかった)

訳:対応する階級に、図書館の数とそれぞれの図書館にある本の数の合計を入力した。


言われたことを実際に表にしてみるとこんな感じ。(テスト問題にこのは表はない)

緑の欄に何か数字を入力したよ、という前提だ。

で、この表に対して以下を問われる。


Which column that contains the answer to this question:

How many books are in a library where the number of books does not exceed 400?

(Cumulative frequency, value sum, cumulative value sum, cumulative relative frequency, frequency, cumulative relative value sum, mid value, relative frequency, relative value sum)


でカッコの中からあてはまるものを回答欄に書き込む。

しかし、テスト中はwhich column~を読み飛ばしたこともあり、上記の質問の意味がさっぱりわからなかった


今は何を聞かれているかわかったので要約すると、400冊を超えない図書館に何冊の本があるかを含む表の項目はどれか、ということを聞かれている。


つまり階級幅0~400冊のカテゴリ内の本の累積値が入るところを聞かれている。


先出の表で見ると、

fi:図書館の数(度数:Fequency)

fi':図書館の数の累積(累積度数:Cumulative Frequency)

gi:図書館の数の全体に対する割合(相対度数:Relative Frequency)

gi':累積相対度数(Cumulative Relative Frequency)

Yi:階級幅の平均値(Mid Value)

Si:本の数(Value Sum)

Si':本の数の累積値(Cumulative Value Sum)


なので、回答は Cumulative value sum ということになる。

英文が理解できればとても単純な問題だった。


他3問は、階級数と階級幅の計算問題2問と、「階級幅に少数を含むものを使用できるか」True or false が1問。

よって今週は0.75点。 



そして講義内容は、ピボットテーブルを利用して、度数分布表をつくり、ヒストグラムを作成、という演習と、度数分布表の作成の2つを行った。

大事なポイントは、階級の数の決定方法と各用語の理解である。


また、度数分布表は、例えば下の表はハンガリーの月収幅を階級として、どう分布しているかを見ているが、黄色の欄2か所を比較すると、58%を占める低所得層には全体給与の35%しか配分できていない、ということを比較できる、というところも本講義のポイントである。




以下に用語と基礎内容をまとめる。



Description of the Population

ある母集団にN関して、変数Yがあるとする。

Y=Y1, Y2, Y3,・・・,Yi・・・Yk

条件:Yに関して均一の母集団


描写方式は変数の尺度レベルによる。

Nominal scale(名義尺度)…分類、割合計算、グラフ作成

Ordinal scale(順序尺度)…順位作成

Quantitative variable(定量変数)

…順位作成(単調非現象順序にリスト化)

…グループ(小集団や変数Yの値の階級分け)

…命名(度数分布表)


Frequency Table(度数分布表)

(Discrete  variable:離散型変数)


Absolute frequency(絶対度数):(fi)

Relative frequency(相対度数):g= fi/N

Cumulated absolute frequency(累積絶対度数):fi' = Σfj(j = 1~i)

Cumulated relative frequency(累積相対度数):gi' = Σgj(j = 1~i)


この辺の知識は中学数学「資料の整理」と「データの比較」の領域である。


          Frequency Table(度数分布表)

         (Continuous variable:連続変数)


Class intervals / bins(階級の幅)

Non-overlapping intervals

階級の値 i:Yi0≤Y≤Yi1

※連続変数で上限値が次の階級の下限値と重なる場合、上限値の等号を外す

Y10とYk1は任意


Number of class intervals / bins(階級の数)

Sturges' Rule(スタージェスの公式):階級の数を決定する目安(k0

2のk乗 ≥ Nとなるkの最小値


Ways of determining class intervals

十進法など

Equal frequencies(→quantile:四分位数)

Equal class interval length(階級の幅):h0 = (Ymax - Ymin)/k0


度数と階級平均をかけると概算の合計が得られる。

Si' = fi x Yi

(実の値:Real value は Si = ΣY:Yi0≤Y≤Yi1


Relative value:Zi

Si' も Zi'も同様の累積なので割愛。


エクエルで度数分布表を完成させる練習をするとすんなり覚えられる。


以上、第3~5週まとめおわり。


広告

完全独習 統計学入門

新品価格
¥1,426から
(2025/2/22 02:27時点)

0 件のコメント:

コメントを投稿

ブログを記し始めて2年半

先週まで37℃ あって死にそうだったのに、今週は15℃ 前後というはちゃめちゃな天気変化。そのせいか、空気の流れが室内から外方向へ変わり、その際カーテンに押され 網戸が吹っ飛んだ 。 写真:今週は寒い日が続き、風でカーテンが外へ(網戸も外の世界へ) 窓から顔を出し、下を見ると、2...

広告