第1回/ハンズオンの履歴(No.8)

履歴一覧
ソースを表示
第1回/ハンズオンは削除されています。
- 1 (2023-08-08 (火) 10:06:04)
- 2 (2023-09-27 (水) 14:58:20)
- 3 (2023-09-27 (水) 20:51:07)
- 4 (2023-09-27 (水) 21:07:59)
- 5 (2023-09-30 (土) 09:48:07)
- 6 (2023-09-30 (土) 22:35:15)
- 7 (2023-10-01 (日) 11:27:53)
- 8 (2023-10-04 (水) 16:44:29)
- 9 (2023-10-04 (水) 17:58:16)
- 10 (2024-05-07 (火) 10:35:46)

第1回ハンズオン†

第1回ハンズオン

0. 準備†

Google Driveにアクセスして，Google Colabを新規作成してください
名前を handson1.ipynb とします

下記のコードを貼り付けて実行してください

# PandasとNumpyをインポート
import pandas as pd
import numpy as np

# 日本語化Matplotlibもインポート
import matplotlib.pyplot as plt
!pip install japanize-matplotlib
import japanize_matplotlib

↑

1. Pythonで確率分布を見てみよう†

↑

SciPy statsライブラリ†

Pythonには，SciPyという強力な数値解析ライブラリがある．その中のstatパッケージを使えば，様々な統計関数を簡単に利用できる
- 説明書：https://docs.scipy.org/doc/scipy/reference/stats.html

↑

statsライブラリの基本的な使い方†

まずはimportする
```
from scipy import stats
```

確率分布を定義する

変数名 = stats.分布(パラメータ)

離散型確率分布
- ベルヌーイ分布： stats.bernoulli(p=確率)
- 二項分布： stats.binom(n=個数, p=確率)
- ポワソン分布： stats.poisson(mu=平均回数)
連続型確率分布
- 正規分布： stats.norm(loc=平均, scale=標準偏差)
- 指数分布： stats.expon(scale=平均時間)

確率分布から確率関数 f_X(x)=P(X=x)の値を求める

変数名.pmf(xの値)  #離散型の場合 probability mass function
変数名.pdf(xの値)  #連続型の場合 probability density function

確率分布から分布関数 F_X(x)=P(X<=x))を求める
```
変数名.cdf(xの値) #cumulative distribution function
```

確率分布から分布関数 F_X(x)=P(X>=x))を求める

変数名.sf(xの値)  #survival function．1-変数名.cdf(x)に同じ

確率分布の下側パーセント点を求める

変数名.ppf(下側確率)  #percent point function

確率分布の上側パーセント点を求める

変数名.isf(上側確率)  #inverse survival function

確率分布に従った乱数を発生させる
```
変数名.rvs(size=個数) #random variates
```

↑

正規分布を可視化してみよう†

scipy.statsを使って正規分布を可視化してみよう
- 平均μ(loc)と標準偏差σ(scale)を変えて分布を見てみる

from scipy import stats

#平均100,標準偏差30の正規分布を定義
dis1 = stats.norm(loc=100,scale=30)
#平均130,標準偏差30の正規分布を定義
dis2 = stats.norm(loc=130,scale=30)
#平均100,標準偏差10の正規分布を定義
dis3 = stats.norm(loc=100,scale=10)

#xの範囲を適当に決める
x=range(0,200)

#確率密度関数をxにそってプロット
plt.plot(x,dis1.pdf(x), label="N(100,30)")
plt.plot(x,dis2.pdf(x), label="N(130,30)")
plt.plot(x,dis3.pdf(x), label="N(100,10)")
plt.grid()
plt.legend()
plt.show()

#1000個の乱数を作成
nums1 = dis1.rvs(size=1000)
nums2 = dis2.rvs(size=1000)
nums3 = dis3.rvs(size=1000)
#ヒストグラムを作成
plt.hist(nums1, bins=range(0,200,5), alpha=0.5)
plt.hist(nums2, bins=range(0,200,5), alpha=0.5)
plt.hist(nums3, bins=range(0,200,5), alpha=0.5)
plt.grid()
plt.show()

Q: 正規分布N(100,30)，N(130,30)，N(100,10)からそれぞれ1つの数字をランダムに選んだ場合，その数字が50以上75以下である確率を求めなさい
```
#それぞれ分布関数から求める
print(dis1.cdf(75)-dis1.cdf(50))
print(dis2.cdf(75)-dis2.cdf(50))
print(dis3.cdf(75)-dis3.cdf(50))
```

Q: 正規分布N(100,30)，N(130,30)，N(100,10)について，それぞれ下側95%点を求めなさい

#それぞれ分布関数から求める
print(dis1.ppf(0.95))
print(dis2.ppf(0.95))
print(dis3.ppf(0.95))

↑

例題：神戸市で交通事故が起こる確率を調べる†

神戸市における交通事故は1か月約350件と報告されている．この時，ポワソン分布を使って，以下の問いに答えなさい．なお，1日あたりの交通事故の平均件数をλ＝350/30として計算せよ．

RQ1: 1日あたり，ちょうど10件の交通事故が発生する確率はいくらか？
RQ2: 1日あたり，5件以内に収まる確率はいくらか？
RQ3: 1日あたり，10件以上～15件以内に収まる確率はいくらか？

#ポワソン分布を作成
kobe_acc = stats.poisson(mu=350/30)

#概形をプロットしてみる
x = range(1,30)
plt.bar(x, kobe_acc.pmf(x))
plt.grid()

#確率関数，分布関数，パーセント点をそのまま表示するだけ
print(f"[RQ1]: {kobe_acc.pmf(10)}")
print(f"[RQ2]: {kobe_acc.cdf(5)}")
print(f"[RQ3]: {kobe_acc.cdf(15) - kobe_acc.cdf(9)}")

↑

2. 統計的推測をPythonでシミュレーションしてみよう†

↑

例題：全国17歳男子の身長の分布を推定する†

ある調査によると，全国610,122人の17歳男子の平均身長は，

平均 μ = 170.6931cm
分散 σ^2=33.735 (標準偏差σ=5.8082)

の正規分布にほぼ従うという．

この時，母集団からn個の標本を取り出し，標本平均X~，不偏標本分散U^2を計算して，μ，σ^2を推定できるかやってみよう．

↑

準備†

母集団を表す正規分布を作成する

#stats.normで全男子の母集団を生成（σ^2でなくσを使うことに注意）
all_boys = stats.norm(loc=170.6931,scale=5.8082)

↑

平均μ(=170.6931)を推定してみよう†

all_boysからn=10人の標本X={x1,x2,...,x10}を取り出し，標本平均X~を計算しよう

#nをとりあえず10として
n=10
#ランダムにn人取り出してみる
sample_boys = all_boys.rvs(size=n)
#標本平均を計算する（何回も試してみる）
sample_boys.mean()

この作業を1000回繰り返した結果を表に入れてみよう

#表を作る
df = pd.DataFrame()
#1000回繰り返して表に入れる（リストの内包表現）
df[f"{n}人の標本平均"] = [all_boys.rvs(size=n).mean() for i in range(1000)]
df

標本平均の平均E(X~)を計算してみる
```
df.mean()
```

nを変化させて同じ実験をする

for n in [10,100,1000,10000]:
  df[f"{n}人の標本平均"] = [all_boys.rvs(size=n).mean() for i in range(1000)]
df

標本平均の平均E(X~)が平均的にμの近くの値になっていることがわかる（X~がμの不偏推定量である）
```
df.mean()
```
ヒストグラムを描いてみる．nが大きくなるほどX~の分布がμに近づくことがわかる (X~がμの一致推定量である)
```
df.plot.hist(subplots=True, bins=100)
```

↑

σ^2(=33.735)を推定してみよう†

μの時とほぼ同じ．numpyの標本偏分散U^2は，var(ddof=1)で計算する

#σ用の表を作る
df2 = pd.DataFrame()
#nを変化させてn個の不偏標本分散を1000回取る実験をする(不偏推定量の確認)
for n in [10,100,1000,10000]:
  df2[f"{n}人の不偏標本分散"] = [all_boys.rvs(size=n).var(ddof=1) for i in range(1000)]
#不偏標本分散の平均E(U^2) （U^2がσ^2の不偏推定量である）
df2.mean()

ヒストグラムを描いてみる(U^2がσ^2の一致推定量である)
```
df2.plot.hist(subplots=True, bins=100)
```

第1回/ハンズオン の履歴(No.8)