第1回:数理統計:母集団に対する統計的推測

1.1 数学の前提知識

本論に入る前に,数学に関する知識が必要となるので必要事項をまとめる.

集合

要素の集まりを集合という.ただし,この集合は,数学的に範囲が明確な要素の集まりでなければならない.

集合の例

集合でないものの例

全体集合,空集合,集合の演算

fig01.png

全体集合

要素全体の集合を全体集合といい,Ωで表す.

空集合

要素を持たない集合を空集合といい,φで表す.

和集合

Aの要素またはBの要素からなる集合をAとBの和集合といい,A∪Bで表す.

積集合

Aの要素かつBの要素からなる集合をAとBの積集合といい,A∩Bで表す.

特にA∩B=φとなるとき, AとBは排反であるという.

事象

実験結果を要素にもつ集合を事象という(事象に対する上記4つをそれぞれ,全事象,空事象,和事象,積事象,排反事象という).

可算集合,非可算集合

集合には数えられる集合(可算集合,とびとびの値をとる集合)と数えられない集合(非可算集合,連続的な値をとる集合)がある.変量(特徴量)のとり得る値の集合が可算集合であるか非可算集合であるかによって用いられる確率分布も異なってくる.

サイコロの目(1,2,3,4,5,6),事故の件数(0,1,2,…)

身長(0より大きい実数)

fig02.png

組み合わせ

n個からr個選ぶ場合の数

fig03.png

ここで,n!はn×(n-1)×…×2×1である.

数列の極限

数列{a_n}について考える.nが大きくなるにつれてa_nがaに近づくとき

fig46.png

とかく.aをa_nの極限値という.

定積分

関数f(x)をxがa以上b以下の範囲で積分する計算を

fig04.png

で表す.これはx軸とf(x)で囲まれる部分の符号付面積を表す.つまり,以下の図でx軸よりも上の部分(赤の斜線部分)の面積を足し,x軸よりも下の部分(青の斜線部分)の面積を引いた値となる.

fig05.png

確率

現在の確率論や統計科学における確率の定義は公理的確率が採用されている.

数学的確率

全事象Ωの場合の数をn,事象Aの場合の数をrとする.このとき,P(A)=r/nとする.

この定義の問題点:

統計的確率

試行を無限に繰り返し,事象Aが起こる割合がpAに近づくとする.このとき,P(A)=pAとする.

この定義の問題点:

公理的確率

次の3条件を満たすPを確率という.(確率として成り立っていてほしい式をまとめたものになっている)

fig06.png

確率変数

事象を簡単に表すために,確率変数を用いる.例えば,サイコロを1回投げて奇数が出る確率を

P(X=1,3,5)

と表すために用いられる変数を確率変数という.確率変数が離散型か連続型かによって用いられる確率分布が異なるので注意すること.

離散型確率変数

確率変数がとり得る値の集合が可算集合である場合(とびとびの値をとる場合)

連続型確率変数

確率変数がとり得る値の集合が非可算集合である場合(連続的な値をとる場合)

確率変数の独立

確率変数X, Yについて,すべてのX=x, Y=yの組み合わせでP(X=x, Y=y)=P(X=x)P(Y=y)が成り立つとき,XとYは独立であるという.

1.2 確率分布

確率変数Xの確率分布を求めるとは,すべてのXの範囲で確率を求められるようにすることである.

つまり,確率分布がわかっていれば,どんなXの範囲でも自由に確率を求められる.

離散型確率分布

離散型確率変数Xの確率分布を総じて離散型確率分布という.

離散型確率分布の基礎

ここでは

P(X=1)=1/12, P(X=2)=1/12, P(X=3)=1/3, P(X=4)=1/12, P(X=5)=1/3, P(X=6)=1/12,P(X≠1,2,3,4,5,6)=0

を例として,基本的な計算を身につけることとする.

fig07.png
fig11.png
fig10.png
fig08.png
fig09.png

離散型確率分布の例

あるメダルは1回のコイントスで,表が出る確率がpであるとする.

fig22.png

1回コイントスをしたとき,x回表が出る確率は以下の確率関数で表される.

fig23.png

つまり,1回の試行で得られる結果が2通りである場合に用いられる確率分布である.

n人患者がおり,1人が感染症に罹患する確率をpとする(ただし,各々の感染は互いに独立に起きるものとする) .

fig24.png

n人のうちx人が感染症に罹患する確率は以下の確率関数で表される.

fig25.png

つまり,n回の独立試行で得られる結果がそれぞれ2通りである場合に用いられる確率分布である.

なお,E(X)=np,V(X)=np(1-p)である.

1ヶ月の自動車の平均事故件数をμ(=E(X))とする.

fig26.png

1ヶ月の事故件数がx件となる確率は以下の確率関数で表される.

fig27.png

ただし,e≒2.71828である.ポアソン分布は,二項分布においてn→∞,p→0,np→μとした場合の確率分布である.そのため,たくさんの試行回数で起こることが稀な事象が起こる件数を扱う際に用いられる確率分布である.

連続型確率分布

連続型確率変数Xの確率分布を総じて連続型確率分布という.

連続型確率分布の基礎

ここでは

fig12.png

を例として,基本的な計算を身につけることとする.ここで,ただし,e≒2.71828である.

fig13.png

P(1≦X≦2)を求める場合,1≦x≦2の範囲でf_X(x)を積分すればよい.今回の例では

fig14.png

つまり,以下の斜線部分の面積がP(1≦X≦2)となる:

fig15.png

この結果から,すべてのaでP(X=a)=0となることがわかる.

今回の例では

fig16.png

つまり,以下の斜線部分の面積を表す関数である:

fig17.png

上側100a%点は下側100(1-a)%点であるから

fig18.png

となるx_aが上側100a%点となる.

fig19.png
fig20.png
fig21.png

連続型確率分布の例

測定値が「平均μと誤差の和」の形で得られていることなどを仮定して考えられた連続型確率分布であり,主に実験データなどに用いられる.

fig28.png

正規分布の確率密度関数は以下の通りである.

fig29.png

ここで,e≒2.71828である.特に,μ=0, σ^2=1の正規分布(N(0, 1))を標準正規分布という.

待ち時間や寿命の分布を表す連続型確率分布である.

fig30.png

確率密度関数は以下の通りである.

fig31.png

ここで,E(X)=1/λである.

1.3 母集団に対する統計的推測

すべてのデータが得られなければ,興味のあるデータの確率分布を正確に求めることができない.つまり,ほとんどの場合,データの正確な確率分布を知ることはできない.そこで,興味のあるデータの源泉として母集団を設定し,そこから得られたn個の標本から,母集団分布を統計的に推測することを考える(nを標本サイズという).通常,標本は無作為標本(互いに独立,かつ,同一の分布から得られた標本)とする.

fig32.png

無情報に母集団分布を推測しようとすれば,分布のとがり具合,ゆがみ具合,いくつの山を持つか(単峰か多峰か),どこでピークとなるかなど,推測すべき点が非常に多くなる.少ない標本で母集団分布を推測するには効率よく推測する必要があるため,母集団分布を仮定し推測する方法がとられる.確率分布はパラメータを決定できれば,確率分布を一意的に定めることができるからである.例えば,母集団分布が正規分布の場合,平均μ,分散σ^2さえ推定できてしまえば,母集団分布を推測することができる.このように,母集団分布を仮定し,パラメータを推定して母集団分布を推測し,データ解析を行う方法をパラメトリックな方法という.逆に,パラメトリックでない母集団分布の推測法をノンパラメトリックな方法という.

fig33.png

パラメトリックな方法では,母集団を推測することはパラメータを推定することに問題が置き換わっている.例えば,母集団分布が正規分布の場合,母集団分布の平均や分散を推定することで母集団を推測する.母集団分布の平均がいくつか,分散がいくつかが推定できれば,母集団を推測することができるからである.平均は標本平均によって,そして分散は不偏標本分散によって推定される.ここで,標本平均や不偏標本分散はそれぞれ

fig34.png
fig35.png

である.このように,パラメータの推定に用いられるデータの関数を推定量という.この場合,平均μの推定量は標本平均Xbar,分散の推定量は不偏標本分散U^2である.

推定量がもつべき性質

標本平均Xbar,不偏標本分散U^2を平均μや分散σ^2の推定量として使うならば,

と思うことが自然なことである.1個目の性質を満たすパラメータの推定量を不偏推定量,nが大きいときに2個目の性質を満たすパラメータの推定量を一致推定量という.

不偏推定量

θを分布のパラメータ,θ^をθの推定量とする.このとき

fig36.png

が成り立つようなθ^をθの不偏推定量という.

fig37.png

をθ^の偏りという.

fig38.png
fig39.png
fig40.png

一致推定量

すべてのε>0に対して,以下が成り立つようなθの推定量θ^をθの一致推定量という:

fig41.png

イメージとしては以下の図のとおりである.

fig42.png

式や図の通り,θ^がθの一致推定量ならば,nが大きくなるにつれてθ^はθ付近に分布する確率が1に近づくことになる.

fig43.png
fig44.png
fig45.png

まとめ

第1回ハンズオンへ


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS