【このページは現在作成中です】
本論に入る前に,数学に関する知識が必要となるので必要事項をまとめる.
要素の集まりを集合という.ただし,この集合は,数学的に範囲が明確な要素の集まりでなければならない.
要素全体の集合を全体集合といい,Ωで表す.
要素を持たない集合を空集合といい,φで表す.
Aの要素またはBの要素からなる集合をAとBの和集合といい,A∪Bで表す.
Aの要素かつBの要素からなる集合をAとBの積集合といい,A∩Bで表す.
特にA∩B=φとなるとき, AとBは排反であるという.
実験結果を要素にもつ集合を事象という(事象に対する上記4つをそれぞれ,全事象,空事象,和事象,積事象,排反事象という).
集合には数えられる集合(可算集合,とびとびの値をとる集合)と数えられない集合(非可算集合,連続的な値をとる集合)がある.変量(特徴量)のとり得る値の集合が可算集合であるか非可算集合であるかによって用いられる確率分布も異なってくる.
サイコロの目(1,2,3,4,5,6),事故の件数(0,1,2,…)
身長(0以上の実数)
n個からr個選ぶ場合の数
ここで,n!はn×(n-1)×…×2×1である.
数列{a_n}について考える.nが大きくなるにつれてa_nがaに近づくとき
とかく.aをa_nの極限値という.
関数f(x)をxがa以上b以下の範囲で積分する計算を
で表す.これはx軸とf(x)で囲まれる部分の符号付面積を表す.つまり,以下の図でx軸よりも上の部分(赤の斜線部分)の面積を足し,x軸よりも下の部分(青の斜線部分)の面積を引いた値となる.
現在の確率論や統計科学における確率の定義は公理的確率が採用されている.
全事象Ωの場合の数をn,事象Aの場合の数をrとする.このとき,P(A)=r/nとする.
この定義の問題点:
試行を無限に繰り返し,事象Aが起こる割合がpAに近づくとする.このとき,P(A)=pAとする.
この定義の問題点:
次の3条件を満たすPを確率という.(確率として成り立っていてほしい式をまとめたものになっている)
事象を簡単に表すために,確率変数を用いる.例えば,サイコロを1回投げて奇数が出る確率を
P(X=1,3,5)
と表すために用いられる変数を確率変数という.確率変数が離散型か連続型かによって用いられる確率分布が異なるので注意すること.
確率変数がとり得る値の集合が可算集合である場合(とびとびの値をとる場合)
確率変数がとり得る値の集合が非可算集合である場合(連続的な値をとる場合)
確率変数Xの確率分布を求めるとは,すべてのXの範囲で確率を求められるようにすることである.
つまり,確率分布がわかっていれば,どんなXの範囲でも自由に確率を求められる.
離散型確率変数Xの確率分布を総じて離散型確率分布という.
ここでは
P(X=1)=1/12, P(X=2)=1/12, P(X=3)=1/3, P(X=4)=1/12, P(X=5)=1/3, P(X=6)=1/12,P(X≠1,2,3,4,5,6)=0
を例として,基本的な計算を身につけることとする.
あるメダルは1回のコイントスで,表が出る確率がpであるとする.
1回コイントスをしたとき,x回表が出る確率は以下の確率関数で表される.
つまり,1回の試行で得られる結果が2通りである場合に用いられる確率分布である.
n人患者がおり,1人が感染症に罹患する確率をpとする(ただし,各々の感染は互いに独立に起きるものとする) .
n人のうちx人が感染症に罹患する確率は以下の確率関数で表される.
つまり,n回の独立試行で得られる結果がそれぞれ2通りである場合に用いられる確率分布である.
なお,E(X)=np,V(X)=np(1-p)である.
1ヶ月の自動車の平均事故件数をμ(=E(X))とする.
1ヶ月の事故件数がx件となる確率は以下の確率関数で表される.
ただし,e≒2.71828である.ポアソン分布は,二項分布においてn→∞,p→0,np→μとした場合の確率分布である.そのため,たくさんの試行回数で起こることが稀な事象が起こる件数を扱う際に用いられる確率分布である.
連続型確率変数Xの確率分布を総じて連続型確率分布という.
ここでは
を例として,基本的な計算を身につけることとする.ここで,ただし,e≒2.71828である.
P(1≦X≦2)を求める場合,1≦x≦2の範囲でf_X(x)を積分すればよい.今回の例では
つまり,以下の斜線部分の面積がP(1≦X≦2)となる:
この結果から,すべてのaでP(X=a)=0となることがわかる.
今回の例では
つまり,以下の斜線部分の面積を表す関数である:
上側100a%点は下側100(1-a)%点であるから
となるx_aが上側100a%点となる.
測定値が「平均μと誤差の和」の形で得られていることなどを仮定して考えられた連続型確率分布であり,主に実験データなどに用いられる.
正規分布の確率密度関数は以下の通りである.
ここで,e≒2.71828である.特に,μ=0, σ^2=1の正規分布(N(0, 1))を標準正規分布という.
待ち時間や寿命の分布を表す連続型確率分布である.
確率密度関数は以下の通りである.
ここで,E(X)=1/λである.
すべてのデータが得られなければ,興味のあるデータの確率分布を正確に求めることができない.つまり,ほとんどの場合,データの正確な確率分布を知ることはできない.そこで,興味のあるデータの源泉として母集団を設定し,そこから得られたn個の標本から,母集団分布を統計的に推測することを考える(nを標本サイズという).通常,標本は無作為標本(互いに独立,かつ,同一の分布から得られた標本)とする.
無情報に母集団分布を推測しようとすれば,分布のとがり具合,ゆがみ具合,いくつの山を持つか(単峰か多峰か),どこでピークとなるかなど,推測すべき点が非常に多くなる.少ない標本で母集団分布を推測するには効率よく推測する必要があるため,母集団分布を仮定し推測する方法がとられる.確率分布はパラメータを決定できれば,確率分布を一意的に定めることができるからである.例えば,母集団分布が正規分布の場合,平均μ,分散σ^2さえ推定できてしまえば,母集団分布を推測することができる.このように,母集団分布を仮定し,パラメータを推定して母集団分布を推測し,データ解析を行う方法をパラメトリックな方法という.逆に,パラメトリックでない母集団分布の推測法をノンパラメトリックな方法という.
パラメトリックな方法では,母集団を推測することはパラメータを推定することに問題が置き換わっている.例えば,母集団分布が正規分布の場合,母集団分布の平均や分散を推定することで母集団を推測する.母集団分布の平均がいくつか,分散がいくつかが推定できれば,母集団を推測することができるからである.平均は標本平均によって,そして分散は不偏標本分散によって推定される.ここで,標本平均や不偏標本分散はそれぞれ
である.このように,パラメータの推定に用いられるデータの関数を推定量という.この場合,平均μの推定量は標本平均Xbar,分散の推定量は不偏標本分散U^2である.
標本平均Xbar,不偏標本分散U^2を平均μや分散σ^2の推定量として使うならば,
と思うことが自然なことである.1個目の性質を満たすパラメータの推定量を不偏推定量,nが大きいときに2個目の性質を満たすパラメータの推定量を一致推定量という.
θを分布のパラメータ,θ^をθの推定量とする.このとき
が成り立つようなθ^をθの不偏推定量という.
をθ^の偏りという.
すべてのε>0に対して,以下が成り立つようなθの推定量θ^をθの一致推定量という:
イメージとしては以下の図のとおりである.
式や図の通り,θ^がθの一致推定量ならば,nが大きくなるにつれてθ^はθ付近に分布する確率が1に近づくことになる.