【このページは現在作成中です】
要素の集まりを集合という.ただし,この集合は,数学的に範囲が明確な要素の集まりでなければならない.
要素全体の集合を全体集合といい,Ωで表す.
要素を持たない集合を空集合といい,φで表す.
Aの要素またはBの要素からなる集合をAとBの和集合といい,A∪Bで表す.
Aの要素かつBの要素からなる集合をAとBの積集合といい,A∩Bで表す.
特にA∩B=φとなるとき, AとBは排反であるという.
実験結果を要素にもつ集合を事象という(事象に対する上記4つをそれぞれ,全事象,空事象,和事象,積事象,排反事象という).
集合には数えられる集合(可算集合,とびとびの値をとる集合)と数えられない集合(非可算集合,連続的な値をとる集合)がある.変量(特徴量)のとり得る値の集合が可算集合であるか非可算集合であるかによって用いられる確率分布も異なってくる.
サイコロの目(1,2,3,4,5,6),事故の件数(0,1,2,…)
身長(0以上の実数)
n個からr個選ぶ場合の数
ここで,n!はn×(n-1)×…×2×1である.
関数f(x)をxがa以上b以下の範囲で積分する計算を
で表す.これはx軸とf(x)で囲まれる部分の符号付面積を表す.つまり,以下の図でx軸よりも上の部分(赤の斜線部分)の面積を足し,x軸よりも下の部分(青の斜線部分)の面積を引いた値となる.
現在の確率論や統計科学における確率の定義は公理的確率が採用されている.
全事象Ωの場合の数をn,事象Aの場合の数をrとする.このとき,P(A)=r/nとする.
この定義の問題点:
試行を無限に繰り返し,事象Aが起こる割合がpAに近づくとする.このとき,P(A)=pAとする.
この定義の問題点:
次の3条件を満たすPを確率という.(確率として成り立っていてほしい式をまとめたものになっている)
事象を簡単に表すために,確率変数を用いる.例えば,サイコロを1回投げて奇数が出る確率を
P(X=1,3,5)
と表すために用いられる変数を確率変数という.確率変数が離散型か連続型かによって用いられる確率分布が異なるので注意すること.
確率変数がとり得る値の集合が可算集合である場合(とびとびの値をとる場合)
確率変数がとり得る値の集合が非可算集合である場合(連続的な値をとる場合)
確率変数Xの確率分布を求めるとは,すべてのXの範囲で確率を求められるようにすることである.
つまり,確率分布がわかっていれば,どんなXの範囲でも自由に確率を求められる.
離散型確率変数Xの確率分布を総じて離散型確率分布という.
ここでは
P(X=1)=1/12, P(X=2)=1/12, P(X=3)=1/3, P(X=4)=1/12, P(X=5)=1/3, P(X=6)=1/12,P(X≠1,2,3,4,5,6)=0
を例として,基本的な計算を身につけることとする.
あるメダルは1回のコイントスで,表が出る確率がpであるとする.
1回コイントスをしたとき,x回表が出る確率は以下の確率関数で表される.
つまり,1回の試行で得られる結果が2通りである場合に用いられる確率分布である.
n人患者がおり,1人が感染症に罹患する確率をpとする(ただし,各々の感染は互いに独立に起きるものとする) .
n人のうちx人が感染症に罹患する確率は以下の確率関数で表される.
つまり,n回の独立試行で得られる結果がそれぞれ2通りである場合に用いられる確率分布である.
1ヶ月の自動車の平均事故件数をμとする.
1ヶ月の事故件数がx件となる確率は以下の確率関数で表される.
ただし,e≒2.71828である.ポアソン分布は,二項分布においてn→∞,p→0,np→μとした場合の確率分布である.そのため,たくさんの試行回数で起こることが稀な事象が起こる件数を扱う際に用いられる確率分布である.
連続型確率変数Xの確率分布を総じて連続型確率分布という.
ここでは
を例として,基本的な計算を身につけることとする.ここで,ただし,e≒2.71828である.
P(1≦X≦2)を求める場合,1≦x≦2の範囲でf_X(x)を積分すればよい.今回の例では
つまり,以下の斜線部分の面積がP(1≦X≦2)となる:
この結果から,すべてのaでP(X=a)=0となることがわかる.
今回の例では
つまり,以下の斜線部分の面積を表す関数である:
上側100a%点は下側100(1-a)%点であるから
となるx_aが上側100a%点となる.
測定値が「平均μと誤差の和」の形で得られていることなどを仮定して考えられた連続型確率分布であり,主に実験データなどに用いられる.
正規分布の確率密度関数は以下の通りである.
ここで,e≒2.71828である.特に,μ=0, σ^2=1の正規分布(N(0, 1))を標準正規分布という.
待ち時間や寿命の分布を表す連続型確率分布である.
確率密度関数は以下の通りである.
ここで,E(X)=1/λである.
すべてのデータが得られなければ,興味のあるデータの確率分布を正確に求めることができない.つまり,ほとんどの場合,データの正確な確率分布を知ることはできない.そこで,興味のあるデータの源泉として母集団を設定し,そこから得られたn個の標本から,母集団分布を統計的に推測することを考える.