第6章 確率と面積

こんにちは。后稷です。

確率と面積の組み合せには、若干の違和感が感じられるかも知れません。確かに、確率と面積は、一見して、何の類似点も共通点もない、全く別の事柄の様ではあります。しかし、とある方法で、とある図形の面積を計算すると、どういうわけか、物事の発生確率が計算されてしまうのでした。なんとも不思議な、数学の実話です。

どうして確率と面積が一致するのか。其の仕組み、計算方法、そして実用例を、簡潔にお話し致しました。

第6章の目次
加重平均値
確率と面積・・・離散型
確率と面積・・・連続型
平均と分散


加重平均値

図形の面積にて、物事の発生確率を示す計算には、其の前提として、加重平均値の知識が欠かせません。本題に入る前の準備として、本節では、加重平均についてお話しします。なお、加重平均の特徴をより明確にすべく、既に第二章で触れた、算術平均と対比して参ります。

巷間で単に平均と言えば、其れは、算術平均を意味する場合が、多いのではないでしょうか。算術平均値は、全ての確率変数を平等に扱い、其の差異を均した数値です。発生の頻度が高い正常な数値も、頻度の低い異常な数値(外れ値)も、どちらも平等に扱うので、算術平均は外れ値の影響を強く受けます。

一方で、加重平均は、算術平均と比較すると、巷間での認知度は、やや低いと思われます。加重平均値においては、其々の確率変数が、平均値に与える影響の度合いは、計算を行う者の裁量にて、柔軟に設定されます。正常な確率変数の影響度を大きく、異常な其れの影響度を小さく設定すれば、加重平均値は、外れ値の影響を然程には受けません。

平均値の方程式

・算術平均値 \(=\frac{\displaystyle\sum_{i=1}^{n}x_i}{n}=\displaystyle\sum_{i=1}^{n}(x_i\times\frac{1}{n})\)

・加重平均値 \(=\displaystyle\sum_{i=1}^{n}(x_i\times p_i)\)

MS社の表計算ソフトExcelでは、算術平均値は、関数AVERAGE(xの範囲)にて計算されます。英単語AVERAGEの和訳は平均値です。また加重平均値は、関数SUMPRODUCT(xの範囲, pの範囲)にて計算されます。SUMは合計、PRODUCTは掛け算の答えである積の意味です。

さて、平均値の計算方法の違いは、分散の値にも影響を与えます。

分散は、基準となる代表値からの、確率変数の散らばり具合を示します。代表値には、平均値が用いられるが一般的です。当該平均値には、先に見た様に、算術平均と加重平均の二種類があります。

また、そもそも分散は、偏差を二乗した数値の平均値です。其処にもまた、算術平均と加重平均の、2種類の計算方法があります。

分散の方程式

・算平による分散 \( =\frac{\displaystyle\sum_{i=1}^{n}(x_i-算平)^2}{n}\)

\(\hspace{70pt}=\displaystyle\sum_{i=1}^{n}((x_i-算平)^2\times\frac{1}{n})\)

・加平による分散 \(=\displaystyle\sum_{i=1}^{n}((x_i-加平)^2\times p_i)\)

MS社の表計算ソフトExcelでは、算術平均値による分散は、関数VAR.P(xの範囲)にて計算されます。VAR及びPは、分散及び母集団と示す英単語、VarianceとPopulationの略語です。また加重平均値は、関数SUMPRODUCT(\((x_i-加平)^2\)の範囲, pの範囲)にて計算されます。

平均値と分散の計算は、実際の数値を用いて、動画にて詳しく解説しております。

確率と面積(離散型)

まずは、離散型の確率変数における、確率と面積の関係を見ていきましょう。其の計算は、実に単純です。

離散型の確率変数では、発生可能な事象の種類数は有限です。よって全ての結果について、其々の発生確率を、棒グラフにて描画することが可能です。すると自然に、棒の面積と発生確率が一致します。複数の事象の発生確率は、個々の発生確率の合計として計算されます。

例として、サイコロを振り、賽の目が3から5までの数値が発生する確率を考えましょう。サイコロは、結果が六通りの、離散型です。よって3〜5の発生確率は、単純な足し算により、P(3)+P(4)+P(5)として計算されます。

なお、面積を以って確率と看做す計算方法には、確率の性質を鑑みて、満たされるべき条件が二つあります。確率計算を行う際には、計算に先だって、これら条件が満たされているか否かを、必ず確認しておきましょう。なお、これら条件が満たされる時に、関数f(x)は、確率質量関数と呼ばれます。

確率質量関数の条件
・\(0\leq f(x)\leq 1\)・・・f(x)は常に0以上1以下
・ \(\displaystyle\sum_{i=1}^{n}f(x_i)=1\)・・・全図形の面積の合計は1

条件の一つ目は、f(x)の値は、xの値に関わらず、常に、0以上1以下でなければなりません。発生確率は、言うまでもなく、最低値が0%、最高値が100%であり、必ずこの範囲内に収まります。発生確率がマイナス圏内にあったり、100%を超えている状況は、あり得ません。

二つ目の条件は、全図形の面積の合計は、必ず1でなければなりません。発生可能な全ての事象の確率を合計すると1、即ち100%になります。100%に届かない場合には、何かが計算に含まれていない状況を、また100%を超えている場合には、何かが重複されている状況を、其々、示唆します。

実際に図形を描いた確率の計算は、動画にて解説しております。

確率と面積(連続型)

続いては、確率変数が連続である場合を、見ていきましょう。離散型と比較すると、其の計算方法は、やや複雑です。

連続型の確率変数では、発生可能な事象の種類数は無限です。よって、各事象の発生確率は1/∞、即ちゼロに近似します。其の為、全ての結果について、其々の発生確率を、棒グラフにて描画することは不可能です。無限に存在するゼロを全て合計しても、其の解はゼロのままです。よって単純な足し算に代えて、積分法により面積の計算を行います。

例として、1から6までの間にある、小数点を含む、全ての数値が発生可能な乱数を考えます。当該乱数が3から5までの範囲内の数値を示す確率は、どの様に計算されるでしょうか。当該乱数は、結果が無限通りの、連続型です。よって3〜5の発生確率は、積分法により、\(\int_3^5 f(x) dx\)として計算されます。

なお、離散型の時と同様に、面積を以って確率と看做す計算方法には、満たされるべき条件が二つあります。これら条件が満たされる時に、関数f(x)は、確率密度関数と呼ばれます。先の確率「質量」関数とは名称が異なるので、表現する際には、若干の注意が必要です。

確率密度関数の条件
・\(0\leq f(x)\leq 1\)・・・f(x)は常に0以上1以下
・ \(\int_{-\infty}^{\infty}f(x)=1\)・・・全図形の面積の合計は1

これら二つの条件の内で、特に問題になるのは、二番目の条件です。多くの場合において、当該条件は、計算の初期段階では、満たされていません。よって、計算に先だって、合計値を1にする調整を行う必要があります。この作業は、広く一般的に、規格化・正規化・一般化・標準化などと呼ばれています。

標準化は、以下の手順で行います。

まずは、右辺にある1ではない数値の逆数を、両辺に掛けます。すると右辺は1になります。一方で、左辺は、元からある積分式に、当該逆数が乗じされた数式になります。

\(\int_{-\infty}^{\infty}f(x) dx \times 逆数 =1\)

積分式の外から逆数が常時されていますが、計算の順序を変えて、f(x)に逆数を乗じて後に積分しても、最終的な答えは変わりません。参考までに、Aの積分とBの積は、AとBの積の積分と一致します。

\(\int_{-\infty}^{\infty}(f(x) \times 逆数) dx=1\)

こうして、積分の対象となる関数が改まります。この関数で、確率の計算を行います。

・標準化前の関数 \(=f(x)\)
・標準化後の関数 \(=f(x)\times 逆数\)

標準化の作業を失念すると、例え其の後の計算を正しく行なったとしても、正確な確率は算出されません。条件②の成立を、くれぐれも、良く確認するが賢明です。

実際に図形を描いた確率の計算は、動画にて解説しております。其方をご覧ください。

平均と分散

確率変数の分布に関する、加重平均値の方程式は以下の通りです。

加重平均値
・離散型:\(\displaystyle\sum_{i=1}^{n}(x_i\times p_i)\)
・連続型:\(\int_{-\infty}^{\infty}(x \times f(x))dx\)

また、分布の分散の方程式は以下の通りです。

分散
・離散型: \(=\displaystyle\sum_{i=1}^{n}((x_i-加平)^2\times p_i)\)

・連続型:\(\int_{-\infty}^{\infty}((x-加平)^2 \times f(x))dx\)

離散型の確率変数においては、個体ごとに、棒の面積を計算します。よって、個体を識別する記号であるiが附されています。一方で、連続型の場合には、事象の発生確率は、各個体ごとではなく、全体を代表する関数から計算されます。よって識別記号であるiがありません。

離散型の方程式が、少しずつ段階的に、連続型の方程式に変わっていく流れは、動画にて詳しくお話ししております。

本日の終わりに

事象の発生確率の計算は、一見して複雑そうに見えますが、其の実態は、実に単純な、面積の計算に過ぎなかったのでした。

誰しもが、高校時代に、積分法を学んだことでしょう。往年に学習した知識は、確率の計算に用いられます。積分法の力を借りずして、正確な確率計算は叶いません。

次回の動画では、分布の関数f(x)の計算方法についてお話しする予定です。お目汚し、失礼致しました。近い将来に、またお逢い出来たら幸いです。

怱々不一
有栖川后稷


統計学の部屋へ