確率分布に関するメモ書きであるが、正規分布
\[ \small \phi_{N(0,\sigma^2)}(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{x^2}{2\sigma^2} \right) \]
に従う2つの乱数\(\small x,y\)について、これらの和や積、比などが従う確率分布を示しておく。平均が0でないと計算が複雑になったり、そもそも解析的に計算できない場合があるため、平均は0であると仮定する。証明は示さない(将来的に追記するかもしれないけど)。
和
\(\small x,y\sim N(0,\sigma^2)\)とする。相関がない場合は、\(\small z=x+y\)が従う確率分布は正規分布であり
\[ \small z\sim N(0, 2\sigma^2) \]
となる。相関が\(\small \rho\)である場合は
\[ \small z \sim N(0, 2(1+\rho)\sigma^2) \]
となる。例えば、相関が1である場合
\[ \small z \sim N(0, 4\sigma^2) \]
となる。これは2変数の正規分布関数\(\small \phi_{N_2(0,0,\sigma^2,\sigma^2,\rho)}(x,y)\)から、\(\small z=x+y\)とおいて
\[ \small \phi(z) = \int_{-\infty}^\infty \phi_{N_2(0,0,\sigma^2,\sigma^2,\rho)}(z-y,y)dy \]
を計算すれば求めることができる。
一般化して\(\small n\)個の和について計算すると、\(\small x_1,\cdots,x_n\sim N(0,\sigma^2)\)で相関がない場合
\[ \small \sum_{i=1}^n x_i\sim N(0,n\sigma^2) \]
である。注意が必要なのは
\[ \small nx_1 \sim N(0, n^2\sigma^2) \]
となることである。正規乱数を\(\small n\)倍することは相関が1の乱数を\(\small n\)個足すことと等価であり、独立な確率変数を\(\small n\)個足すのと、正規乱数を\(\small n\)倍するのとでは確率分布が異なることに注意する必要がある。
積
\(\small x,y\sim N(0,\sigma^2)\)とする。これは2変数の正規分布関数\(\small \phi_{N_2(0,0,\sigma^2,\sigma^2,\rho)}(x,y)\)から、\(\small z=xy\)とおいて
\[ \small \phi(z) = \int_{-\infty}^\infty\int_{-\infty}^\infty \delta\left(z-xy\right)\phi_{N_2(0,0,\sigma^2,\sigma^2,\rho)}(x,y)dxdy \]
を計算すれば求めることができるらしい。\(\small \rho=0\)の場合は、第2種の修正ベッセル関数\(\small K_\nu(x)\)を使って
\[ \begin{align*} & \small \phi(z) = \frac{1}{\pi\sigma} K_0\left(\frac{|z|}{\sigma} \right) \\ & \small K_0(x) = \int_0^\infty \frac{\exp\left(-t-\frac{x^2}{4t} \right)}{t} dt \end{align*} \]
と計算できるらしい。第2種の修正ベッセル関数\(\small K_\nu(x)\)が何者なのかは現在の筆者には不明である。
もう一つ面白いのは、4つの独立な標準正規乱数\(\small x_1,x_2,x_3,x_4\sim N(0,1)\)について
\[ \small z = x_1x_4\pm x_2x_3 \]
を定義した場合、\(\small z\)は標準ラプラス分布
\[ \small \phi_L(z) = \frac{1}{2}\exp(|z|) \]
に従う。これは座標\(\small x,y\)と運動量\(\small p_x,p_y\)が独立な正規分布に従う場合、角運動量
\[ \small l_x = xp_y-yp_x \\ \small l_y = xp_x+yp_y \]
がどのような確率分布になるかということに相当するだろう。
比
\(\small x,y\sim N(0,\sigma^2)\)とする。これは2変数の正規分布関数\(\small \phi_{N_2(0,0,\sigma^2,\sigma^2,\rho)}(x,y)\)から、\(\small z=x/y\)とおいて
\[ \small \phi(z) = \int_{-\infty}^\infty\int_{-\infty}^\infty \delta\left(z-\frac{x}{y} \right) \phi_{N_2(0,0,\sigma^2,\sigma^2,\rho)}(x,y)dxdy \]
を計算すれば求めることができる。\(\small \rho=0\)と仮定すると
\[ \small \phi_C(z) = \frac{1}{\pi}\frac{1}{1+z^2} \]
となり、これはコーシー分布と言われる確率分布の確率密度関数である。
二乗和とその平方根
\(\small x_1,\cdots,x_n\sim N(0,\sigma^2)\)で相関がない場合において、
\[ \small x=\sum_{i=1}^n x_i^2 \]
の確率分布を求めたいということはよくある問題であるし、その確率分布はよく知られている。\(\small \chi^2 \)分布(Chi-square Distribution)と言われる確率分布であり、確率密度関数は以下のような関数で計算される。
\[ \small \phi_{\chi^2(n, \sigma^2)}(x) = \frac{1}{2^{\frac{n}{2}}\Gamma\left(\frac{n}{2}\right)\sigma^{\frac{n}{2}}}x^{\frac{n}{2}-1}\exp\left(-\frac{x}{2\sigma}\right) \]
相関がない\(\small n\)個の標準正規乱数\(\small x_1,\cdots,x_n\sim N(0,1)\)について
\[ \small x =\frac{1}{n}\sum_{i=1}^n x_i^2 \]
の確率分布を求める場合は、上記の式で\(\small \sigma=1/n\)と置けば確率分布が一致することは確認できるだろう。
同様にして、二乗和の平方根
\[ \small x=\sqrt{\sum_{i=1}^n x_i^2} \]
が従う確率分布もよく用いられ、この値が従う確率分布を\(\small \chi\)分布(Chi Distribution)という。\(\small x\)の2乗の値が\(\small \chi^2\)分布に従うのであるから、\(\small \sigma=1\)と置くと
\[ \small \chi(x|n) = \chi^2(x^2|n) \]
が成り立つ。両辺を\(\small x\)で微分すると
\[ \small \phi_{\chi(n)}(x) = \frac{d(x^2)}{dx} \phi_{\chi^2(n)}(x^2)=2x\phi_{\chi^2(n)}(x^2) \]
を得る。\(\small x\)を\(\small x/\sigma\)で置き換えれば、\(\small \chi \)分布の確率密度関数を得ることができる。したがって、\(\small \chi \)分布の確率密度関数は
\[ \small \phi_{\chi(n,\sigma^2)}(x) = \frac{1}{2^{\frac{n}{2}-1}\Gamma\left(\frac{n}{2}\right)\sigma^n}x^{n-1}\exp\left(-\frac{x^2}{2\sigma^2}\right) \]
と得ることができる。相関がない\(\small n\)個の標準正規乱数\(\small x_1,\cdots,x_n\sim N(0,1)\)について
\[ \small x =\sqrt{\frac{1}{n}\sum_{i=1}^n x_i^2} \]
の確率分布を求める場合は、上記の式で\(\small \sigma=1/\sqrt{n}\)と置けば確率分布が一致することは確認できる。
一般的な比の確率分布
最後に、分子と分母が正規分布以外の確率分布(\(\small \chi^2 \)分布など)の場合にも拡張しよう。例えば、正規分布と\(\small \chi \)分布の比はStudentの\(\small t\)分布と言われる確率分布になることが知られている。これは標本値の確率分布を標本標準偏差で割って基準化した値が従う確率分布であり、計量経済学などでよく登場する確率分布である。もう一つの例は2つの正規分布からサンプリングされた標本の分散の比に関する確率分布であり、2つの\(\small \chi^2 \)分布からサンプリングされた乱数の比が従う確率分布であり、これは\(\small F\)分布といわれる確率分布になる。
これらを一般化したものとして、分子と分母が一般化ガンマ分布と言われる以下の確率分布に従う場合の比の値が従う確率分布を示しておく。
\[ \small \gamma(x|\sigma,n,d) = \frac{d}{\Gamma\left(\frac{n}{d}\right)\sigma^n}x^{n-1}\exp\left( -\left(\frac{x}{\sigma}\right)^d\right) \]
一般化ガンマ分布が正規分布、\(\small \chi^2 \)分布、\(\small \chi \)分布を含む相当程度に一般化された確率分布であることは理解できるだろう。\(\small x,y\)がそれぞれ\(\small (\sigma_1,n_1,d)\)、\(\small (\sigma_2,n_2,d)\)の一般化ガンマ分布に従うとすると、\(\small z =x/y\)の確率密度関数は
\[ \small \phi_r(z) = \frac{\Gamma\left(\frac{n_1+n_2}{d}\right)}{\Gamma\left(\frac{n_1}{d}\right)\Gamma\left(\frac{n_2}{d}\right)}\frac{\left(\frac{\sigma_2}{\sigma_1}\right)^{n_1}z^{n_1-1}}{\left[1+\left(\frac{\sigma_2}{\sigma_1}\right)^{d} z^{d}\right]^{\frac{n_1+n_2}{d}}} \]
で与えれられるらしい。注意が必要なのはこの公式において\(\small d\)は共通の値でなければならないということである。
例として、標準正規分布に従う乱数\(\small x,y\)の比\(\small z=x/y\)は\(\small \sigma_1=\sigma_2=\sqrt{2},n_1=n_2=1,d=2\)と置けば
\[ \small \phi_C(z) = \frac{1}{\pi}\frac{1}{1+z^2} \]
となり、これはコーシー分布の確率密度関数であった。標準正規分布に従う乱数\(\small z\)を自由度\(\small m\)の\(\small \chi\)分布に従う乱数\(\small \xi\)を\(\small \sqrt{m}\)(データの個数の平方根)で割った値
\[ \small x = \frac{z}{\xi/\sqrt{m}} \]
が従う確率分布を考える。\(\small \sigma_1=\sqrt{2},n_1=1,d=2\),\(\small \sigma_2 = \sqrt{2/m},n_2=m,d=2\)であるから、この確率変数が従う確率分布は
\[ \small \phi_{t(m)}(x) = \frac{1}{\sqrt{m}}\frac{\Gamma\left(\frac{m+1}{2}\right)}{\Gamma\left(\frac{1}{2}\right)\Gamma\left(\frac{m}{2}\right)}\frac{1}{\left[1+\frac{x^{2}}{m}\right]^{\frac{m+1}{2}}} \]
となり、これは自由度\(\small m\)のStudentの\(\small t\)分布の確率密度関数である。最後に、2つの自由度\(\small m_1,m_2\)の\(\small \chi^2 \)分布に従う乱数\(\small u,v\)について
\[ \small x = \frac{u/m_1}{v/m_2} \]
が従う確率分布を考える。この場合、\(\small \sigma_1=1/m_1,n_1=m_1/2,d=1\),\(\small \sigma_2=1/m_2,n_2=m_2/2,d=1\)であるから代入して計算すると
\[ \small \phi_F(x) =\frac{\Gamma\left(\frac{m_1+m_2}{2}\right)}{\Gamma\left(\frac{m_1}{2}\right)\Gamma\left(\frac{m_2}{2}\right)}\frac{\left(\frac{m_1}{m_2}\right)^{\frac{m_1}{2}}z^{\frac{m_1}{2}-1}}{\left[1+\frac{m_1}{m_2} x\right]^{\frac{m_1+m_2}{2}}} \]
となり、これは\(\small F\)分布の確率密度関数となる。以上の例から、おそらく上記の式は正しいと推測できるだろう。
参考文献
[1] 蓑谷千凰彦, 統計分布ハンドブック(増補版). 朝倉書店, 2010.
[2] Malik, Henrick J., Exact Distribution of the Quotient of Independent Generalized Gamma Variables. Canadian Mathematical Bulletin. 1967;10(3):463-465.