$ \DeclareMathOperator{\arccosh}{arccosh} \DeclareMathOperator{\arcsinh}{arcsinh} \DeclareMathOperator{\rank}{rank} \DeclareMathOperator{\rot}{rot} \DeclareMathOperator{\grad}{grad} \DeclareMathOperator{\diver}{div} $

正規分布

統計学といえばコレ、と言えるぐらい有名な「正規分布」。 しかしコイツ、なかなかのツワモノ。 どこらへんがかと言うと、確率密度函数が、
\begin{equation} f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{1}{2} \left( \frac{x-\mu}{\sigma} \right)^2 } \end{equation}
(1)
と、ひたすらにフクザツ…。 でもちゃんと計算すればこの複雑な式もキチンと計算できるのだ! …ということを書いていきたいと思います。

1予備知識

高校レベルの統計学の知識があるものとします。 「確率変数」、「期待値」、「分散」、「標準偏差」等の単語を知ってて定義も言えれば大丈夫です。
ただ確率密度函数についての知識があったほうが良いです。
でも離散的な確率変数に対する、上に挙げた単語の定義がスラスラ言えるなら式を見れば分かると思います。 分かんなかったらごめんなさい。
あとガウス積分使いまくりなので、ガウス積分の記事を読んでください。 めんどくせ…読んでられっか…って人も取り敢えず、
\begin{equation} I = \int_{-\infty}^\infty e^{-ax^2} dx = \sqrt{\frac{\pi}{a}} \end{equation}
(2)
だけは知っといてください。

2正規分布とは

正規分布(normal distribution)、別名、ガウス分布(gaussian distribution)
この名は、Johann Carl Friedrich Gaussという有名な物理・天文・数学者が、天体の測定誤差がおおよそ、
\begin{equation} e^{-x^2} \end{equation}
(3)
の形をした函数に従う [1] 事を発見し、研究したことに由来しています。
正規分布の確率密度函数 [2] は、一番上に挙げた式で表されます。
別に天体に限らず、さまざまな測定誤差とか身長のばらつきとかがおおよそ従います。 なのでとっても重要。

[1]中心極限定理という定理によれば、母集団がどんな確率分布に従おうとも、標本平均と母平均との差(誤差)は、標本を多くとれば正規分布に従うことが分かるらしいです。
[2]確率密度函数とは何かについては直下のセクションを参照のこと

3確率密度函数

早速一番上のフクザツな数式を導きたいのですが、そのまえに確率密度函数(probability density function;pdf)とはなんぞや?という話からしていきます。 分かっている人は読み飛ばしてください。

3.1確率密度函数とは?

事象にはサイコロの目のように離散的な(とびとびの)値をとるものもありますが、 しかし一般には違います。
例えば教科書を読み始めてから睡魔が襲うまでの時間は、一分二分、一秒二秒と言った具合に数えることのできない連続的なものです (つまり正確な時計で測れば、"きっかり"1秒後に寝るということは殆ど [1] 起こりえず、10.923秒後とか、12分31.256秒後などといった中途半端な数になる)。
なので例えば睡魔が襲うまでの時間が0時間から1時間の確率はいくつ、1時間から2時間の確率はいくつ、 と言った具合に離散的なものに還元して考えなければなりません。
しかし1時間と言う区切りはかなり大雑把だと言えるでしょう。 なぜならほとんどの場合、1時間以内に睡魔は現れる[2]からです。 しかしこの区切りを1時間ではなくもっと短くすればより正確な確率が分かりそうです。
そこで区切りを$\Delta x$$x$から$x+\Delta x$の間に眠りにつく確率を$P_x$とおいて、
\begin{equation} f(x) = \lim_{\Delta x \rightarrow 0} \frac{P_x}{\Delta x} \end{equation}
(4)
なる函数f(x)を考えるれば良いでしょう。
この函数を、確率密度函数と言います。
ちなみに「密度」という名前にも理由(?)があります。
約x秒後に眠りに落ちる確率は、$f(x)$が高いほうが大きいので、$f(x)$は確率とほぼ同じ意味を持ちます。 しかし$f(x)$そのものは確率を表しているのではない [3] です。 そこで$f(x)$のことは「確率密度」と呼んで区別します。 「確率密度」の函数なので、「確率密度函数」ということです。
この函数を考えることで、例えば$a$秒後から$b$秒後に睡魔に襲われる確率は、
\begin{equation} \int_a^b f(x) dx \end{equation}
(5)
で表せます。 定義から明らかですよね?

3.2性質

確率密度函数から期待値や分散などの統計値を導き出す公式がいくつかあります。 後で必要になるので、次にそれらを紹介しましょう。

3.2.1資格

確率密度函数は、その定義から、
\begin{equation} \int_{-\infty}^\infty f(x) dx = 1 \end{equation}
(6)
となります。 まぁ確率の合計は1になるように定義しているので当たり前と言うのもはばかれるくらい自明ですが。

3.2.2期待値

期待値は確率変数の値と確率を掛けたものの合計なので、
\begin{equation} \mu = \int_{-\infty}^\infty x f(x) dx \end{equation}
(7)
なお$\mu$は期待値です。

3.2.3分散

分散は期待値からの散らばり具合の指標であり、
\begin{equation} \sigma^2 = \int_{-\infty}^\infty (x - \mu)^2 f(x) dx \end{equation}
(8)
なお$\sigma$は標準偏差です。 分かってると思いますが、標準偏差の二乗が分散ですよ。

[1]殆どではなく、実は0。少し考えれば当たり前ですが…。
[2]…と思う。
[3]確率$(P_x)$を長さ$(\Delta x)$で割っているので$f$は 確率 / L の次元を持ちます。

4導出

というわけで準備もそろったので早速恐怖のあの式を導出しましょう。

4.1準備

その前に準備。
期待値は$x$軸方向に$h$だけ平行移動させると$h$だけ増えます。 なぜなら、
\begin{eqnarray*} \int_{-\infty}^\infty xf(x-h) dx &=& \int_{-\infty}^\infty \left( (x-h)f(x-h) + h f(x-h) \right) dx \\ &=& \int_{-\infty}^\infty xf(x) dx + h \int_{-\infty}^\infty f(x) dx \\ &=& \mu + h \end{eqnarray*}
(9)
だからです。
ということでまず期待値は$0$として導出し、それから$x$軸方向に$\mu$だけ平行移動することで最終結果とすれば良いですね。
次。
正規分布は、
\begin{equation} e^{-x^2} \end{equation}
(10)
の形をした函数なので、コイツをどんだけ上下左右にぎゅうぎゅう伸ばして(縮めて)あげれば前セクションで挙げた確率密度函数の性質を満たすようになるのかを考えればいいでしょう。 つまり正規分布の確率密度函数を、
\begin{equation} f(x) = A e^{-Bx^2} \end{equation}
(11)
と置いて、全セクションの確率密度函数の性質で挙げた積分を計算することで$A$$B$の値を決定していきます。

4.2資格

fが確率密度函数であるための条件から、
\begin{eqnarray*} \int_{-\infty}^\infty f(x) dx & = & A \int_{-\infty}^\infty e^{-Bx^2} \\ &=& A \sqrt{\frac{\pi}{B}} = 1 \end{eqnarray*}
(12)
が一つ目の条件式。

4.3期待値

これは前述のとおり$0$になります。 一応計算すると…っと計算するまでもないですね。$xf(x)$は奇函数なので積分値は$0$です。
絶対。

4.4分散

次に分散を責めて行きましょう。期待値が$0$であることに注意すると、
\begin{eqnarray*} \int_{-\infty}^\infty (x-\mu)^2 f(x) dx & = & \int_{-\infty}^\infty x^2 f(x) dx \\ &=& \int_{-\infty}^\infty A x^2 e^{-Bx^2} dx \\ &=& \left\{ -\frac{A}{2B} x e^{-Bx^2} \right\}_{-\infty}^\infty - \int_{-\infty}^\infty - \frac{A}{2B} e^{-Bx^2} dx \\ &=& 0 + \frac{A}{2B} \sqrt{\frac{\pi}{B}} \\ &=& \frac{\sqrt{\pi}A}{2B\sqrt{B}} = \sigma^2 \end{eqnarray*}
(13)
となりました。 これで二つの条件式が揃いました。 未知数二つに条件式二つなのでこれでいけるはずです。

4.5連立

上の二つの条件式を連立して解くと、
\begin{equation} A = \frac{1}{\sqrt{2\pi}\sigma} \end{equation}
(14)
\begin{equation} B = \frac{1}{2\sigma^2} \end{equation}
(15)
となります。 $f(x)$の式に$A$$B$を代入して、
\begin{equation} f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{x^2}{2\sigma^2}} \end{equation}
(16)
おっ、それらしき式が出てきました。 ここまで来たらもう倒したも同然ですね。

4.6期待値を加味

準備段階で「無視するっ!」と高々に宣言した期待値ですが、ここら辺で仲間に戻してあげましょう。 期待値を$\mu$にするには、$x$軸方向に$\mu$だけ平行移動してあげればよいので、
\begin{eqnarray*} f(x) & = & \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \\ &=& \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{1}{2} \left( \frac{x-\mu}{\sigma} \right)^2} \end{eqnarray*}
(17)
と目的の式が出てきました!