본문 바로가기
ML & DL/확률과 통계

확률 분포 (Probability Distribution)

by 별준 2022. 5. 30.

References

  • 확률과 통계 강의 7, 8, 9강 (KOWC - 한양대학교 이상화 교수님)
  • Fundamentals of Applied Probability and Random Processs (Oliver Ibe)

Contents

  • 베르누이 분포 (Bernoulli Distribution)
  • 이항 분포 (Binomial Distribution)
  • 기하 분포 (Geometric Distribution)
  • 포아송 분포 (Poisson Distribution)
  • 지수 분포 (Exponential Distribution), 어랑 분포 (Erlang Distribution)
  • 균일 분포 (Uniform Distribution)
  • 정규 분포 (Normal Distribution)

이번 포스팅에서는 교재의 챕터 4(Special Distribution)에 해당하는 내용들을 살펴보도록 하겠습니다.

 

베르누이 분포

베르누이 분포 (Bernoulli Distribution)에서의 확률 변수(random variable)는 2가지 output에 매핑됩니다. 일반적으로 success와 failure로 표현하며, 실수로는 1과 0으로 매핑합니다. 성공할 확률을 p라고 한다면, 각 확률 변수의 확률은 다음과 같습니다.

\[\begin{cases} P[\text{success}] = p \\ P[\text{failure}] = 1 - p \end{cases}\]

success를 1, failure를 0에 매핑하면 PMF를 다음과 같이 확률을 표현할 수 있습니다.

\[P_X(x) = \begin{cases} 1 - p && , x = 0 \\ p && , x = 1 \end{cases}\]

또는, 다음과 같이 작성할 수도 있습니다.

\[P_X(x) = p^x (1-p)^{1-x} \text{ ,  } x = 0, 1\]

베르누이 분포에서의 평균(\(E[X]\))와 분산(\(\sigma_X^2\))은 다음과 같습니다.

\[\begin{align*}& E[X] = p \\ &\sigma_X^2 = p(1-p) \end{align*}\]

 


이항 분포

베르누이 분포를 n번 독립적으로 수행한다고 생각해봅시다(n independent Bernoulli trials). 이때, 성공한 횟수를 확률 변수로 정의한 분포를 이항 분포(Binomial Distribution)라고 합니다. 따라서, 이항 분포의 확률 변수는 파라미터 (n, p)로 정의되며, 이항 분포의 PMF는 다음과 같습니다.

\[P_X(x) = \binom{n}{x} p^x (1-p)^{n-x} \text{ , } x = 0, 1, \cdots, n\]

카운트가 가능하기 때문에 당연히 이 확률 변수는 이산적(discrete)입니다.

 

일반적으로 확률 변수 X에 대한 이항 분포를 \(X \sim B(n, p)\)로 표기합니다.

PMF of binomial random variable with p = 0.5

 

이항 분포가 진짜 확률 분포인지 확인하려면 0부터 n까지에 대한 모든 확률의 더해서 1이 되는지 확인하면 됩니다.

\[sum_{x = 0}^{n} P_X(x) = \sum_{x = 0}^{n} \binom{n}{x} p^x (1-p)^{n-x} = (p + (1-p))^n = 1^n = 1\]

0부터 n까지의 모든 확률의 합은 이항 정리에 의해서 그 값이 1이 됩니다. 따라서, 이항 분포는 올바른 확률 분포라고 할 수 있습니다.

 

이항 분포의 평균과 분산은 다음과 같습니다. 자세한 계산 방법은 생략하도록 하겠습니다.. !

\[\begin{align*}& E[X] = np \\ &\sigma_X^2 = np(1-p) \end{align*}\]

 

 


기하 분포

기하 분포(Geometric Distribution)는 지난 포스팅(확률 변수의 평균과 분산)에서 언급한 적이 있는데, 기하 분포에서 확률 변수는 처음 성공할 때까지 수행한 베르누이(bernoulli) trials 횟수입니다. 기하 확률 변수의 PMF는 다음과 같이 주어집니다.

\[P_X(x) = p(1-p)^{x-1} \text{ , } x = 1, 2, \cdots\]

PMF of the geometric random variable

기하 분포의 평균과 분산은 다음과 같습니다.

\[\begin{align*}& E[X] = \frac{1}{p} \\ &\sigma_X^2 = \frac{1-p}{p^2} \end{align*}\]

 

 

기하 분포에는 forgetfulness(or memoryless)라는 특징이 있습니다.

예를 들어, 기하 분포에서 이미 n번까지 시도를 했고(모두 실패) 추가로 k번 더 시도할 때 성공할 확률을 계산해봅시다. 조건에 의해서 \(P(X = n + k | X > n)\)의 확률을 계산해야 합니다.

\[\begin{align*} P(X = n + k | X > n) &= \frac{P(X = n + k \cap X > n)}{P(X > n)} \\ &= \frac{P(X = n + k)}{P(X > n)} \\ &= \frac{(1-p)^{n+k-1} p}{\sum_{x = n+1}^{\infty} (1-p)^{x-1} p} = \frac{(1-p)^{n+k-1} p}{(1-p)^n} \\ &= p(1-p)^{k-1} = P(X = k) \end{align*}\]

위와 같이 계산하면 결과적으로 n + k번째에 성공할 확률은 기하 분포에서 k번째 성공할 확률과 동일하다는 것을 확인할 수 있습니다.

즉, 앞서 실패한 횟수는 앞으로 성공할 확률에 전혀 관여하지 않는다는 것을 확인할 수 있으며 이와 같은 성질을 forgetfulness라고 합니다.

 


포아송 분포

포아송 분포(Poisson Distribution)에서 확률 변수는 어느 한 시간 구간(time interval)에서 베르누이 사건의 성공 횟수입니다. 당연히 이산 확률 변수이며 PMF는 다음과 같이 주어집니다.

\[P_X(x) = \frac{\lambda ^x}{x!} e^{-\lambda} \text{ , } x = 0, 1, 2, 3, \cdots\]

 

포아송 분포의 평균과 분산 역시 이전 포스팅에서 언급했으므로, 자세한 계산이나 설명은 스킵하도록 하겠습니다.

\[\begin{align*}& E[X] = \sigma_X^2 = \lambda \end{align*}\]

 


지수 분포

지수 분포(Exponential Distribution)에서 (연속) 확률 변수는 일반적으로 life time(시스템이 특정 시간까지 생존할 가능성)이나 decaying time(반감기)로 정의됩니다. PDF는 \(\lambda > 0\)과 함께 다음과 같이 주어집니다.

\[f_X(x) = \begin{cases} \lambda e^{-\lambda x} && x \geq 0 \\ 0 && x < 0  \end{cases}\]

PDF를 통해 CDF를 구할 수 있으므로, 위의 PDF를 통해 계산된 CDF는 다음과 같습니다.

\[F_X(x) = P[X \leq x] = \int_{0}^{x} f_X(y) \mathrm{d}y = 1 - e^{-\lambda x}\]

 

지수 분포의 평균과 분산은 다음과 같습니다.

\[\begin{align*}& E[X] = \frac{1}{\lambda} \\ &\sigma_X^2 = \frac{1}{\lambda^2} \end{align*}\]

 

 

지수 분포도 기하 분포와 마찬가지로 forgetfulness라는 성질이 있습니다. 즉, 이전 시도와는 무관합니다.

예를 들어, 시간 t까지 생존한 시스템이 추가로 시간 s만큼 더 생존할 확률을 고려해봅시다. 따라서, \(P(X \leq t + s | X > t)\)를 계산해야 합니다.

\[\begin{align*} P(X \leq t + s | X > t) &= \frac{t < X \leq t + s}{P(X > t} = \frac{1 - e^{-(t+s) \lambda} - 1 + e^{-t \lambda}}{e^{-\lambda t}} \\ &= 1 - e^{-s \lambda} = F_X(s) \end{align*}\]

계산해보면, 결국 시간 s까지 생존할 확률이 나오게 됩니다. 따라서, 이전에 시간 t까지 생존했다는 사실은 확률에 전혀 관여하지 않는다는 것을 보여줍니다.

 

지수 분포와 포아송 분포의 관계

지수 분포는 일반적으로 시간과 관련되어 있고, 포아송 분포는 발생한 사건의 횟수와 관련됩니다.

\[P_X(x) = \frac{\lambda ^x}{x!} e^{-\lambda} \text{ , } x = 0, 1, 2, \cdots\]

\(\lambda\)를 포아송 분포의 단위 시간 당 평균이라고 두면, 주어진 시간 t 동안의 포아송 분포의 평균 횟수는 \(\lambda t\)가 됩니다. 따라서, 시간 t 동안의 포아송 분포의 PMF는 다음과 같습니다.

\[P_X(x) = \frac{(\lambda t)^x}{x!} e^{-\lambda t} \text{ , } x = 0, 1, 2, \cdots\]

 

여기서 \(X = 0\)이라면, 아무런 사건도 발생하지 않은 확률이며

\[P_X(X = 0) = P(\text{no event}) = e^{-\lambda t}\]

위와 같은 확률이 됩니다.

 

이번에는 적어도 한 번 발생할 확률 \(P_X(X \geq 1)\)을 계산해봅시다. \(P_X(X \geq 1) = 1 - P(X = 0)\) 이므로, 결국 적어도 한 번 발생할 확률은

\[P(\text{at least 1 event}) = 1 - e^{-\lambda t}\]

가 됩니다. 위 확률은 지수 분포의 CDF와 동일하며, 그 의미는 시간 t까지 생존할 확률과 동일합니다.

 

이러한 관계는 매개변수 \(\lambda\)가 있는 지수 분포는 평균이 \(\lambda t\)인 푸아송 확률 변수 X에 의해 정의된 사건이 발생한 사이의 간격을 설명합니다. \(\lambda\)를 단위 시간 당 푸아송 분포의 평균으로 정의하면 지수 분포의 평균이 \(\frac{1}{\lambda}\)인 이유가 명확해집니다.

따라서, 어느 주어진 프로세스에서 사건 간의 간격을 지수 확률 변수로 모델링한다면, 지정된 시간 간격 동안 발생하는 사건의 횟수를 푸아송 확률 변수로 모델링할 수 있습니다.

유사한 방법으로 지정된 시간 간격 내에서 발생하는 사건의 수를 푸아송 확률 변수로 모델링하는 경우, 연속된 이벤트 사이의 간격은 지수 확률 변수로 모델링할 수 있습니다.

 


어랑 분포

어랑 분포(Erlang Distribution)은 지수 분포를 일반화한 확률 분포입니다. 지수 확률 변수가 인접한 사건들 간의 시간을 설명한다면, k차(order k) 어랑 확률 변수는 어느 한 사건과 k번째 이어지는 사건 간의 시간 간격을 설명합니다.

 

확률 변수 \(X_k\)는 k차 어랑(kth-order Erlang or Erlang-k) 확률 변수이며, PDF는 다음과 같이 주어집니다.

\[f_{X_k}(x) = \begin{cases} \frac{\lambda^k x^{k-1} e^{-\lambda x}}{(k-1)!} && k = 1, 2, 3, \cdots; x \geq 0 \\ 0 && x < 0 \end{cases} \]

위 PDF에서 \(k = 1\)인 경우에는 지수 분포가 된다는 것을 확인할 수 있습니다.

 

평균과 분산을 계산하는 방법은 조금 까다로운데, Gamma function of k+1을 사용하여 계산할 수 있는데 자세한 방법은 스킵하도록 하겠습니다.. !

어랑 분포의 평균과 분산은 다음과 같습니다.

\[\begin{align*}& E[X] = \frac{k}{\lambda} \\ &\sigma_X^2 = \frac{k}{\lambda^2} \end{align*}\]

 


균일 분포

균일(균등) 분포(Uniform Distribution)은 어느 위치에서나 동일한 확률을 가지고 있는 확률 분포입니다. 단, 구간이 [a, b]처럼 주어져야 합니다. PDF는 다음과 같이 주어집니다.

\[f_X(x) = \begin{cases} \frac{1}{b-a} && a \leq x \leq b \\ 0 && \text{otherwise} \end{cases}\]

균일 분포의 평균과 분산은 쉽게 구할 수 있으며, 다음과 같습니다.

\[\begin{align*}& E[X] = \frac{a+b}{2} \\ &\sigma_X^2 = \frac{(b-a)^2}{12} \end{align*}\]

 

 

일반적으로 샘플링(sampling) 이후 양자화(quantization)을 할 때 발생하는 에러를 이 분포로 모델링합니다.

 

 


정규 분포

정규 분포(Normal Distribution)은 일반적인 경우에서 적용하는 연속 확률 변수이며, 평균(\(mu_X\))와 분산(\(\sigma_X^2\))로 모델링됩니다. 일반적으로 노이즈(image sensor, audio signal, mobile channel)를 모델링할 때 사용하는 분포입니다. \(\mathcal{N}(\mu_X, \sigma_X^2)\)로 표기합니다.

 

PDF는 다음과 같이 주어집니다.

\[f_X(x) = \frac{1}{\sqrt{2\pi \sigma_X^2}}e^{-(x-\mu_x)^2 / 2\sigma_X^2} \text{   } -\infty < x < \infty\]

PDF를 그래프로 표현하면, 위와 같습니다. 하나의 모드(single-mode)를 가지고 있으며 평균을 기준으로 양쪽이 대칭(symmetric)이며, bell-shaped의 모양을 갖습니다.

 

이 PDF가 확률이 맞는지 확인하기 위해서는 모든 x 구간에 대해 PDF를 적분해서 그 값이 1인지 확인하면 됩니다.

\[ \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi \sigma_X^2}}e^{-(x-\mu_x)^2 / 2\sigma_X^2} = 1 \]

약간 계산이 까다로운데, \(\frac{x - \mu_X}{\sigma_X} = z\)로 두고 야코비안(Jacobian) 행렬을 사용하여 극좌표계로 변환하여 계산한다고 합니다.

 

정규 분포의 CDF는 다음과 같이 주어집니다.

\[F_X(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi \sigma_X^2}}e^{-(t-\mu_x)^2 / 2\sigma_X^2} \mathrm{d}t = P(X \leq x)\]

여기서 \(\frac{t - \mu_X}{\sigma_X}\)를 \(t\)로 치환하게 되면, 아래의 식을 얻을 수 있습니다.

\[\int_{-\infty}^{\frac{x - \mu_X}{\sigma_X}} \frac{1}{\sqrt{2 \pi}} e^{-\frac{u^2}{2}} \mathrm{d}u = \Phi \left ( \frac{x - \mu_X}{\sigma_X} \right ) \]

좌항의 식을 살펴보면, 평균이 0이고 분산이 \(1^2\)인 정규 분포의 꼴이라는 것을 확인할 수 있습니다. 이렇게 평균이 0, 분산이 \(1^2\)인 정규 분포를 표준 정규 분포(standard normal distribution)이라고 합니다. 그리고 표준 정규 분포의 CDF를 \(\Phi(x)\)로 표기합니다.

 

결과적으로 어떠한 평균과 분산을 갖는 정규 분포의 CDF를 계산하면 모두 평균이 0이고 분산이 \(1^2\)인 표준 정규 분포로 식을 변환할 수 있기 때문에 표준 정규 분포 \(\Phi(x)\)에 대한 look-up 테이블만 있으면 모든 경우에 대한 확률을 계산할 수 있습니다.

 

예를 들어, 확률 변수 X가 \(\mathcal{N}(3, 3^2)\)의 정규 분포라고 할 때, \(P(2 < X < 5)\)의 값을 계산해보면 다음과 같습니다.

\[\begin{align*} P(2 < X < 5) &= F_X(5) - F_X(2) \\ &= \Phi \left ( \frac{5 - 3}{3} \right ) - \Phi \left ( \frac{2 - 3}{3} \right )  \\ &= \Phi \left ( \frac{2}{3} \right ) \Phi \left ( -\frac{1}{3} \right ) \\ &= \Phi \left ( \frac{2}{3} \right ) - \{1 - \Phi \left ( \frac{1}{3} \right ) \} \\ &= \Phi \left ( \frac{2}{3} \right )+\Phi \left ( \frac{1}{3} \right ) - 1 \end{align*}\]

 

Normal Approximation of the Binomial Distribution

확률 변수 X를 파라미터 n과 p의 이항 분포라고 할 때, PMF는 다음과 같습니다.

\[P_X(x) = \binom{n}{x} p^x (1-p)^{n-x} \text{  } x = 0, 1, 2, \cdots, n\]

n이 크다면 위의 PMF에서 어느 확률 값을 계산하기에는 너무 번거로운 계산 과정들이 많습니다.

이때, n이 충분히 크면 위의 이항 분포를 \(\mathcal{N}(np, np(1-p))\)로 근사할 수 있습니다.

즉, 이항 분포에서 \(P(a \leq X \leq b) = \sum_{x=a}^{b} \binom{n}{x}p^x (1-p)^{n-x}\)를 정규 분포에서의 \(P(\frac{a-np}{\sqrt{np(1-p)}} \leq Z \leq \frac{b-np}{\sqrt{np(1-p)}}\)로 근사할 수 있습니다.

 

실제로 이항 분포의 그래프에서 n이 충분히 클 때, 정규 분포에 가까워지는 것을 볼 수 있습니다.

 

Error Function

통신 공학이나 데이터 네트워크에서 자주 사용되는 error function이 있는데, 이 함수는 다음과 같이 정의됩니다.

\[\text{erf}(x) = \frac{2}{\sqrt{\pi}} \int_{0}^{x} e^{-y^2} \mathrm{d}y\]

error function의 값 또한 정규 분포와 마찬가지로 테이블로 주어지기 때문에 직접 계산할 일은 거의 없습니다.

 

complementary error function은 다음과 같이 정의됩니다.

\[\text{erfc}(x) = 1 - \text{erf}(x) = \int_{x}^{\infty} e^{-y^2} \mathrm{d}y\]

 

error function은 표준 정규 분포와 다음의 관계식이 성립합니다.

\[\Phi(x) = \frac{1}{2} \left [ 1 + \text{erf} \left (\frac{x}{\sqrt{2}} \right )\right ] \]

반대로, 표준 정규 분포에 대한 테이블이 주어졌을 때, 다음의 식을 통해 error function을 구할 수도 있습니다.

\[\text{erf}(x) = 2\Phi(x \sqrt{2}) - 1\]

댓글