본문 바로가기
ML & DL/확률과 통계

Functions of Random Variables

by 별준 2022. 6. 23.

References

  • 확률과 통계 강의 14, 15, 16, 17, 18강 (KOWC - 한양대학교 이상화 교수님)
  • Ch 6, Fundamentals of Applied Probability and Random Processs (Oliver Ibe)

Contents

  • Functions of Random Variables
  • Sums of Independent Random Variables
  • Two Functions of Two Random Variables
  • Generating Desired Random Variables

Functions of RV

X를 확률 변수라고 하고, Y를 X에 대한 함수인 새로운 확률 변수라고 합시다. 즉,

\[Y = g(X)\]

라고 합시다.

 

이때, 우리가 알고자 하는 것은 X의 PDF 또는 PMF가 주어졌을 때, Y의 PDF 또는 PMF를 구하는 것입니다.

예를 들어, \(g(X) = X + 5\)라고 가정한다면, \(F_Y(y)\)는 다음과 같이 구할 수 있습니다.

\[F_Y(y) = P(Y \leq y) = P(X + 5 \leq y)\]

 

Linear Functions

이제 X에 대한 함수 \(g(X)\)를 선형 함수라고 가정하고, \(g(X) = aX + b\)라고 가정해봅시다(a와 b는 상수).

여기서, X의 PDF \(f_X(x)\)는 주어져 있다고 가정합니다.

이때, Y의 PDF \(f_Y(y)\)는 어떻게 구할 수 있을까요?

 

우선 두 가지 경우, a가 양수(positive)인 경우와 음수(negative)인 경우를 나누어서 생각해야 합니다.

먼저 a가 양수인 경우, Y의 CDF는 다음과 같이 주어집니다.

\[F_y(y) = P(Y \leq y) = P(aX + b \leq y) = P(X \leq \frac{y-b}{a}) = F_X(\frac{y-b}{a})\]

따라서, Y의 PDF는

\[f_Y(y) = \frac{\mathrm{d}F_Y(y)}{\mathrm{d}y} = \frac{\mathrm{d}F_X \left ( \frac{y-b}{a} \right )}{\mathrm{d}y} = F'_X(\frac{y-b}{a}) \cdot \frac{1}{a} = f_X(\frac{y-b}{a}) \cdot \frac{1}{a}\]

입니다.

 

a가 음수인 경우, Y의 CDF는

\[F_Y(y) = P(Y \leq y) = P(aX + b \leq y) = P(aX \leq y - b) = P(X \geq \frac{y-b}{a}) = 1 - F_X(\frac{y-b}{a})\]

입니다. 따라서, Y의 PDF를 구하면,

\[f_Y(y) =  \frac{\mathrm{d}F_Y(y)}{\mathrm{d}y} = -F'_X(\frac{y-b}{a}) \cdot \frac{1}{a} = - f_X(\frac{y-b}{a}) \cdot \frac{1}{a}\]

입니다.

 

하나의 식으로 정리하면, Y의 PDF는

\[f_Y(y) = \frac{f_X \left (\frac{y-b}{a} \right )}{|a|}\]

가 됩니다.

 

Power Function

이번에는 \(Y = X^2\)으로 주어졌다고 가정해봅시다.

X에 대한 Y를 그래프로 그리면, 다음과 같습니다 (a=1).

따라서, Y의 CDF를 구하면

\[\begin{align*} F_Y(y) &= P(Y \leq y) = P(X^2 \leq y) = P(-\sqrt{y} \leq X \leq \sqrt{y}) \\ &= F_X(\sqrt{y}) - F_X(\sqrt{y}) \end{align*}\]

입니다. 여기서 y는 0 이상입니다.

 

이렇게 구한 CDF를 통해 Y의 PDF는 다음과 같이 구할 수 있습니다.

\[\begin{align*} f_Y(y) &= \frac{\mathrm{d}}{\mathrm{d}y} F_Y(y) = \frac{\mathrm{d}}{\mathrm{d}y}F_X(\sqrt{y}) - \frac{\mathrm{d}}{\mathrm{d}y}F_X(-\sqrt{y}) \\ &= F'_X(\sqrt{y}))\cdot \frac{1}{2\sqrt{y}} - F'_X(-\sqrt{y}) \cdot \left ( -\frac{1}{2\sqrt{y}} \right ) \\ &= \frac{f_X(\sqrt{y}) + f_X(\sqrt{-y})}{2\sqrt{y}}\end{align*}\]

 

Expection of a function of one RV

\(Y = g(X)\)일 때, Y의 기댓값은 아래의 식처럼 정석적인 방법으로 구할 수 있습니다.

\[E[Y] = \int y \cdot f_Y(y) \mathrm{d}y\]

따라서, X의 PDF를 통해 Y의 PDF를 유도하고, 위 식을 적용해야 합니다.

하지만, 위 식은 아래와 같이 변환되기 때문에

\[E[Y] = E[g(X)] = \int g(x) f_X(x) \mathrm{d}x\]

사실상, \(f_Y(y)\)를 구하지 않고 주어진 \(f_X(x)\)만을 사용하여 Y의 기댓값을 계산할 수 있습니다.

 

그리고, \(Y = aX + b\)인 경우,

\[E[Y] = E[aX + b] = aE[X] + b\]

라는 것을 잘 알고 있으므로, 이를 이용하면 쉽게 기댓값을 구할 수 있습니다.

 


Sums of Independent RVs

이번에는 서로 독립인 2개의 연속 확률 변수 X, Y가 주어졌을 때, U = X + Y를 만족하는 새로운 확률 변수 U가 있다고 가정해봅시다. 이때, \(f_{XY}(x, y)\) 또는 \(f_X(x), f_Y(y)\)가 주어졌을 때, \(f_U(u)\)를 구하는 방법을 살펴보도록 하겠습니다.

 

\(g(X, Y) = U = X + Y\)일 때, X와 Y에 대한 U를 그래프로 표현하면 다음과 같습니다.

여기서 \(F_U(u)\)는

\[F_U(u) = P(U \leq u) = P(X + Y \leq u) = \int\int f_{XY}(x, y)\mathrm{d}x \mathrm{d}y\]

로 계산할 수 있으며, 적분 범위는 위 그래프의 직선의 왼쪽 부분의 면적입니다.

 

적분 범위를 조금 구체화하기 위해서 y를 고정시키고, x를 y에 대해 표현해보도록 하겠습니다.

\(x + y = u\)이므로, \(x = u - y\)로 나타낼 수 있고, \(F_U(u)\)는

\[F_U(u) = \int_{-\infty}^{\infty} \int_{-\infty}^{u - y} f_{XY}(x, y) \mathrm{d}x \mathrm{d}y\]

로 계산할 수 있습니다.

 

반대로 x를 고정시키면 \(y = u - x\)가 되고, \(F_U(u)\)는

\[F_U(u) = \int_{-\infty}^{\infty} \int_{-\infty}^{u-y}f_{XY}(x, y) \mathrm{d}y \mathrm{d}x\]

로 계산할 수 있습니다.

 

따라서, \(f_{XY})(x, y)\)에 대해 이중적분만 가능하다면, 쉽게 \(F_U(u)\)를 구할 수 있습니다.

 

이때, X와 Y가 서로 독립이라고 가정해봅시다. 따라서,

\[f_{XY}(x, y) = f_X(x) \cdot f_Y(y)\]

가 만족합니다. 이때, \(F_U(u)\)를 다시 작성하면,

\[\begin{align*} F_U(u) &= \int_{-\infty}^{\infty} \int_{-\infty}^{u - y} f_{XY}(x, y) \mathrm{d}x \mathrm{d}y \\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{u - y} f_X(x)\mathrm{d}x f_Y(y)\mathrm{d}y \\ &= \int_{-\infty}^{\infty} F_X(u - y) \cdot f_Y(y) \mathrm{d}y \end{align*}\]

로 계산할 수 있습니다.

 

이렇게 계산한 CDF를 통해 PDF를 계산하면,

\[\begin{align*} f_U(u) = \frac{\mathrm{d}}{\mathrm{d}u}F_U(u) &= \frac{\mathrm{d}}{\mathrm{d}u} \int_{-\infty}^{\infty} F_X(u - y) \cdot f_Y(y) \mathrm{d}y \\ &= \int_{-\infty}^{\infty}\frac{\mathrm{d}}{\mathrm{d}u}F_X(u - y) \cdot f_Y(y) \mathrm{d}y \\ &= \int_{-\infty}{\infty} f_X(u-y) \cdot f_Y(y) \mathrm{d}y \\ &= \int_{-\infty}^{\infty} f_X(x) f_Y(u-x) \mathrm{d}x \\ &= f_X(u) \ast f_Y(x)  \end{align*}\]

가 됩니다. 즉, \(f_X(x)\)와 \(f_Y(y)\)의 convolution 연산(wiki)으로 계산됩니다.

 

\(x(t) \ast h(t) = y(t)\)으로 표현하는 convolution 연산 과정을 간단하게 설명하면 다음과 같습니다.

1) \(x(t), h(t)\) 중 하나의 함수를 선택하고, symmetric transform을 수행합니다. (\(h(u)\)를 선택했다면, \(h(-u)\)로)

2) 이렇게 symmetrically transformed function을 t만큼 평행이동합니다. (\(h(t - u), -\infty < t < \infty\))

3) \(\int_{-\infty}^{\infty} x(u) h(t-u) \mathrm{d}u\) 계산 (overlap region에 대한 적분)

결과적으로 두 함수 \(x(u), h(t-u)\)가 서로 중첩되는 영역을 적분하게 됩니다. Convolution 연산에 대한 자세한 내용이나 예시는 생략하도록 하겠습니다.

 

 

Moments of the Sum of RVs

두 연속 확률 변수 X, Y와 이들의 Joint PDF \(f_{XY}(x, y)\)가 주어졌을 때, \(U = X + Y\)인 확률 변수 U의 기댓값은 다음과 같이 계산할 수 있습니다.

하지만, \(E[X + Y] = E[X] + E[Y]\)이기 때문에 위처럼 복잡한 계산 과정을 수행하지 않고,

\[E[U] = E[X + Y] = E[X] + E[Y]\]

로 간단하게 계산할 수 있습니다.

 

U의 분산 \(\sigma^2_U\) 또한 동일합니다.

\[\begin{align*} \sigma^2_U &= E[(U - E[U])^2] E[(X + Y - E[X] - E[Y])^2] \\ &= E((X-E[X])^2 + 2(X - E[X])(Y - E[Y]) + (Y - E[Y])^2] \\ &= \sigma^2_X + \sigma^2_Y + 2\rho_{XY} \end{align*}\]

이때, \(\rho_{XY}\)는 X, Y의 공분산(covariance) 입니다.

 

만약, X와 Y가 서로 독립이거나 uncorrelated 하다면,

\[\sigma^2_U = \sigma^2_X + \sigma^2_Y\]

가 성립합니다.

 

Sum of Discrete RVs

지금까지 연속 확률 변수에 대해서 다루었는데, 이번에는 동일하게 \(U = X + Y\)로 주어지지만 X, Y가 이산 확률 변수라고 가정해봅시다. 그렇다면 U의 PMF는 다음과 같이 구할 수 있습니다.

\[P_U(u) = P(U = u) = P(X + Y = u) = \sum_k P(X = k, Y = u - k) = \sum_k P_{XY}(k, u-k)\]

따라서, \(x + y = u\)를 만족하는 모든 확률 값들을 더하면 됩니다.

 

만약 X, Y가 서로 독립이라면,

\[P(U = u) = \sum_k P_X(k) P_Y(u-k)\]

로 구할 수 있으며, 이 또한 X의 PMF와 Y의 PMF의 convolution 연산입니다. 이를 discrete convolution이라고 부릅니다.

 

Sum of Binomial RVs

X는 B(n, p), Y는 B(m, p)인 이항 분포라고 하겠습니다. 이때, 두 이항 분포는 서로 연관이 없기 때문에 독립이라고 볼 수 있습니다.

이때, \(Z = X + Y\)인 새로운 확률 변수 Z의 PMF는 다음과 같이 계산할 수 있습니다.

\[\begin{align*} P(Z = z) &= P(X + Y = z) = \sum_{k = 0}^n P(X = k, Y = z - k) \\ &= \sum_{k = 0}^n P(X = k) P(Y = z - k) \\ &= \sum_{k = 0}^n \binom{n}{k} p^k (1-p)^{n-k} \binom{m}{z-k} p^{z-k}(1-p)^{m-z+k} \\ &= \sum_{k = 0}^n \binom{n}{k}\binom{m}{z - k} p^z (1-p)^{n+m-z} \\ &= \binom{n+m}{z} p^z (1-p)^{n+m-z} \end{align*}\]

결과적으로 확률 변수 Z는 B(n+m, p)인 이항 분포의 확률 분포가 되는 것을 확인할 수 있습니다.

 


Two Functions of Two RVs

지금까지 1개의 확률 변수를 다른 확률 변수 하나로 변환하는 함수, 2개의 확률 변수를 하나의 확률 변수로 변환하는 함수에 대해서 살펴봤습니다.

 

이번에는 2개의 확률 변수를 다른 2개의 확률 변수로 변환하는 것에 대해서 살펴보도록 하겠습니다.

 

두 확률 변수 X, Y가 있고, 두 확률 변수의 Joint PDF \(f_{XY}(x, y)\)가 주어졌다고 가정하겠습니다.

이때, 새로운 확률 변수 U, W가 X와 Y에 대한 함수로 각각 표현된다고 가정합니다. 즉, \(U = g(X, Y), W = h(X, Y)\)가 된다고 가정합니다. 이때, U와 W의 Joint PDF는 어떻게 구할 수 있을까요?

 

복잡한 수식 과정을 생략하고 결론을 이야기하면, \(f_{UW}(u, w)\)는 다음과 같이 계산할 수 있습니다.

\[f_{UW}(u, w) = \frac{f_{XY}(x, y)}{|J(x, y)|}\]

이때, \(J(x, y)\)는 Jacobian Transformation이라고 하며, \(u = g(x, y), w = h(x, y)\)일 때, 다음과 같이 정의됩니다.

\[J(x, y) = \begin{vmatrix} \frac{\partial g}{\partial x} & \frac{\partial g}{\partial y} \\ \frac{\partial h}{\partial x} & \frac{\partial h}{\partial y} \end{vmatrix} = \left ( \frac{\partial g}{\partial x} \right ) \left ( \frac{\partial h}{\partial y} \right ) - \left ( \frac{\partial g}{\partial y} \right )  \left ( \frac{\partial h}{\partial x} \right )\]

 

 

2개의 확률 변수를 다른 2개의 확률 변수로 변환하는 것은 상당히 유용하게 사용될 때가 있는데, 대표적으로 2개의 확률 변수를 1개의 확률 변수로 변환하는데, 변환 식이 두 확률 변수의 합의 꼴이 아닐 때 유용합니다.

2개의 확률 변수(X, Y)를 하나의 확률 변수(Z)로 변환할 때, \(f_Z(z)\)를 구하기 위한 covolution 연산은 변환식이 'Z = X+Y'의 꼴이어야만 적용이 가능합니다. 즉, 합의 형태가 아니라면 복잡한 연산이 필요하게 됩니다. 이때, W = X를 만족하는 확률 변수를 하나 더 추가하여 쉽게 \(f_Z(z)\)를 계산할 수 있습니다.

 

예제를 통해 살펴보도록 하겠습니다.

Ex6.20) 두 확률 변수 X, Y와 Joint PDF \(f_{XY}(x, y)\)가 주어졌고, 확률 변수 U = XY로 정의했을 때 U의 PDF를 구하라.

U의 꼴이 X + Y가 아니기 때문에 U의 PDF를 구하기 위한 convolution 연산은 사용할 수 없습니다.

이런 경우에 W = X라는 확률 변수를 정의합니다. 그러면 \(x = w\), \(y = u/x = u/w\)라는 등식을 얻을 수 있습니다.

이때, 두 확률 변수 U, W의 PDF는

\[f_{UW}(u, w) = \frac{f_{XY}(x, y)}{|J(x, y)|}\]

로 계산할 수 있습니다. 이때, \(J(x, y)\)는 다음과 같이 계산됩니다.

\[J(x, y) = \begin{vmatrix} \frac{\partial u}{\partial x} & \frac{\partial u}{\partial y} \\ \frac{\partial w}{\partial x} & \frac{\partial w}{\partial y} \end{vmatrix} = \begin{vmatrix} y & x \\ 1 & 0 \end{vmatrix} = -x = -w\]

따라서, U, W의 Joint PDF는

\[f_{UW}(u, w) = \frac{f_{XY}(x, y)}{|J(x, y)|} = \frac{1}{|w|}f_{XY}(w, u/w)\]

그리고, \(f_U(u)\)는 maginal PDF 이므로 다음과 같이 계산할 수 있습니다.

\[f_U(u) = \int_{-\infty}^{\infty} f_{UW}(u, w) \mathrm{d}w = \int_{-\infty}^{\infty} \frac{1}{|w|}f_{XY}(w, u/w) \mathrm{d}w\]

위 식에서 \(\frac{1}{|w|}f_{XY}(w, u/w)\)에 대해 적분만 가능하다면, 쉽게 계산할 수 있습니다.

 


Generating Desired RVs

이러한 변환 함수는 유용하게 사용되는데, 특히, 구현하기 쉬운 분포(ex, uniform distribution)으로부터 조금 더 복잡한 분포를 얻을 때 유용합니다.

 

예를 들어, (0, 1) 범위에서 uniform distribution인 확률 변수 X와 변환 함수 \(Y = g(X)\)를 통해 원하는 분포를 갖는 Y를 얻을 수 있습니다.

 

 

예를 들어, X와 Y가 모두 (0, 1) 범위에서 uniform distribution이라고 할 때, 새로운 확률 변수 U, V가 가우시안 분포를 갖는 각각의 변환 함수가 있을 수 있습니다. 

결론만 말하자면, 가우시안 분포를 갖도록 하는 변환 함수는 다음과 같습니다.

\[\begin{matrix} U = \sqrt{-2 \ln x} \cos 2\pi y \\ V = \sqrt{-2 ln x} \sin 2\pi y \end{matrix}\]

 

참고로 특정 확률 분포로의 변환 함수는 유일하지 않습니다.

 

 

'ML & DL > 확률과 통계' 카테고리의 다른 글

Transform Methods  (0) 2022.06.24
다중 확률 변수 (Multiple Random Variables)  (0) 2022.06.07
확률 분포 (Probability Distribution)  (0) 2022.05.30
확률 변수의 평균과 분산  (0) 2022.05.28
확률 변수 (Random Variables)  (0) 2022.05.26

댓글