본문 바로가기
ML & DL/확률과 통계

Transform Methods

by 별준 2022. 6. 24.

References

  • 확률과 통계 강의 18, 19강 (KOWC - 한양대학교 이상화 교수님)
  • Ch 7, Fundamentals of Applied Probability and Random Processs (Oliver Ibe)

Contents

  • Characteristic Function
  • s-Transform
  • z-Transform

Fourier transform, Laplace transform, z-transform 등, 다양한 변환이 과학과 공학에 사용됩니다. 이들이 사용되는 중요한 이유 중 하나는 많은 문제들의 솔루션을 구하는데 사용되기 때문인데, 이를 사용하면 미적분이 매우 간단해지기 때문입니다. 예를 들어, 지난 강의에서 언급했던 convolution 연산에서는 주어진 함수들의 미분과 적분이 포함됩니다. 하지만, 푸리에 변환을 적용하면, 다음과 같이 계산이 convolution에서 단순 곱으로 매우 간단해지기 때문입니다.

\[a(x) \ast b(x) \rightarrow A(w)B(w)\]

여기서 \(A(w)\)는 \(a(x)\)의 푸리에 변환이며 \(B(w)\)는 \(b(x)\)의 푸리에 변환입니다.

 

이번 강의에서는 확률 이론에서 사용되는 다양한 변환 방법에 대해서 살펴보도록 하겠습니다.

 


Characteristic Function

\(f(x)\)를 연속 확률 변수 X의 PDF라고 합시다.

이때, X의 특성 함수(characteristic function)은 다음과 같이 정의됩니다.

\[\Phi_X(w) = E[e^{jwX}] = \int_{-\infty}^{\infty} e^{jwx} f_X(x) \mathrm{d}x\]

이때, 오일러 공식에 의해서 \(e^{jwx} = \cos(wx) + j\sin(wx)\) 입니다.

 

그리고, 역으로 \(\Phi_X(w)\)가 주어졌을 때 \(f_X(x)\)를 다음의 식으로 구할 수 있습니다.

\[f_X(x) = \frac{1}{2\pi} \int_{-\infty}^{\infty} e^{-jwx} \Phi_X(w) \mathrm{d}w\]

 

만약 X가 이산 확률 변수이고 PMF가 \(P_X(x)\)라고 한다면, 특성 함수는 다음과 같이 주어집니다.

\[\Phi_X(w) = \sum_{x = -\infty}^{\infty} e^{jwx}P_X(x)\]

 

특성 함수에서 \(w = 0\)일 때의 값은 1인데, 그 이유는 다음과 같습니다.

\[\Phi_X(w = 0) = \int_{-\infty}^{\infty} f_X(x)\mathrm{d}x = 1\]

 

Moment-Generating Property

이렇게 특성 함수로 변환하는 이유는 특성 함수를 사용하여 다양한 확률 분포의 모멘트를 쉽게 유도할 수 있기 때문입니다.

\[Phi_X(w) = \int_{-\infty}^{\infty} e^{jwx} f_X(x) \mathrm{d}x\]

위의 특성 함수를 미분하면, 다음의 식을 얻을 수 있습니다.

\[\frac{\mathrm{d}}{\mathrm{d}w} \Phi_X(w) = \frac{\mathrm{d}}{\mathrm{d}w} \int_{-\infty}^{\infty} e^{jwx}f_X(x)\mathrm{d}x = \int_{-\infty}^{\infty} \frac{\mathrm{d}}{\mathrm{d}w}e^{jwx}f_X(x)\mathrm{d}x = \int_{-\infty}^{\infty} jxe^{jwx}f_X(x) \mathrm{d}x\]

위 식에 \(w = 0\)을 대입하면,

\[\left. \frac{\mathrm{d}}{\mathrm{d}w}  \Phi_X(w) \right |_{w = 0} = \int_{-\infty}^{\infty} jxf_X(x) \mathrm{d}x = jE[X] \]

\(jE[X]\)를 얻을 수 있습니다.

 

여기서 한 번 더 미분하게 되면,

\[\frac{\mathrm{d}^2}{\mathrm{d}w^2} \Phi_X(w) = \frac{\mathrm{d}}{\mathrm{d}w} \int_{-\infty}^{\infty} jxe^{jwx}f_X(x) \mathrm{d}x = \int_{-\infty}^{\infty} j^2x^2 e^{jwx} f_X(x) \mathrm{d}x\]

를 얻을 수 있고, 여기에 \(w = 0\)을 대입하면,

\[\left. \frac{\mathrm{d}^2}{\mathrm{d}w^2} \Phi_X(w) \right |_{w = 0} = \int_{-\infty}^{\infty} j^2x^2f_X(x) \mathrm{d}x = j^2E[X^2] = -E[X^2] \]

를 얻을 수 있습니다.

 

이를 일반화하면 다음과 같습니다.

\[\left. \frac{\mathrm{d}^n}{\mathrm{d}w^n} \Phi_X(w) \right |_{w = 0} = j^n E[X^n]\]

 

Convolution Property

포스팅 처음에 covolution과 같은 복잡한 연산은 변환을 통해 쉽게 계산할 수 있다고 언급했습니다.

Z = X + Y로 정의되는 새로운 확률 변수 Z가 있고, X와 Y가 서로 독립이라면 \(f_Z(z)\)는 다음과 같이 구할 수 있습니다.

\[f_Z(z) = f_X(x) \ast f_Y(y) = \int_{-\infty}^{\infty} f_X(u) f_Y(z - u) \mathrm{d}u\]

일반적인 convolution 연산이라면, 범위를 고려해가며 복잡하게 구해야 하지만 특성 함수로 변환하면 조금 더 쉽게 구할 수 있습니다.

먼저 \(f_Z(z)\)의 특성 함수를 구하면,

\[\begin{align*} \Phi_X(w) &= \int_{-\infty}^{\infty} e^{jwz}f_Z(z) \mathrm{d}z \end{align*}\]

입니다. 여기서 \(f_Z(z)\)는 \(f_X(x)\)와 \(f_Y(y)\)의 convolution 연산으로 구할 수 있으므로,

\[\begin{align*} \Phi_X(w) &= \int_{-\infty}^{\infty} e^{jwz}f_Z(z) \mathrm{d}z \\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f_X(u)f_Y(z - u) \mathrm{d}u e^{jwz} \mathrm{d}z \\ &= \int \int f_X(u) e^{jwu} \mathrm{d}u f_Y(z - u) e^{jw(z-u)} \mathrm{d}z \end{align*}\]

위와 같이 얻을 수 있고, \(z - u = v\)로 치환하여 마저 계산하면,

\[\begin{align*} \cdots &= \int f_X(u)e^{jwu} \mathrm{d}u \int f_Y(v)e^{jwv} \mathrm{d}v \\ &= \Phi_X(w) \Phi_Y(w) = \Phi_Z(w) \end{align*}\]

를 얻을 수 있습니다.

그리고, 마지막으로 계산된 \(Phi_Z(w)\)를 Inverse Fourier Transform으로 \(f_Z(z)\)를 구할 수 있습니다.

 


s-Transform

f_X(x)를 연속 확률 변수 X의 PDF이고, X는 nonnegative values, 즉, \(x \geq 0\) 일 때, f_X(x)의 s-transform \(M_X(s)\)는 다음과 같이 정의됩니다.

\[M_X(s) = E[e^{-sX}] = \int_{0}^{\infty} e^{-sx}f_X(x) \mathrm{d}x\]

(아마 라플라스 변환을 알고 있다면 익숙할 것 입니닷)

 

s-transform에 한 가지 중요한 특성은 \(s = 0\)일 때의 값을 1이라는 것입니다.

\[\left. M_X(s) \right |_{s = 0} = \inf_0^{\infty} f_X(x) \mathrm{d}x = 1\]

 

Moment-Generating Property

특성 함수와 마찬가지로 s-transform에도 동일한 특성이 있습니다.

s-transform의 정의에서 \(M_X(s)\)를 한 번 미분하면, 다음의 식을 얻을 수 있습니다.

\[\frac{\mathrm{d}}{\mathrm{d}s} M_X(s) = \frac{\mathrm{d}}{\mathrm{d}s} \int_0^{\infty} e^{-sx}f_X(x)\mathrm{d}x = \int_0^{\infty} \frac{\mathrm{d}}{\mathrm{d}s} e^{-sx}f_X(x)\mathrm{d}x = -\int_0^{\infty} f_X(x) \mathrm{d}x\]

위 식에 \(s = 0\)을 대입하면,

\[\left. \frac{\mathrm{d}}{\mathrm{d}s} M_X(s) \right |_{s = 0} = -\int_0^{\infty} xf_X(x)\mathrm{d}x = -E[X]\]

E[X]를 얻을 수 있습니다.

 

한 번 더 미분하면,

\[\begin{align*}\frac{\mathrm{d}^2}{\mathrm{d}s^2} M_X(s) &= \frac{\mathrm{d}}{\mathrm{d}s} (-1) \int_0^{\infty} xe^{-sx}f_X(x)\mathrm{d}x \\ &= -\int_0^{\infty} \frac{\mathrm{d}}{\mathrm{d}s} xe^{-sx}f_X(x)\mathrm{d}x = \int_0^{\infty} x^2 e^{-sx}f_X(x)\mathrm{d}x \end{align*}\]

이고, 여기에 \(s = 0\)을 대입하면,

\[\left. \frac{\mathrm{d}^2}{\mathrm{d}s^2} M_X(s) \right |_{s = 0} = \int_0^{\infty} x^2 f_X(x)\mathrm{d}x = E[X^2]\]

를 얻을 수 있습니다.

 

Convolution Property

마찬가지로 Z = X + Y를 만족하는 확률 변수 Z가 있고 X와 Y는 서로 독립이라고 한다면, \(f_Z(z)\)를 구하려면 \(f_X(x) \ast f_Y(y)\)를 구해야 합니다. 하지만, 특성 함수와 같이 s-transform으로 변환하면 convolution 연산없이 이를 구할 수 있습니다.

 

\[\begin{align*} M_Z(s) &= \int_0^{\infty} e^{-sz} f_Z(z) \mathrm{d}z \\ &= \int_0^{\infty} \int_0^{\infty} s^{-s(x + y)} f_{XY}(x, y) \mathrm{d}x\mathrm{d}y \\ &= \int_0^{\infty} \int_0^{\infty} e^{-sx}f_X(x)\mathrm{d}x e^{-sy} f_Y(y) \mathrm{d}y \\ &= M_X(s)M_Y(s) \end{align*}\]

 

 

간단한 예로 Exponential Distribution에 대해 s-transform을 적용하면, 다음과 같습니다.

\(f_X(x) = \lambda e^{-\lambda x}, x \geq 0, \lambda > 0\)

\[\begin{align*} M_X(s) &= E[e^{-sX}] = \int_0^{\infty} e^{-sx} \lambda e^{-\lambda x} \mathrm{d}x = \lambda \int_0^{\infty} e^{-(s+\lambda)x} \mathrm{d}x \\ &= \frac{\lambda}{s + \lambda} \end{align*}\]

 


z-Transform

X가 음이 아닌 이산 확률 변수이고, X의 PMF를 \(P_X(x)\) 일 때, \(P_X(x)\)의 z-transform은 다음과 같이 정의됩니다.

\[\begin{align*} G_X(z) &= E[z^X] = \sum_{x = 0}^{\infty} z^x P_X(x) \\ &= P_X(0) + P_X(1)z + P_X(2)z^2 + \cdots \end{align*}\]

마지막 식을 보면 z에 대한 다항식으로 표현된다는 것을 알 수 있습니다.

또한, \(z = 1\)을 대입하면, \(G_X(1) = \sum_{x = 0}^{\infty} P_X(x) = 1\)이 성립합니다.

 

z에 대한 다항식으로 표현되고, \(z^k\)의 계수가 \(P(X = k) = P_X(k)\)입니다.

이를 이용하여 z-transform을 통해 확률을 구할 수 있습니다(Probability-Generating Property).

먼저, \(G_X(z)\)에 \(z = 0\)을 대입하면,

\(G_X(z = 0) = P_X(0)\)

이 됩니다.

 

그리고, \(G_X(z)\)를 한 번 미분하면,

\[\frac{\mathrm{d}}{\mathrm{d}z}G_X(z) = P_X(1) + 2P_X(2)z + 3P_X(3)z^2 + \cdots\]

이고, \(z = 0\)을 대입해주면, \(\frac{\mathrm{d}}{\mathrm{d}z}G_X(z = 0) = P_X(1)\), 즉, \(P_X(1)\)을 얻을 수 있습니다.

한 번 더 미분하게 되면,

\[\frac{\mathrm{d}^2}{\mathrm{d}z^2}G_X(z) = 2P_X(2) + 3 \cdot 2 P_X(3) + \cdots\]

이고, \(z = 0\)을 대입하면 \(\frac{\mathrm{d}^2}{\mathrm{d}z^2}G_X(z = 0) = 2P_X(2)\)를 얻을 수 있습니다.

 

이를 일반화하면,

\[\left. \frac{\mathrm{d}^n}{\mathrm{d}z^n} G_X(z) \right |_{z = 0} = n!P_X(n)\]

이며, \(P_X(x)\)는

\[P_X(x) = \frac{1}{x!}\left [ \frac{\mathrm{d}^n}{\mathrm{d}z^n} G_X(z)  \right ]_{z = 0}, x = 0, 1, 2, \cdots\]

가 됩니다.

 

Moment-Generating Property

위에서 살펴본 변환과 마찬가지로 변환 함수를 미분하여 모멘트를 얻을 수 있습니다.

\(G_X(z)\)는 다음과 같이 정의되고,

\[G_X(z) = \sum_{x = 0}^{\infty} z^x P_X(z)\]

이를 한 번 미분하여, \(z = 1\)을 대입하면

\[\left. \frac{\mathrm{d}}{\mathrm{d}z} \right |_{z = 1} = \sum_{x = 0}^{\infty} xz^{x-1}P_X(x) = \sum_{x = 0}^{\infty} xP_X(x) = E[X]\]

E[X]를 얻을 수 있습니다.

 

한 번 더 미분하여, \(z = 1\)을 대입하면,

\[\left. \frac{\mathrm{d}^2}{\mathrm{d}z^2} \right |_{z = 1} = \sum_{x = 0}^{\infty} x(x-1)z^{x-2} P_X(x) = \sum_{x = 0}^{\infty} x(x-1)P_X(x) = E[X^2] - E[X]\]

\(E[X^2] - E[X]\)를 얻을 수 있습니다.

 

이를 일반화하면, 다음과 같습니다.

\[\left. \frac{\mathrm{d}^n}{\mathrm{d}z^n} \right |_{z = 1} = E[X(X-1)(X-2)\cdots(X-n-1)]\]

 

Convolution Property

S = X + Y를 만족하는 확률 변수 S가 있고 X와 Y가 서로 독립일 때, \(P_S(z)\)는

\[P_S(s) = P_X(x) \ast P_Y(y)\]

로 구할 수 있습니다.

 

다른 변환 함수와 마찬가지로 z-transform으로 변환하면 convolution 연산없이 조금 더 쉽게 \(P_Z(z)\)를 구할 수 있습니다.

\[\begin{align*} G_S(z) &= \sum_{s = 0}^{\infty} z^s P_S(s) \\ &= \sum_{x+y = 0}^{\infty} P_{XY}(x, y) = \sum z^xP_X(x) \sum z^y P_Y(y) \\ &= G_X(z) G_Y(z) \end{align*}\]

 

댓글