References
확률과 통계 강의 10, 11, 12, 13강 (KOWC - 한양대학교 이상화 교수님)
Fundamentals of Applied Probability and Random Processs (Oliver Ibe)
Contents
Joint & Marginal CDF of Bivariate RVs
Discrete & Continuous Bivariate RVs
Conditional Distribution of Bivariate RVs
Conditional Means & Variances
Covariance & Correlattion Coefficient
Multivariate RVs
Multinomial Distributions
Joint Gaussian Distributions
Joint CDF of Bivariate RVs
두 개의 확률 변수 X와 Y가 동일한 Sample Space에 정의되어 있다고 가정해봅시다. 예를 들면, X를 학생의 성적이라고 정의하고, Y를 X와 동일한 학생들의 키라고 정의할 수 있습니다. 이때, Joint(결합) CDF 는 다음과 같이 정의됩니다.
F X Y ( x , y ) = P ( { X ≤ x } ∩ { Y ≤ y } ) = P ( X ≤ x , Y ≤ y ) F_{XY}(x, y) = P(\{X \leq x\} \cap \{Y \leq y\}) = P(X \leq x, Y \leq y) F X Y ( x , y ) = P ({ X ≤ x } ∩ { Y ≤ y }) = P ( X ≤ x , Y ≤ y )
여기서 (X, Y) 쌍은 2개의 확률 변수를 가지고 있기 때문에 bivariate random variable이라고 칭합니다.
그리고, 각각의 변수에 대한 CDF를 Marginal(주변) CDF 라고 합니다. 위의 경우에는 아래의 두 개의 Marginal CDF가 정의됩니다.
F X ( x ) = P ( X ≤ x ) F Y ( y ) = P ( Y ≤ y ) \begin{align*} F_X(x) = P(X \leq x) \\ F_Y(y) = P(Y \leq y) \end{align*} F X ( x ) = P ( X ≤ x ) F Y ( y ) = P ( Y ≤ y )
Joint CDF(F X Y ( x , y ) F_{XY}(x, y) F X Y ( x , y ) )는 다음의 성질들을 만족합니다.
1) 0 ≤ F X Y ( x , y ) ≤ 1 0 \leq F_{XY}(x, y) \leq 1 0 ≤ F X Y ( x , y ) ≤ 1
2) x 1 ≤ x 2 , y 1 ≤ y 2 x_1 \leq x_2, y_1 \leq y_2 x 1 ≤ x 2 , y 1 ≤ y 2 라면, 다음을 만족함
F X Y ( x 1 , y 1 ) ≤ F X Y ( x 1 , y 2 ) ≤ F X Y ( x 2 , y 2 ) F X Y ( x 1 , y 1 ) ≤ F X Y ( x 2 , y 1 ) ≤ F X Y ( x 2 , y 2 ) \begin{align*} F_{XY}(x_1, y_1) \leq F_{XY}(x_1, y_2) \leq F_{XY}(x_2, y_2) \\ F_{XY}(x_1, y_1) \leq F_{XY}(x_2, y_1) \leq F_{XY}(x_2, y_2) \end{align*} F X Y ( x 1 , y 1 ) ≤ F X Y ( x 1 , y 2 ) ≤ F X Y ( x 2 , y 2 ) F X Y ( x 1 , y 1 ) ≤ F X Y ( x 2 , y 1 ) ≤ F X Y ( x 2 , y 2 )
3) lim x → ∞ , y → ∞ F X Y ( x , y ) = P ( X ≤ ∞ , Y ≤ ∞ ) = 1 \underset{x \rightarrow \infty, y \rightarrow \infty}{\lim} F_{XY}(x, y) = P(X \leq \infty, Y \leq \infty) = 1 x → ∞ , y → ∞ lim F X Y ( x , y ) = P ( X ≤ ∞ , Y ≤ ∞ ) = 1
4) lim x → − ∞ F X Y ( x , y ) = P ( X ≤ − ∞ , Y ≤ y ) = 0 \underset{x \rightarrow -\infty}{\lim} F_{XY}(x, y) = P(X \leq -\infty, Y \leq y) = 0 x → − ∞ lim F X Y ( x , y ) = P ( X ≤ − ∞ , Y ≤ y ) = 0
5) lim y → − ∞ F X Y ( x , y ) = P ( X ≤ x , Y ≤ − ∞ ) = 0 \underset{y \rightarrow -\infty}{\lim} F_{XY}(x, y) = P(X \leq x, Y \leq -\infty) = 0 y → − ∞ lim F X Y ( x , y ) = P ( X ≤ x , Y ≤ − ∞ ) = 0
6) lim x → − ∞ , y → − ∞ F X Y ( x , y ) = P ( X ≤ − ∞ , Y ≤ − ∞ ) = 0 \underset{x \rightarrow -\infty, y \rightarrow -\infty}{\lim} F_{XY}(x, y) = P(X \leq -\infty, Y \leq -\infty) = 0 x → − ∞ , y → − ∞ lim F X Y ( x , y ) = P ( X ≤ − ∞ , Y ≤ − ∞ ) = 0
7) F X Y ( x 1 < x ≤ x 2 , Y ≤ y ) = F X Y ( x 2 , y ) − F X Y ( x 1 , y ) F_{XY}(x_1 < x \leq x_2, Y \leq y) = F_{XY}(x_2, y) - F_{XY}(x_1, y) F X Y ( x 1 < x ≤ x 2 , Y ≤ y ) = F X Y ( x 2 , y ) − F X Y ( x 1 , y )
8) P ( x 1 < X ≤ x 2 , y 1 < Y ≤ y 2 ) = F X Y ( x 2 , y 2 ) − F X Y ( x 2 , y 1 ) − F X Y ( x 1 , y 2 ) + F X Y ( x 1 , y 1 ) P(x_1 < X \leq x_2, y_1 < Y \leq y_2) = F_{XY}(x_2, y_2) - F_{XY}(x_2, y_1) - F_{XY}(x_1, y_2) + F_{XY}(x_1, y_1) P ( x 1 < X ≤ x 2 , y 1 < Y ≤ y 2 ) = F X Y ( x 2 , y 2 ) − F X Y ( x 2 , y 1 ) − F X Y ( x 1 , y 2 ) + F X Y ( x 1 , y 1 )
위 성질들을 이용하여, P ( X > a , Y > b ) P(X > a, Y >b) P ( X > a , Y > b ) 를 구하면 다음과 같습니다.
P ( X > a , Y > b ) = 1 − F X ( a ) − F Y ( b ) + F X Y ( a , b ) P(X > a, Y > b) = 1 - F_X(a) - F_Y(b) + F_{XY}(a, b) P ( X > a , Y > b ) = 1 − F X ( a ) − F Y ( b ) + F X Y ( a , b )
Discrete Bivariate RVs
X와 Y가 이산 확률 변수일 때, Joint PMF는 다음과 같이 정의됩니다.
P ( X = x , Y = y ) = P X Y ( x , y ) P(X = x, Y = y) = P_{XY}(x, y) P ( X = x , Y = y ) = P X Y ( x , y )
이때, Joint PMF는 다음의 성질들을 만족합니다.
1) 0 ≤ P X Y ( x , y ) ≤ 1 0 \leq P_{XY}(x, y) \leq 1 0 ≤ P X Y ( x , y ) ≤ 1
2) ∑ x ∑ y P X Y ( x , y ) = 1 \sum_x \sum_y P_{XY}(x, y) = 1 ∑ x ∑ y P X Y ( x , y ) = 1
3) F X Y ( x , y ) = P ( X ≤ x , Y ≤ y ) = ∑ X ≤ x ∑ Y ≤ y P X Y ( x , y ) F_{XY}(x, y) = P(X \leq x, Y \leq y) = \sum_{X \leq x} \sum_{Y \leq y} P_{XY}(x, y) F X Y ( x , y ) = P ( X ≤ x , Y ≤ y ) = ∑ X ≤ x ∑ Y ≤ y P X Y ( x , y )
그리고, Marginal PMF는 아래의 식으로 얻을 수 있습니다.
P X ( x ) = ∑ y P X Y ( x , y ) = P ( X = x ) P Y ( y ) = ∑ x P X Y ( x , y ) = P ( Y = y ) \begin{align*} P_X(x) = \sum_y P_{XY}(x, y) = P(X = x) \\ P_Y(y) = \sum_x P_{XY}(x, y) = P(Y= y) \end{align*} P X ( x ) = y ∑ P X Y ( x , y ) = P ( X = x ) P Y ( y ) = x ∑ P X Y ( x , y ) = P ( Y = y )
만약 X와 Y가 서로 독립(independent)라면, 다음의 식이 성립합니다.
P X Y ( x , y ) = P X ( x ) P Y ( y ) P_{XY}(x, y) = P_X(x) P_Y(y) P X Y ( x , y ) = P X ( x ) P Y ( y )
동전을 3번 던지는 실험에서 확률 변수 X를 첫 번째 시도에서 H(head)가 나오면 1, T(tail)이 나오면 0이라고 정의하고, 확률 변수 Y를 동전을 3번 던져서 H가 나온 횟수라고 정의해봅시다.
이 실험에서의 Sample Space와 확률 변수의 값은 다음과 같습니다.
따라서, 모든 x, y에대한 Joint PMF는 다음과 같습니다.
P X Y ( 0 , 0 ) = 1 8 P X Y ( 0 , 1 ) = 2 8 P X Y ( 0 , 2 ) = 1 8 P X Y ( 0 , 3 ) = 0 P X Y ( 1 , 0 ) = 0 P X Y ( 1 , 1 ) = 1 8 P X Y ( 1 , 2 ) = 2 8 P X Y ( 1 , 3 ) = 1 8 \begin{align*} P_{XY}(0, 0) = \frac{1}{8} && P_{XY}(0, 1) = \frac{2}{8} && P_{XY}(0, 2) = \frac{1}{8} && P_{XY}(0, 3) = 0 \\ P_{XY}(1, 0) = 0 && P_{XY}(1, 1) = \frac{1}{8} && P_{XY}(1, 2) = \frac{2}{8} && P_{XY}(1, 3) = \frac{1}{8} \end{align*} P X Y ( 0 , 0 ) = 8 1 P X Y ( 1 , 0 ) = 0 P X Y ( 0 , 1 ) = 8 2 P X Y ( 1 , 1 ) = 8 1 P X Y ( 0 , 2 ) = 8 1 P X Y ( 1 , 2 ) = 8 2 P X Y ( 0 , 3 ) = 0 P X Y ( 1 , 3 ) = 8 1
이때, 각 확률 변수의 Marginal PMF는 다음과 같습니다.
P X ( 0 ) = 1 2 P X ( 1 ) = 1 2 P Y ( 0 ) = 1 8 P Y ( 1 ) = 3 8 P Y ( 2 ) = 3 8 P Y ( 3 ) = 1 8 \begin{align*} P_X(0) = \frac{1}{2} && P_X(1) = \frac{1}{2} \\ P_Y(0) = \frac{1}{8} && P_Y(1) = \frac{3}{8} && P_Y(2) = \frac{3}{8} && P_Y(3) = \frac{1}{8} \end{align*} P X ( 0 ) = 2 1 P Y ( 0 ) = 8 1 P X ( 1 ) = 2 1 P Y ( 1 ) = 8 3 P Y ( 2 ) = 8 3 P Y ( 3 ) = 8 1
여기서 만약 X와 Y가 독립이라면 모든 x, y에 대해 P X Y ( x , y ) = P X ( x ) P Y ( y ) P_{XY}(x, y) = P_X(x)P_Y(y) P X Y ( x , y ) = P X ( x ) P Y ( y ) 가 성립해야 합니다.
P X ( 0 ) P Y ( 0 ) = 1 2 × 1 8 = 1 16 ≠ P X Y ( 0 , 0 ) = 1 8 P_X(0) P_Y(0) = \frac{1}{2} \times \frac{1}{8} = \frac{1}{16} \neq P_{XY}(0, 0) = \frac{1}{8} P X ( 0 ) P Y ( 0 ) = 2 1 × 8 1 = 16 1 = P X Y ( 0 , 0 ) = 8 1
위와 같이 등호가 성립하지 않기 때문에 두 확률 변수는 서로 독립이 아닙니다.
Continous Bivariate RVs
연속 확률 변수의 경우에는 PMF를 정의할 수 없기 때문에 PDF를 정의합니다.
두 개의 연속 확률 변수에 대한 Joint PDF는 다음과 같이 정의됩니다.
f X Y ( x , y ) = ∂ 2 ∂ x ∂ y F X Y ( x , y ) f_{XY}(x, y) = \frac{\partial^2}{\partial x \partial y}F_{XY}(x, y) f X Y ( x , y ) = ∂ x ∂ y ∂ 2 F X Y ( x , y )
그리고, 다음과 같은 성질들을 만족합니다.
1) f X Y ≥ 0 f_{XY} \geq 0 f X Y ≥ 0
2) ∫ − ∞ ∞ ∫ − ∞ ∞ f X Y ( x , y ) d x d y = F X Y ( ∞ , ∞ ) = 1 \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f_{XY}(x, y) \mathrm{d}x \mathrm{d}y = F_{XY}(\infty, \infty) = 1 ∫ − ∞ ∞ ∫ − ∞ ∞ f X Y ( x , y ) d x d y = F X Y ( ∞ , ∞ ) = 1
3) P ( x 1 < X ≤ x 2 , y 1 < Y < y 2 ) = ∫ y 1 y 2 ∫ x 1 x 2 f X Y ( x , y ) d x d y = F X Y ( x 2 , y 2 ) − F X Y ( x 1 , y 2 ) − F X Y ( x 2 , y 1 ) + F X Y ( x 1 , y 1 ) P(x_1 < X \leq x_2, y_1 < Y < y_2) = \int_{y_1}^{y_2} \int_{x_1}^{x_2} f_{XY}(x, y) \mathrm{d}x \mathrm{d}y = F_{XY}(x_2, y_2) - F_{XY}(x_1, y_2) - F_{XY}(x_2, y_1) + F_{XY}(x_1, y_1) P ( x 1 < X ≤ x 2 , y 1 < Y < y 2 ) = ∫ y 1 y 2 ∫ x 1 x 2 f X Y ( x , y ) d x d y = F X Y ( x 2 , y 2 ) − F X Y ( x 1 , y 2 ) − F X Y ( x 2 , y 1 ) + F X Y ( x 1 , y 1 )
이산 확률 변수와 마찬가지로 각각의 연속 확률 변수에 대한 Marginal PDF는 다음과 같이 얻을 수 있습니다.
f X ( x ) = ∫ − ∞ ∞ f X Y ( x , y ) d y f Y ( y ) = ∫ − ∞ ∞ f X Y ( x , y ) d x \begin{align*} f_X(x) &= \int_{-\infty}^{\infty} f_{XY}(x, y) \mathrm{d}y \\ f_Y(y) &= \int_{-\infty}^{\infty} f_{XY}(x, y) \mathrm{d}x \end{align*} f X ( x ) f Y ( y ) = ∫ − ∞ ∞ f X Y ( x , y ) d y = ∫ − ∞ ∞ f X Y ( x , y ) d x
또한, 두 확률 변수 X, Y가 서로 독립(independent)라면 다음의 식이 성립하게 됩니다.
f X Y ( x , y ) = f X ( x ) f Y ( y ) f_{XY}(x, y) = f_X(x)f_Y(y) f X Y ( x , y ) = f X ( x ) f Y ( y )
연속 확률 변수의 Joint PDF의 정의를 살펴보면, Joint CDF를 두 확률 변수에 대해 편미분한 것과 같습니다. 확률 변수가 하나일 때, PDF는 물리적으로 단위 길이 당 확률을 의미했습니다. 하지만 확률 변수가 2개가 되면 Joint PDF는 확률 밀도(단위 면적 당 확률)를 의미하게 됩니다.
Contional Distribution for Bivariate RVs
Discrete Bivariate RVs
먼저 이산 확률 변수에 대한 조건부 분포를 생각해봅시다.
조건부 확률은 사건들(events)의 집합으로 고려했을 때, 다음과 같이 표현합니다.
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B) = \frac{P(A \cap B)}{P(B)} P ( A ∣ B ) = P ( B ) P ( A ∩ B )
그리고 확률 변수를 통해서 표현할 때 일반적으로 다음과 같이 표현합니다.
P ( X ≤ x ∣ X ≤ a ) = F X ( x ∣ X ≤ a ) P(X \leq x | X \leq a) = F_X(x | X \leq a) P ( X ≤ x ∣ X ≤ a ) = F X ( x ∣ X ≤ a )
두 개의 확률 변수일 때도 이와 동일합니다. 만약 X = x X = x X = x 로 주어진 경우, Y Y Y 의 조건부 PMF는 다음과 같이 구할 수 있습니다.
P Y ∣ X ( Y = y ∣ X = x ) = P ( X = x , Y = y ) P ( X = x ) = P X Y ( x , y ) P X Y ( x ) P_{Y|X} (Y = y | X = x) = \frac{P(X = x, Y = y)}{P(X = x)} = \frac{P_{XY}(x, y)}{P_{XY}(x)} P Y ∣ X ( Y = y ∣ X = x ) = P ( X = x ) P ( X = x , Y = y ) = P X Y ( x ) P X Y ( x , y )
예를 들어, 위에서 살펴본 동전을 3번 던지는 실험을 고려해봅시다. 확률 변수 X와 Y의 정의는 동일하다고 가정합니다.
이때, Joint PMF와 Marginal PMF는 다음과 같습니다.
이때, P Y ∣ X ( Y = 1 ∣ X = 0 ) P_{Y|X}(Y = 1|X = 0) P Y ∣ X ( Y = 1∣ X = 0 ) 은 다음과 같이 계산할 수 있습니다.
P Y ∣ X ( Y = 1 ∣ X = 0 ) = P X Y ( 0 , 1 ) P X ( 0 ) = 2 / 8 1 / 2 = 2 4 P_{Y|X}(Y=1|X=0) = \frac{P_{XY}(0, 1)}{P_X(0)} = \frac{2/8}{1/2} = \frac{2}{4} P Y ∣ X ( Y = 1∣ X = 0 ) = P X ( 0 ) P X Y ( 0 , 1 ) = 1/2 2/8 = 4 2
Continuous Bivariate RVs
두 연속 확률 변수에 대한 조건부 확률, 예를 들어, X = x X = x X = x 로 주어졌을 때 Y의 조건부 PDF는 다음과 같이 정의됩니다.
f Y ∣ X ( y ∣ x ) = f X Y ( x , y ) f X ( x ) f_{Y|X}(y|x) = \frac{f_{XY}(x, y)}{f_X(x)} f Y ∣ X ( y ∣ x ) = f X ( x ) f X Y ( x , y )
여기서 X = x X = x X = x 로 주어졌다는 것에 주의할 필요가 있습니다. 일반적으로 연속 확률 분포에 대해 하나의 특정한 값에 대한 확률은 0이라고 알고 있습니다. 이 때문에 조금 헷갈릴 수 있습니다.
쉽게 말하면, 두 확률 변수는 이제 평면 상에서 표현할 수 있습니다. 이때, X = x X = x X = x 라고 고정하면 이에 해당하는 Y Y Y 의 범위가 형성되고 이 범위에 대한 확률이 바로 X = x X = x X = x 일 때의 Y의 조건부 확률이 되는 것입니다.
조건부 PDF를 식으로 정리하면, 다음과 같습니다.
f Y ∣ X ( y ∣ x ) = ∂ ∂ y F Y ∣ X ( y ∣ X = x ) = ∂ ∂ y P Y ∣ X ( Y ≤ y ∣ X = x ) = ∂ ∂ y P ( Y ≤ Y , X = x ) P ( X = x ) \begin{align*} f_{Y|X}(y|x) &= \frac{\partial}{\partial y}F_{Y|X}(y | X = x) \\ &= \frac{\partial}{\partial y} P_{Y|X}(Y \leq y | X = x) \\ &= \frac{\partial}{\partial y} \frac{P(Y \leq Y, X = x)}{P(X = x)} \end{align*} f Y ∣ X ( y ∣ x ) = ∂ y ∂ F Y ∣ X ( y ∣ X = x ) = ∂ y ∂ P Y ∣ X ( Y ≤ y ∣ X = x ) = ∂ y ∂ P ( X = x ) P ( Y ≤ Y , X = x )
분자나 분모에 X = x X = x X = x 에 대한 확률이 포함되어 있기 때문에 0 / 0 0/0 0/0 의 꼴이 되고, 미분 개념으로 생각하면 그 결과가 의미있는 값이 될 수 있다는 것을 알 수 있습니다.
따라서, 위의 식을 이어서 극한을 적용하면,
= ∂ ∂ y lim Δ x → 0 P ( Y ≤ y , x < X ≤ x + Δ x P ( x < X ≤ x + Δ x = ∂ ∂ y lim Δ x → 0 F X Y ( x + Δ x , y ) − F X Y ( x , y ) F X ( x + Δ x ) − F X ( x ) = ∂ ∂ y lim Δ x → 0 ( F X Y ( x + Δ x , y ) − F X Y ( x , y ) ) / Δ x ( F X ( x + Δ x ) − F X ( x ) ) / Δ x = ∂ ∂ y ∂ ∂ x F X Y ( x , y ) f X ( x ) = ∂ 2 ∂ x ∂ y F X Y ( x , y ) f X ( x ) = f X Y ( x , y ) f X ( x ) \begin{align*} &= \frac{\partial}{\partial y} \lim_{\Delta x \rightarrow 0} \frac{P(Y \leq y, x < X \leq x + \Delta x}{P(x < X \leq x + \Delta x} \\ &= \frac{\partial}{\partial y} \lim_{\Delta x \rightarrow 0} \frac{F_{XY}(x + \Delta x, y) - F_{XY}(x, y)}{F_X(x + \Delta x) - F_X(x)} \\ &= \frac{\partial}{\partial y} \lim_{\Delta x \rightarrow 0} \frac{(F_{XY}(x + \Delta x, y) - F_{XY}(x, y)) / \Delta x}{(F_X(x + \Delta x) - F_X(x)) / \Delta x} \\ &= \frac{\partial}{\partial y} \frac{\frac{\partial}{\partial x}F_{XY}(x, y)}{f_X(x)} = \frac{\frac{\partial ^2}{\partial x \partial y}F_{XY}(x, y)}{f_X(x)} \\ &= \frac{f_{XY}(x, y)}{f_X(x)} \end{align*} = ∂ y ∂ Δ x → 0 lim P ( x < X ≤ x + Δ x P ( Y ≤ y , x < X ≤ x + Δ x = ∂ y ∂ Δ x → 0 lim F X ( x + Δ x ) − F X ( x ) F X Y ( x + Δ x , y ) − F X Y ( x , y ) = ∂ y ∂ Δ x → 0 lim ( F X ( x + Δ x ) − F X ( x )) /Δ x ( F X Y ( x + Δ x , y ) − F X Y ( x , y )) /Δ x = ∂ y ∂ f X ( x ) ∂ x ∂ F X Y ( x , y ) = f X ( x ) ∂ x ∂ y ∂ 2 F X Y ( x , y ) = f X ( x ) f X Y ( x , y )
이 성립합니다.
즉, 두 연속 확률 변수에 대한 조건부 PDF는 다음과 같이 Joint PDF와 Marginal PDF로 계산할 수 있습니다.
f Y ∣ X ( y ∣ x ) = f X Y ( x , y ) f X ( x ) f X ∣ Y ( x ∣ y ) = f X Y ( x , y ) f Y ( y ) \begin{align*} f_{Y|X}(y|x) &= \frac{f_{XY}(x, y)}{f_X(x)} \\ f_{X|Y}(x|y) &= \frac{f_{XY}(x, y)}{f_Y(y)} \end{align*} f Y ∣ X ( y ∣ x ) f X ∣ Y ( x ∣ y ) = f X ( x ) f X Y ( x , y ) = f Y ( y ) f X Y ( x , y )
만약 두 확률 변수가 서로 독립이라면, 다음의 식이 성립합니다.
f X ∣ Y ( x ∣ y ) = f X ( x ) AND f Y ∣ X ( y ∣ x ) = f Y ( y ) f_{X|Y}(x|y) = f_X(x) \text{ AND } f_{Y|X}(y|x) = f_Y(y) f X ∣ Y ( x ∣ y ) = f X ( x ) AND f Y ∣ X ( y ∣ x ) = f Y ( y )
Contional Means & Variances
확률 변수의 평균과 분산
확률 변수의 평균과 분산
References 확률과 통계 강의 5, 6강 (KOWC - 한양대학교 이상화 교수님) Fundamentals of Applied Probability and Random Processs (Oliver Ibe) Contents 평균, 기댓값 (Expectation) 분산 (Variance) 조건부..
junstar92.tistory.com
하나의 확률 변수에 대한 조건부 평균은 다음과 같이 정의됩니다.
E [ X ∣ X ≤ a ] = ∫ x ≤ a x f X ( x ∣ x ≤ a ) d x E[X | X \leq a] = \int_{x \leq a} xf_X(x|x \leq a) \mathrm{d}x E [ X ∣ X ≤ a ] = ∫ x ≤ a x f X ( x ∣ x ≤ a ) d x
두 개의 확률 변수에 대한 확률은 조건부 확률과 비슷하게 E [ Y ∣ X = x ] E[Y|X =x] E [ Y ∣ X = x ] 로 표현할 수 있는데, 결과적으로 이 확률은 g ( x ) g(x) g ( x ) 와 같이 x에 대한 함수(또는 상수)로 표현될 것 입니다. 즉, x의 값에 의해서 Y의 평균이 결정된다는 것을 의미합니다.
두 확률 변수가 이산 확률 변수라면, 다음과 같이 평균과 분산이 계산되고
μ Y ∣ X = E [ Y ∣ X = x ] = ∑ y y P Y ∣ X ( y ∣ x ) σ Y ∣ X 2 = E [ Y 2 ∣ X = x ] − μ Y ∣ X 2 \begin{align*} \mu_{Y|X} &= E[Y|X = x] = \sum_y yP_{Y|X}(y|x) \\ \sigma_{Y|X}^2 &= E[Y^2|X=x] - \mu_{Y|X}^2 \end{align*} μ Y ∣ X σ Y ∣ X 2 = E [ Y ∣ X = x ] = y ∑ y P Y ∣ X ( y ∣ x ) = E [ Y 2 ∣ X = x ] − μ Y ∣ X 2
두 확률 변수가 연속 확률 변수라면, 평균은 다음과 같이 계산됩니다.
μ Y ∣ X = E [ Y ∣ X = x ] = ∫ − ∞ ∞ y f Y ∣ X ( y ∣ x ) d y \begin{align*} \mu_{Y|X} &= E[Y|X=x] = \int_{-\infty}^{\infty} y f_{Y|X}(y|x) \mathrm{d}y \end{align*} μ Y ∣ X = E [ Y ∣ X = x ] = ∫ − ∞ ∞ y f Y ∣ X ( y ∣ x ) d y
Ex 5.10>
f X Y ( x , y ) = { e − x / y e − y y 0 ≤ x ∞ , 0 < y < ∞ 0 otherwise f_{XY}(x, y) = \begin{cases} \frac{e^{-x/y} e^{-y}}{y} && 0 \leq x \infty, 0 < y < \infty \\ 0 && \text{otherwise} \end{cases} f X Y ( x , y ) = { y e − x / y e − y 0 0 ≤ x ∞ , 0 < y < ∞ otherwise
Joint PDF가 위와 같이 주어졌을 때, E [ X ∣ Y = y ] E[X|Y=y] E [ X ∣ Y = y ] 를 계산해보도록 하겠습니다.
먼저 조건부 평균을 계산하려면 conditional PDF f X ∣ Y ( x ∣ y ) f_{X|Y}(x|y) f X ∣ Y ( x ∣ y ) 를 알아야 하는데, 조건부 PDF는 Joint PDF와 Marginal PDF의 식으로 구할 수 있기 때문에, 먼저 marginal PDF f Y ( y ) f_Y(y) f Y ( y ) 를 계산해야 합니다.
f Y ( y ) = ∫ 0 ∞ f X Y ( x , y ) d x = ∫ 0 ∞ e − x / y e − y y d x = e − y y ∫ 0 ∞ e − x / y d x = e − y f_Y(y) = \int_{0}^{\infty} f_{XY}(x, y)\mathrm{d}x = \int_{0}^{\infty} \frac{e^{-x/y}e^{-y}}{y} \mathrm{d}x = \frac{e^{-y}}{y} \int_{0}^{\infty} e^{-x/y}\mathrm{d}x = e^{-y} f Y ( y ) = ∫ 0 ∞ f X Y ( x , y ) d x = ∫ 0 ∞ y e − x / y e − y d x = y e − y ∫ 0 ∞ e − x / y d x = e − y
f X ∣ Y ( x ∣ y ) = f X Y ( x , y ) f Y ( y ) = e − x / y e − y y e − y = 1 y e − x / y f_{X|Y}(x|y) = \frac{f_{XY}(x, y)}{f_Y(y)} = \frac{e^{-x/y}e^{-y}}{ye^{-y}} = \frac{1}{y}e^{-x/y} f X ∣ Y ( x ∣ y ) = f Y ( y ) f X Y ( x , y ) = y e − y e − x / y e − y = y 1 e − x / y
위 식에 의해서 조건부 평균은 다음과 같이 계산할 수 있습니다.
E [ X ∣ Y = y ] = ∫ 0 ∞ x f X ∣ Y ( x ∣ y ) d x = 1 y ∫ 0 ∞ x e − x / y d x E[X|Y=y] = \int_{0}^{\infty} x f_{X|Y}(x|y)\mathrm{d}x = \frac{1}{y} \int_{0}^{\infty} x e^{-x/y} \mathrm{d}x E [ X ∣ Y = y ] = ∫ 0 ∞ x f X ∣ Y ( x ∣ y ) d x = y 1 ∫ 0 ∞ x e − x / y d x
여기서 u = x u = x u = x 로 치환하고, v = − y e − x / y v = -ye^{-x/y} v = − y e − x / y 로 치환하여 부분적분 법으로 계산하면, 조건부 평균 E [ X ∣ Y = y ] E[X|Y=y] E [ X ∣ Y = y ] 는 다음과 같이 계산됩니다.
위에서 언급했던 것처럼 y에 대한 식으로 계산된 것을 확인할 수 있습니다.
어떤 확률 변수 X를 g(X)로 매핑했을 때, E [ g ( X ) ] E[g(X)] E [ g ( X )] 는 어떻게 계산될까요?
원래 X에 대한 평균을 계산하는 식에 X 대신 g(X)로만 바꿔주면 됩니다.
E [ g ( X ) ] = ∫ g ( x ) f X ( x ) d x E[g(X)] = \int g(x)f_X(x) \mathrm{d}x E [ g ( X )] = ∫ g ( x ) f X ( x ) d x
두 개의 확률 변수 X, Y를 어떤 변환 함수 h ( X , Y ) h(X, Y) h ( X , Y ) 로 매핑했을 때도 동일합니다.
E [ h ( X , Y ) ] = ∫ ∫ h ( x , y ) f X Y ( x , y ) d x d y E[h(X, Y)] = \int \int h(x, y) f_{XY}(x, y) \mathrm{d}x \mathrm{d}y E [ h ( X , Y )] = ∫∫ h ( x , y ) f X Y ( x , y ) d x d y
이에 대해서는 6장에서 조금 더 자세하게 다루겠지만, 이번 포스팅에서 간단하게 E [ E [ X ∣ Y ] ] E[E[X|Y]] E [ E [ X ∣ Y ]] 가 어떻게 계산되는지만 살펴보겠습니다.
E [ E [ X ∣ Y ] ] = E [ ∫ x f X ∣ Y ( x ∣ Y = y ) d x ] \begin{align*} E[E[X|Y]] &= E[\int x f_{X|Y}(x|Y=y) \mathrm{d}x] \end{align*} E [ E [ X ∣ Y ]] = E [ ∫ x f X ∣ Y ( x ∣ Y = y ) d x ]
오른쪽 항을 살펴보면, 결국 ∫ x f X ∣ Y ( x ∣ Y = y ) d x \int x f_{X|Y}(x|Y=y) \mathrm{d}x ∫ x f X ∣ Y ( x ∣ Y = y ) d x 는 y에 대한 식 g ( y ) g(y) g ( y ) 의 꼴이 될 것이기 때문에 E [ g ( y ) ] E[g(y)] E [ g ( y )] 를 구하는 것과 동일합니다. 위의 식을 이어서 풀어보면,
E [ E [ X ∣ Y ] ] = E [ ∫ x f X ∣ Y ( x ∣ Y = y ) d x ] = ∫ ( ∫ x f X ∣ Y ( x ∣ y ) d x ) f Y ( y ) d y = ∫ ∫ x f X Y ( x , y ) f Y ( y ) f Y ( y ) d x d y = ∫ ∫ x f X Y ( x , y ) d y d x = ∫ x f X ( x ) d x = E [ X ] \begin{align*} E[E[X|Y]] &= E[\int x f_{X|Y}(x|Y=y) \mathrm{d}x] \\ &= \int \left ( \int x f_{X|Y}(x|y)\mathrm{d}x \right )f_Y(y) \mathrm{d}y \\ &= \int \int x \frac{f_{XY}(x, y)}{f_Y(y)} f_Y(y) \mathrm{d}x \mathrm{d}y \\ &= \int \int x f_{XY}(x, y) \mathrm{d}y \mathrm{d}x \\ &= \int x f_X(x) \mathrm{d}x = E[X] \end{align*} E [ E [ X ∣ Y ]] = E [ ∫ x f X ∣ Y ( x ∣ Y = y ) d x ] = ∫ ( ∫ x f X ∣ Y ( x ∣ y ) d x ) f Y ( y ) d y = ∫∫ x f Y ( y ) f X Y ( x , y ) f Y ( y ) d x d y = ∫∫ x f X Y ( x , y ) d y d x = ∫ x f X ( x ) d x = E [ X ]
E [ E [ X ∣ Y ] ] = E [ X ] E[E[X|Y]] = E[X] E [ E [ X ∣ Y ]] = E [ X ] 라는 것을 알 수 있습니다.
Covariance & Correlation Coefficient
두 개의 확률 변수 X, Y에 대한 공분산(covariance) 와 상관 계수(correlation coefficient) 는 두 확률 변수가 얼마나 비슷한 경향으로 발생하는지 보여줍니다. 다르게 표현하면 두 확률 변수가 선형 관계에 있는지 보여줍니다.
두 확률 변수 X, Y에 대해서 기댓값이 각각 E [ X ] = μ X , E [ Y ] = μ Y E[X] = \mu_X, E[Y] = \mu_Y E [ X ] = μ X , E [ Y ] = μ Y 이고, 분산이 σ X 2 , σ Y 2 \sigma_X^2, \sigma_Y^2 σ X 2 , σ Y 2 인 경우, X와 Y의 공분산은 Cov ( X , Y ) \text{Cov}(X, Y) Cov ( X , Y ) 또는 σ X Y \sigma_{XY} σ X Y 로 표기하며 다음과 같이 정의됩니다.
Cov ( X , Y ) = σ X Y = E [ ( X − μ X ) ( Y − μ Y ) ] = E [ X Y − μ Y X − μ X Y + μ X μ Y ] = E [ X Y ] − μ Y E [ X ] − μ X E [ Y ] + μ X μ Y = E [ X Y ] − μ X μ Y − μ X μ Y + μ X μ Y = E [ X Y ] − μ X μ Y \begin{align*} \text{Cov}(X, Y) &= \sigma_{XY} = E[(X-\mu_X)(Y-\mu_Y)] \\ &= E[XY - \mu_Y X - \mu_X Y + \mu_X \mu_Y] \\ &= E[XY] - \mu_Y E[X] - \mu_X E[Y] + \mu_X \mu_Y \\ &= E[XY] -\mu_X \mu_Y - \mu_X \mu_Y + \mu_X \mu_Y \\ &= E[XY] - \mu_X \mu_Y \end{align*} Cov ( X , Y ) = σ X Y = E [( X − μ X ) ( Y − μ Y )] = E [ X Y − μ Y X − μ X Y + μ X μ Y ] = E [ X Y ] − μ Y E [ X ] − μ X E [ Y ] + μ X μ Y = E [ X Y ] − μ X μ Y − μ X μ Y + μ X μ Y = E [ X Y ] − μ X μ Y
이때, Cov ( X , Y ) = 0 \text{Cov}(X, Y) = 0 Cov ( X , Y ) = 0 이라면, 두 확률 변수 X와 Y는 서로 uncorrelated 라고 합니다. 즉, 각 확률 변수는 서로 연관이 없으며, 즉, Y = g ( X ) Y = g(X) Y = g ( X ) 로 매핑해주는 특정 변환 함수 g ( X ) g(X) g ( X ) 가 존재하지 않는다고 할 수 있습니다.
반대로 두 확률 변수가 서로 correlated 하다면, 서로 연관되어 있고 Y = g ( X ) Y = g(X) Y = g ( X ) 로 매핑해주는 변환 함수가 존재한다는 것을 의미합니다.
만약 두 확률 변수가 서로 독립(independent)라면 어떻게 될까요?
두 확률 변수가 독립이려면 f X Y ( x , y ) = f X ( x ) f Y ( y ) f_{XY}(x, y) = f_X(x) f_Y(y) f X Y ( x , y ) = f X ( x ) f Y ( y ) 가 만족해야 합니다.
두 확률 변수가 독립일 때, 공분산의 정의를 조금 더 풀어보면
Cov ( X , Y ) = E [ X Y ] − μ X μ Y = ∫ ∫ x y f X Y ( x , y ) d x d y − μ X μ Y = ∫ x f X ( x ) d x ∫ y f Y ( y ) d y − μ X μ Y = μ X μ Y − μ X μ Y = 0 \begin{align*} \text{Cov}(X, Y) &= E[XY] - \mu_X \mu_Y \\ &= \int \int xy f_{XY}(x, y) \mathrm{d}x \mathrm{d}y - \mu_X \mu_Y \\ &= \int x f_X(x) \mathrm{d}x \int y f_Y(y) \mathrm{d}y - \mu_X \mu_Y \\ &= \mu_X \mu_Y - \mu_X \mu_Y = 0 \end{align*} Cov ( X , Y ) = E [ X Y ] − μ X μ Y = ∫∫ x y f X Y ( x , y ) d x d y − μ X μ Y = ∫ x f X ( x ) d x ∫ y f Y ( y ) d y − μ X μ Y = μ X μ Y − μ X μ Y = 0
이 성립합니다.
따라서, 두 확률 변수가 서로 독립이라면 공분산이 0이 되므로 서로 correlated하다고 할 수 있습니다.
하지만 두 확률 변수가 서로 correlated하다고 해서 서로 독립인 경우는 아니므로 주의해야 합니다. 즉, 반대의 경우에는 항상 성립하지 않습니다.
결과적으로 uncorrelated 조건이 조금 더 상위 조건에 속하며, 독립 조건은 uncorrelated 조건 하위에 존재한다고 볼 수 있습니다.
X와 Y의 공분산을 구하면, 상관 계수(correlation coefficient) 를 정의할 수 있으며 ρ ( X , Y ) \rho(X, Y) ρ ( X , Y ) 또는 ρ X Y \rho_{XY} ρ X Y 로 표기합니다.
ρ X Y = Cov ( X , Y ) Var ( X ) Var ( Y ) = σ X Y σ X σ Y \rho_{XY} = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X)\text{Var}(Y)}} = \frac{\sigma_{XY}}{\sigma_X \sigma_Y} ρ X Y = Var ( X ) Var ( Y ) Cov ( X , Y ) = σ X σ Y σ X Y
상관 계수 값의 범위는 − 1 ≤ ρ X Y ≤ 1 -1 \leq \rho_{XY} \leq 1 − 1 ≤ ρ X Y ≤ 1 이며, 분산은 항상 음수가 아니기 때문에 아래의 식들을 통해서 유도할 수 있습니다.
(Cauchy-Schwarz Inequality를 통해서 증명할 수도 있습니다)
예를 들어, 두 확률 변수 X, Y가 Y = a X + b , a > 0 , b ≠ 0 Y = aX + b, a > 0, b \neq 0 Y = a X + b , a > 0 , b = 0 의 관계를 가지고 있다고 가정해봅시다.
그렇다면, 공분산 σ X Y \sigma_{XY} σ X Y 는
σ X Y = E [ ( X − μ X ) ( Y − μ Y ) ] = E [ ( X − μ X ) ( a X + b − ( a μ X + b ) ) ] = E [ ( X − μ X ) ( a X − a μ X ) ] = a E [ ( X − μ X ) 2 ] = a σ X 2 \begin{align*} \sigma_{XY} &= E[(X-\mu_X)(Y-\mu_Y)] \\ &= E[(X-\mu_X)(aX+b - (a\mu_X + b))] \\ &= E[(X-\mu_X)(aX - a\mu_X)] \\ &= aE[(X-\mu_X)^2] = a \sigma_X^2 \end{align*} σ X Y = E [( X − μ X ) ( Y − μ Y )] = E [( X − μ X ) ( a X + b − ( a μ X + b ))] = E [( X − μ X ) ( a X − a μ X )] = a E [( X − μ X ) 2 ] = a σ X 2
위의 식에 의해서 a σ X 2 a\sigma_X^2 a σ X 2 가 됩니다. 그리고 X와 Y의 분산은 σ Y 2 = a 2 σ X 2 \sigma_Y^2 = a^2 \sigma_X^2 σ Y 2 = a 2 σ X 2 의 관계를 갖습니다. 따라서, X와 Y의 상관 계수 ρ X Y \rho_{XY} ρ X Y 는
ρ X Y = a σ X 2 σ X ∣ a ∣ σ X \rho_{XY} = \frac{a \sigma_X^2}{\sigma_X |a|\sigma_X} ρ X Y = σ X ∣ a ∣ σ X a σ X 2
가 되며, a가 양수라면 이 값은 1, a가 음수라면 이 값은 -1이 되는 것을 확인할 수 있습니다.
(X와 Y가 정확히 1:1 대칭이 되기 때문에 이렇게 상관 계수가 1 또는 -1이 되는 것을 확인할 수 있습니다)
만약 Y = X 2 Y = X^2 Y = X 2 의 관계를 갖는다면, 이 상관 계수는 1이 아니라 1보다 떨어지는 값이 됩니다.
Multivariate Random Variables
지금까지는 2개의 확률 변수를 고려했습니다. 이번에는 2개 이상의 확률 변수에 대해 고려해보도록 하겠습니다.
동일한 Sample Space에 정의된 확률 변수의 집합 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X 1 , X 2 , ⋯ , X n 이 있다고 가정해봅시다. 이때, 이 확률 변수들의 joint CDF는 다음과 같이 정의됩니다.
F X 1 , X 2 , ⋯ , X n = P ( X 1 ≤ x 1 , X 2 ≤ x 2 , ⋯ , X n ≤ x n ) F_{X_1, X_2, \cdots, X_n} = P(X_1 \leq x_1, X_2 \leq x_2, \cdots, X_n \leq x_n) F X 1 , X 2 , ⋯ , X n = P ( X 1 ≤ x 1 , X 2 ≤ x 2 , ⋯ , X n ≤ x n )
만약 모든 확률 변수들이 이산 확률 변수라면, 이들의 joint PMF는 다음과 같이 정의됩니다.
P X 1 , X 2 , ⋯ , X n = P ( X 1 = x 1 , X 2 = x 2 , ⋯ , X n = x n ) P_{X_1, X_2, \cdots, X_n} = P(X_1 = x_1, X_2 = x_2, \cdots, X_n = x_n) P X 1 , X 2 , ⋯ , X n = P ( X 1 = x 1 , X 2 = x 2 , ⋯ , X n = x n )
모든 확률 변수들이 연속 확률 변수라면, joint PDF가 다음과 같이 정의됩니다.
f X 1 , X 2 , ⋯ , X n = ∂ n ∂ x 1 ∂ x 2 ⋯ ∂ x n F X 1 , X 2 , ⋯ , X n ( x 1 , x 2 , ⋯ , x n ) f_{X_1, X_2, \cdots, X_n} = \frac{\partial ^n}{\partial x_1 \partial x_2 \cdots \partial x_n}F_{X_1, X_2, \cdots, X_n}(x_1, x_2, \cdots, x_n) f X 1 , X 2 , ⋯ , X n = ∂ x 1 ∂ x 2 ⋯ ∂ x n ∂ n F X 1 , X 2 , ⋯ , X n ( x 1 , x 2 , ⋯ , x n )
조건부 PDF는 다음과 같이 정의됩니다.
f X n ∣ X n − 1 , X n − 2 , ⋯ , X 1 ( x n ∣ x n − 1 , x n − 2 , ⋯ , x 1 ) = f X 1 X 2 ⋯ X n ( x 1 , x 2 , ⋯ , x n ) f X 1 X 2 ⋯ X n − 1 ( x 1 , x 2 , ⋯ , x n − 1 ) f_{X_n| X_{n-1}, X_{n-2}, \cdots, X_1}(x_n | x_{n-1}, x_{n-2}, \cdots, x_1) = \frac{f_{X_1 X_2 \cdots X_n}(x_1, x_2, \cdots, x_n)}{f_{X_1 X_2 \cdots X_{n-1}}(x_1, x_2, \cdots, x_{n-1})} f X n ∣ X n − 1 , X n − 2 , ⋯ , X 1 ( x n ∣ x n − 1 , x n − 2 , ⋯ , x 1 ) = f X 1 X 2 ⋯ X n − 1 ( x 1 , x 2 , ⋯ , x n − 1 ) f X 1 X 2 ⋯ X n ( x 1 , x 2 , ⋯ , x n )
Multinomial Distributions
이항 분포(binomial distribution)은 2가지 결과가 가능한 사건을 n번 시도했을 때, k번 발생할 확률에 대한 확률 분포입니다. 즉, 2가지 경우에 대한 확률 분포이며, 그 확률은 다음과 같이 정의됩니다.
P ( k ) = ( n k ) p k ( 1 − p ) n − k P(k) = \binom{n}{k}p^k(1-p)^{n-k} P ( k ) = ( k n ) p k ( 1 − p ) n − k
다항 분포(multinomial distribution)는 이항 분포의 확장이며, m가지 결과가 가능한 사건을 n번 시도했을 때의 확률 분포이며 다음과 같이 정의됩니다.
P K 1 , K 2 , ⋯ , K m ( k 1 , k 2 , ⋯ , k m ) = P ( K 1 = k 1 , K 2 = k 2 , ⋯ , K m = k m ) = ( n k 1 k 2 ⋯ k m ) p 1 k 1 p 2 k 2 ⋯ p m k m = n ! k 1 ! k 2 ! ⋯ k m ! p 1 k 1 p 2 k 2 ⋯ p m k m \begin{align*} P_{K_1, K_2, \cdots, K_m}(k_1, k_2, \cdots, k_m) &= P(K_1 = k_1, K_2 = k_2, \cdots, K_m = k_m) \\ &= \binom{n}{k_1 k_2 \cdots k_m} p_1^{k_1} p_2^{k_2} \cdots p_m^{k_m} \\ &= \frac{n!}{k_1! k_2! \cdots k_m!}p_1^{k_1} p_2^{k_2} \cdots p_m^{k_m} \end{align*} P K 1 , K 2 , ⋯ , K m ( k 1 , k 2 , ⋯ , k m ) = P ( K 1 = k 1 , K 2 = k 2 , ⋯ , K m = k m ) = ( k 1 k 2 ⋯ k m n ) p 1 k 1 p 2 k 2 ⋯ p m k m = k 1 ! k 2 ! ⋯ k m ! n ! p 1 k 1 p 2 k 2 ⋯ p m k m
이때, ∑ i = 1 m k i = n \sum_{i=1}^{m} k_i = n ∑ i = 1 m k i = n 이며, k i = 0 , 1 , ⋯ , n for i = 1 , 2 , ⋯ , m k_i = 0, 1, \cdots, n \text{ for } i = 1, 2, \cdots, m k i = 0 , 1 , ⋯ , n for i = 1 , 2 , ⋯ , m 입니다. m = 2 m = 2 m = 2 인 경우, 다항 분포는 이항 분포에 해당됩니다.
Joint Gaussian Distribution
Joint Gaussian Distribution은 연합 정규 분포라고도 부르며, 우리가 잘 알고 있는 정규 분포에서 확률 변수의 갯수를 증가시킨 버전이라고 볼 수 있습니다.
2개의 확률 변수에 대한 연합 정규 분포는 다음과 같이 정의됩니다.
f X Y ( x , y ) = 1 2 π σ X σ Y 1 − ρ 2 exp { − 1 2 ( 1 − ρ 2 ) [ ( x − μ X ) 2 σ X 2 − 2 ρ ( x − μ X ) ( y − μ Y ) σ X σ Y + ( y − μ Y ) 2 σ Y 2 ] } f_{XY}(x, y) = \frac{1}{2\pi \sigma_X \sigma_Y \sqrt{1 - \rho^2}} \text{exp}\left \{ -\frac{1}{2(1-\rho^2)} \left [ \frac{(x-\mu_X)^2}{\sigma_X^2} -\frac{2\rho (x-\mu_X)(y - \mu_Y)}{\sigma_X \sigma_Y} + \frac{(y-\mu_Y)^2}{\sigma_Y^2} \right ] \right \} f X Y ( x , y ) = 2 π σ X σ Y 1 − ρ 2 1 exp { − 2 ( 1 − ρ 2 ) 1 [ σ X 2 ( x − μ X ) 2 − σ X σ Y 2 ρ ( x − μ X ) ( y − μ Y ) + σ Y 2 ( y − μ Y ) 2 ] }
이때, μ X , m u Y \mu_X, mu_Y μ X , m u Y 는 각 확률 변수의 평균, σ X 2 , σ Y 2 \sigma_X^2, \sigma_Y^2 σ X 2 , σ Y 2 은 각 확률 변수의 분산, ρ \rho ρ 는 두 확률 변수의 상관 계수입니다.
만약, X와 Y가 서로 상관되지 않는다면(uncorrelated), r h o = 0 rho = 0 r h o = 0 이며, 따라서,
f X Y ( x , y ) = f X ( x ) ⋅ f Y ( y ) = 1 2 π σ X 2 e − ( x − μ X ) 2 2 σ X 2 1 2 π σ Y 2 e − ( y − μ Y ) 2 2 σ Y 2 f_{XY}(x, y) = f_X(x) \cdot f_Y(y) = \frac{1}{\sqrt{2 \pi \sigma_X^2}}e^{-\frac{(x-\mu_X)^2}{2\sigma_X^2}} \frac{1}{\sqrt{2\pi \sigma_Y^2}} e^{-\frac{(y-\mu_Y)^2}{2\sigma_Y^2}} f X Y ( x , y ) = f X ( x ) ⋅ f Y ( y ) = 2 π σ X 2 1 e − 2 σ X 2 ( x − μ X ) 2 2 π σ Y 2 1 e − 2 σ Y 2 ( y − μ Y ) 2
가 되며, X와 Y(marginal density)가 각각 정규분포이며 서로 독립 이라는 것을 확인할 수 있습니다.
(연합 정규 분포의 상관 계수가 0이면, X와 Y는 서로 독립이라는 명제가 참이 됩니다.)
2개가 아닌 2개 이상의 확률 변수에 대한 가우시안 분포는 다음과 같이 정의됩니다.
f X 1 , X 2 , ⋯ , X N ( x 1 , x 2 , ⋯ , x N ) = ∣ C − 1 ∣ 1 2 ( 2 π ) N 2 exp { − [ X − X ‾ ] ⊤ C X − 1 [ X − X ‾ ] 2 } f_{X_1,X_2,\cdots, X_N}(x_1, x_2, \cdots, x_N) = \frac{ | \mathbb{C}^{-1} |^{ \frac{1}{2} }}{ (2\pi)^{ \frac{N}{2} }} \text{exp} \left \{ - \frac{[X- \overline{X}]^\top \mathbb{C}_X^{-1} [X-\overline{X}]}{2} \right \} f X 1 , X 2 , ⋯ , X N ( x 1 , x 2 , ⋯ , x N ) = ( 2 π ) 2 N ∣ C − 1 ∣ 2 1 exp { − 2 [ X − X ] ⊤ C X − 1 [ X − X ] }
위 식에서 [ X − X ‾ ] [X-\overline{X}] [ X − X ] 는
[ X 1 − μ X 1 X 2 − μ X 2 ⋮ X N − μ X N ] \begin{bmatrix} X_1 - \mu_{X_1} \\ X_2 - \mu_{X_2} \\ \vdots \\ X_N - \mu_{X_N} \end{bmatrix} ⎣ ⎡ X 1 − μ X 1 X 2 − μ X 2 ⋮ X N − μ X N ⎦ ⎤
이며,
C X \mathbb{C}_X C X 는 covariance matrix로,
[ C 11 C 12 ⋯ C 1 N C 21 ⋯ ⋯ ⋯ C N 1 ⋯ C N N ] \begin{bmatrix} C_{11} && C_{12} && \cdots && C_{1N} \\ C_{21} && && \cdots && \\ \cdots && && \cdots && \\ C_{N1} && && \cdots && C_{NN} \end{bmatrix} ⎣ ⎡ C 11 C 21 ⋯ C N 1 C 12 ⋯ ⋯ ⋯ ⋯ C 1 N C NN ⎦ ⎤
이며, 각 요소 C i j , C i i C_{ij}, C_{ii} C ij , C ii 는
C i j = E [ ( X i − μ X i ) ( X j − μ X j ) ] , C i i = σ X i 2 C_{ij} = E[(X_i - \mu_{X_i})(X_j - \mu_{X_j})], C_{ii} = \sigma_{X_i}^2 C ij = E [( X i − μ X i ) ( X j − μ X j )] , C ii = σ X i 2
로 정의됩니다.
댓글