한성대학교 지준교수님 강의자료를 통해 기초적인 개념들을 다지고자 한다.
1. 확률변수와 확률분포
- 확률변수란?
확률변수(random variable)란 확률실험에 따라 정의되는 표본공간 $S$의 모든 원소를 실수 값을 대응시키는 함수이다. 즉, 확률실험 시행 결과 각각은 확률변수에 의해 실수 값으로 표현될 수 있다. 확률변수의 종류는 주사위 굴리기와 같은 이산변수(discrete variable), 몸무게, 키와 같은 연속변수(continuous variable)가 있다.
$$X:S \rightarrow R, \ \text{that is For} \ s \in S, \ X(s) \in R$$

- 확률분포란?
확률분포는 수치로 대응된 확률변수의 개별 값들이 가지는 확률값의 분포이며, 확률변수가 취할 수 있는 값을 확률공간상에 대응시키는 함수를 '확률분포함수'라고 한다.
ex) 두 개의 동전을 던지는 확률 실험에서 앞면이 나오는 숫자의 확률분포

- 확률변수의 평균(기대값)
먼저 구분해 볼 개념은 표본(sample, 일반 데이터)의 성질들을 표본성질이라고 하며, 확률분포의 성질은 모델(또는 모집단) 성질이라고 한다. 따라서 표본과 모집단의 성질을 다음과 같이 구분한다.
평균 | 분산 | |
표본 | $\overline{x}$ | $s^{2}$ |
모집단 | $\mu$ | $\sigma^{2}$ |
어떤 표본이 있을 때 $n_{x}$를 $x$값을 갖는 자료점의 수라고 하면 상대도수를 $\frac{n_{x}}{n}$와 같이 표현할 수 있다. 이때 표본평균을 다음과 같이 표현할 수 있다.
$$\overline{x} = \frac{1}{n}\sum_{i=1}^{n}x_{i} = \frac{1}{n}\sum_{allx}^{}n_{x}x = \sum_{allx}^{}x\frac{n_{x}}{n}$$
이산자료의 모집단의 경우, $n$값을 증가시키면 즉, 표본의 개수를 늘리면 $\frac{n_{x}}{n}$는 통계적 확률에 접근한다. 이때의 기대값(expectation)은 다음과 같이 표현되며, 이는 어떤 실험을 무수히 반복했을 때 예상되는 평균 값을 의미한다.
$$E[x] = \mu = \sum_{allx}^{}xp(x)$$
연속확률변수의 경우 다음과 같이 표현된다.
$$E[x] = \mu = \int_{-\infty}^{\infty}xf_{X}(x)dx$$
- 확률변수의 분산
이산형 자료 표본의 분산은 다음과 같다($\frac{n_{x}}{n}$는 상대도수를 의미).
$$s^{2} = \frac{1}{n}\sum_{i=1}^{n}(x_{i} - \overline{x})^{2} = \sum_{allx}^{}(x_{i} - \overline{x})^{2}\frac{n_{x}}{n}$$
이산자료 모집단의 분산은 $n$ 값을 증가시키면 상대도수가 통계적 확률에 근사하게 되며 다음과 같이 표현할 수 있다.
$$\sigma^{2} = \sum_{allx}^{}(x-\mu)^{2}p(x)$$
연속형 자료 모집단의 분산은 다음과 같이 표현한다.
$$\text{Var}[X] = \text{E}[(X-\text{E}(X))^{2}] = \int_{-\infty}^{\infty}(x-\mu)^{2}f_{X}(x)dx$$
$$\text{std}[X] = \text{Var}[X]^{1/2}$$
참고로 분산은 다음과 같이도 표현할 수 있다.
$$\text{Var}(X) = \text{E}[X^{2}] - \text{E}[X]^2$$
1) 확률분포함수의 종류
- 누적분포함수
확률변수 $X$의 누적분포함수(cumulative distribution function; cdf) $F_{X}(x)$는 확률변수 $X$가 $\{X \le x\}$일 확률함수이다.
$$F_{X}(x) = P(X \le x), \ \text{for} \ -\infty \lt x \lt \infty$$

- 확률밀도함수
확률변수 $X$의 확률밀도함수(probability density function; pdf) $f_{X}(x)$는 연속확률변수 $X$의 누적분포 $F_{X}(x)$의 미분값으로 정의한다.
$$f_{X}(x) = \frac{dF_{X}(x)}{dX}$$
이산확률변수에서는 확률밀도함수와 동일한 개념으로 누적분포 $F_{X}(x)$의 차분값으로 정의하며, 이를 확률질량함수(probability mass function, pmf)라고 한다.
$$f_{X}(x) = \frac{\Delta F_{X}(x)}{\Delta X}$$
확률밀도함수는 다음과 같은 성질들이 있다.
- $f_{X}(x) \ge 0$
- P( a < X < b ) = \int_{a}^{b}f_{X}(x)dx
- $F_{X}(x) = \int_{-\infty}^{x}f_{X}(x)dx$
- $1 = \int_{-\infty}^{\infty}f_{X}(x)dx$
- $f_{X}(x|A) = \frac{d}{dx}F_{X}(x|A), \ \text{where} \ F_{X}(x|A) = \frac{P( \{X < x\} \cap A )}{P(A)}, \ \text{if} P(A)>0$
확률밀도함수는 확률의 밀도를 정의하는 것이므로, 실제 확률을 얻기 위해서는 확률밀도함수를 일정구간에서 적분해야한다. 반면에 확률질량함수는 실제 확률을 나타낸다.

2) 벡터 확률변수(다변수 확률변수)
- 벡터 확률변수란?
확률 변수가 2개 이상 존재하는 경우 확률변수의 개념을 확장하여 열(column) 벡터로 정의된다. 예를 들어, 학생들을 키와 몸무게로 표현한다면 확률변수가 2개가 되는 것이다(각 확률변수를 feature로 이해하면 좀 더 편하다). 확률변수가 2개인 경우 이중(binary) 랜덤변수라고 하며, 표본공간 $S$에 두 개의 확률변수 $X,Y$가 있을 때 각 표본값은 순서쌍 $(x,y)$으로 표현되는 새로운 표본공간(이를 결합 표본공간이라고 함)의 $xy$평면 상의 점에 대응된다. 그리고 누적분포함수, 확률밀도함수의 개념도 "결합 누적분포함수(joint cdf)"와 "결합 확률밀도함수(joint pdf)"로 확장된다.

단일 확률변수의 누적 분포함수는 다음과 같다.
$$F_{X}(x) = P(X \le x), \ F_{Y}(y) = P(Y \le y)$$
이중(binary) 확률변수의 누적 분포함수는 다음과 같이 표현한다.
$$F_{X,Y}(x,y) = P(X \le x, Y \le y), \ P(X \le x, Y \le y) = P(A \cap B)$$
여러 확률변수로 구성된 랜덤 벡터 $X =[X_{1}, X_{2}, \cdots, X_{N}]^{T}$가 주어졌을때, 결합 누적분포함수(Joint Cumulative Density Function, joint cdf)는 다음과 같이 표현횐다.
$$F_{X}(x) = P_{X}[ \{X_{1} \le x_{1} \} \cap \{X_{2} \le x_{2} \} ] \cap \cdots \cap \{X_{1} \le x_{1} \} ]$$
그리고 결합 확률밀도함수(Joint Probability Density Function; Joint pdf)는 다음과 같이 표현된다.
$$f_{X}(x) = \frac{\delta ^{N}F_{X}(X)}{\delta x_{1}\delta x_{2}\cdots \delta x_{N}}$$
- 랜덤 벡터의 통계적 특징
변수가 1개인 확률변수에서 평균과 분산을 정의하듯이 2개 이상의 확률변수에서도 평균과 분산을 정의할 수 있다.
먼저 평균은 다음과 같이 평균벡터로 표현된다.
$$\mu = E[X] = [E[X_1], E[X_2], \cdots E[X_N]]^{T} = [\mu_1, \mu_2, \cdots, \mu_N]^{T}$$
다변수 확률변수에서 분산은 공분산행렬(Covariance Matrix)라고 하며, 다음과 같이 각 차원끼리의 공분산 값을 행렬로 표현한다.
$$\\ \Sigma = COV[X] = E[(X-\mu)(X-\mu)^{T}] \\
= \left[
\begin{array}{}
E[(x_1 - \mu_1)(x_1 - \mu_1)]&\cdots&E[(x_1 - \mu_1)(x_N - \mu_N)] \\
\vdots &\ddots &\vdots \\
E[(x_N - \mu_N)(x_1 - \mu_1)]&\cdots&E[(x_N - \mu_N)(x_N - \mu_N)] \\
\\
\end{array}
\right] = \left[
\begin{array}{}
\sigma_{1}^{2}&\cdots& c_{1N} \\
\vdots &\ddots &\vdots \\
c_{N1}&\cdots&\sigma_{N}^{2} \\
\\
\end{array}
\right]$$
공분산 행렬의 성질은 다음과 같다.
- $c_{ii} = \sigma_{i}^{2} = \text{Var}(X_{i})$
- $x_{i}$가 증가할 때 $x_{k}$가 증가한다면 $c_{ik} > 0$, $x_{k}$가 감소한다면 $c_{ik} < 0$
- 두 변수 $x_{i}, x_{k}$가 상관성이 없다면 $c_{ik} = 0$
- 상관계수
랜덤 벡터들로 생성된 행렬 $X$의 공분산 행렬은 다음과 같이 정의될 수 있다.
$$\Sigma = E[(X-\mu)(X-\mu)^{T}] = E[XX^{T}] - \mu E[X] - \mu E[X^{T}] + \mu \mu^{T} = S - \mu \mu^{T}$$
이때 S는 자기상관행렬로 다음과 같다.
$$S = E[XX^{T}] = \left[
\begin{array}{}
E[x_1x_1]&\cdots&E[x_1x_N] \\
\vdots&\ddots&\vdots \\
E[x_Nx_1]&\cdots&E[x_Nx_N] \\
\\
\end{array}
\right]$$
공분산행렬 $\Sigma$는 다음과 같이 상관행렬(correlation matrix)과 상관계수행렬과의 곱으로도 표현할 수 있다.
$$\Sigma = \Gamma R\Gamma = \left[
\begin{array}{}
\sigma_1&0&\cdots&0 \\
0 & \sigma_2 & & \\
\vdots& &\ddots&\vdots \\
0&\ & \cdots&\sigma_N \\
\\
\end{array}
\right] \left[
\begin{array}{}
1&\rho_{2}&\cdots&\rho_{1N} \\
\rho_{12} & 1 & & \\
\vdots& &\ddots&\vdots \\
\rho_{1N}&\ & \cdots&1 \\
\\
\end{array}
\right] \left[
\begin{array}{}
\sigma_1&0&\cdots&0 \\
0 & \sigma_2 & & \\
\vdots& &\ddots&\vdots \\
0&\ & \cdots&\sigma_N \\
\\
\end{array}
\right]$$
'Pattern Recognition' 카테고리의 다른 글
4. Clustering (2) (2) | 2022.09.12 |
---|---|
4. Clustering (1) (0) | 2022.09.11 |
3. Maximum Likelihood Estimation(MLE) (0) | 2022.08.06 |
(참고) Gaussian Distribution (0) | 2022.08.06 |
1. Probability (0) | 2022.08.04 |
한성대학교 지준교수님 강의자료를 통해 기초적인 개념들을 다지고자 한다.
1. 확률변수와 확률분포
- 확률변수란?
확률변수(random variable)란 확률실험에 따라 정의되는 표본공간

- 확률분포란?
확률분포는 수치로 대응된 확률변수의 개별 값들이 가지는 확률값의 분포이며, 확률변수가 취할 수 있는 값을 확률공간상에 대응시키는 함수를 '확률분포함수'라고 한다.
ex) 두 개의 동전을 던지는 확률 실험에서 앞면이 나오는 숫자의 확률분포

- 확률변수의 평균(기대값)
먼저 구분해 볼 개념은 표본(sample, 일반 데이터)의 성질들을 표본성질이라고 하며, 확률분포의 성질은 모델(또는 모집단) 성질이라고 한다. 따라서 표본과 모집단의 성질을 다음과 같이 구분한다.
평균 | 분산 | |
표본 | ||
모집단 |
어떤 표본이 있을 때
이산자료의 모집단의 경우,
연속확률변수의 경우 다음과 같이 표현된다.
- 확률변수의 분산
이산형 자료 표본의 분산은 다음과 같다(
이산자료 모집단의 분산은
연속형 자료 모집단의 분산은 다음과 같이 표현한다.
참고로 분산은 다음과 같이도 표현할 수 있다.
1) 확률분포함수의 종류
- 누적분포함수
확률변수

- 확률밀도함수
확률변수
이산확률변수에서는 확률밀도함수와 동일한 개념으로 누적분포
확률밀도함수는 다음과 같은 성질들이 있다.
- P( a < X < b ) = \int_{a}^{b}f_{X}(x)dx
확률밀도함수는 확률의 밀도를 정의하는 것이므로, 실제 확률을 얻기 위해서는 확률밀도함수를 일정구간에서 적분해야한다. 반면에 확률질량함수는 실제 확률을 나타낸다.

2) 벡터 확률변수(다변수 확률변수)
- 벡터 확률변수란?
확률 변수가 2개 이상 존재하는 경우 확률변수의 개념을 확장하여 열(column) 벡터로 정의된다. 예를 들어, 학생들을 키와 몸무게로 표현한다면 확률변수가 2개가 되는 것이다(각 확률변수를 feature로 이해하면 좀 더 편하다). 확률변수가 2개인 경우 이중(binary) 랜덤변수라고 하며, 표본공간

단일 확률변수의 누적 분포함수는 다음과 같다.
이중(binary) 확률변수의 누적 분포함수는 다음과 같이 표현한다.
여러 확률변수로 구성된 랜덤 벡터
그리고 결합 확률밀도함수(Joint Probability Density Function; Joint pdf)는 다음과 같이 표현된다.
- 랜덤 벡터의 통계적 특징
변수가 1개인 확률변수에서 평균과 분산을 정의하듯이 2개 이상의 확률변수에서도 평균과 분산을 정의할 수 있다.
먼저 평균은 다음과 같이 평균벡터로 표현된다.
다변수 확률변수에서 분산은 공분산행렬(Covariance Matrix)라고 하며, 다음과 같이 각 차원끼리의 공분산 값을 행렬로 표현한다.
공분산 행렬의 성질은 다음과 같다.
가 증가할 때 가 증가한다면 , 가 감소한다면- 두 변수
가 상관성이 없다면
- 상관계수
랜덤 벡터들로 생성된 행렬
이때 S는 자기상관행렬로 다음과 같다.
공분산행렬
'Pattern Recognition' 카테고리의 다른 글
4. Clustering (2) (2) | 2022.09.12 |
---|---|
4. Clustering (1) (0) | 2022.09.11 |
3. Maximum Likelihood Estimation(MLE) (0) | 2022.08.06 |
(참고) Gaussian Distribution (0) | 2022.08.06 |
1. Probability (0) | 2022.08.04 |