Probability Space

서사

고등학교를 다니며 접한 수학 개념들 중 가장 기억에 남는 것은 단연 편미분이고, 학부에서 가장 기억에 남는 것은 역시 Probability Space 이다. 이 블로그의 메인화면과 og이미지, 투각 반지 등에도 새겨놓은 만큼 학부에서 수학에 대한 나의 흥미가 가리킨 방향을 상징하는 개념이다.

전과를 통해 전공을 바꾼 직후에 도합 25학점을 들었던 광란의 2학년 1학기와 여름학기를 거치며 생새우초밥집 사이트와 Stochastic calculus for finance II 라는 책을 알게 되고, 2023년 7~8월간 백남학술정보관 지박령이 되어 이해가 되는 데까지 닥치는 대로 보기 시작한 게 시작이었다.

2학년 2학기에 가끔씩 보고 싶을 때 여러 블로그 글들을 찾아보던 것들을 종합해서, 2학년을 마친 후 방학에 혼자 이것저것 찾아보면서 알게 된 범위까지 정리해놓은 글이 측도론으로 정의하는 확률이었다.

그러고 한동안은 이 내용을 공부하진 못하다가 4학년이 된 후 위상수학을 들을 쯤 ~~딴짓이 땡기는 시험 기간에~~ 지능이 천지개벽한 ChatGPT가 말아주는 확률변수의 정의 적용 예시를 보고 그제서야 아하 moment가 온 적도 있었다.

그리고 대학원 합격 후 또 잊고 살다가, 대학원 첫 학기의 확률 및 통계 첫 수업에서 Probability Space가 바로 나오는 것을 보고 내가 잘 찾아왔구나 싶었다. 그래서 1주차에 해당하는 범위를 공부하면서 더 세세하게 이해하게 된, Probability Space부터 Distribution까지의 내용을 다시 정리해보았다.

Probability Space

Sample Space ( $\Omega$ )

Random experiment의 결과인 outcome $\omega$ 를 모두 모아놓은 집합을 Sample space $\Omega$ 라고 한다.

e.g. 두 개의 동전을 동시에 던지는 random experiment에 대해서는 $\Omega = \{\text{HH}, \text{HT},\text{TH},\text{TT}\}$ 이다.

또한 각 원소를 $\omega$ 로 표현하면 $\omega_1 = \text{HH}, \ \omega_2 = \text{HT}, \ \omega_3 = \text{TH}, \ \omega_4 = \text{TT}$ 이다.

Event ( $A$ )

outcome에 대한 관측은 맥락을 붙여 이루어질 수도 있다. 예를 들어 **'앞면이 한 개만 나오는 사건'**은 $\{\text{HT}, \text{TH}\}$ 이다.

이후 정말 다양한 event가 정의된다. 예를 들어

' $n$ 명의 표본을 추출해서 계산한 sample mean과 population mean의 차이가 0.1 이상인 event' 같은 것도 있고 (mode of convergence 중...)
Sample space가 $[H, T]^{\mathbb{N}}$ 일 때 'n번째 동전 던지기가 Head인 event' 같은 것도 정의할 수 있다. (limsup of event 중...)

이러한 $\Omega$ 의 subset $A$ 를 event 라고 한다. 아무래도 outcome 하나하나를 넘어 그것들의 조합들도 관측/측정을 해야 할테니, event라는 개념을 추가적으로 도입하고 확률을 outcome이 아니라 event에 부여 하는 것은 아주 그럴듯해 보인다.

그리고 Event $A$ 가 발생(occur)한다는 것의 의미는, event $A$ occurs if realized outcome $\omega \in A$ 이다.

예를 들어 실현된 outcome $\omega = \text{HT}$ 라면, '앞면이 한 개만 나오는 사건'은 발생(occur)했다고 말할 수 있다.
'앞면이 나오는 사건', '뒷면이 나오는 사건' 같은 것도 발생했다고 말할 수 있을 것이다.

한 가지 문제는, event란 sample space의 subset인데 그럼 sample space의 모든 subset에 확률을 assign할 수 있는가 하는 것이다.

이에 대한 답은... $\Omega$ 가 finite/countable이라면 가능하지만 uncountable일 경우에는 불가능하다. (Vitali set 등의 반례)

그렇다면 $\Omega=[0, 1]$ 과 같은 경우에 대해서도 모든 event에 대해 확률을 부여할 수는 없다는 것인데, 그렇다고 $\Omega=[0, 1]$ 를 포기할 수는 없으니 무언가 새로운 개념이 필요할 것이다.

$\sigma$ -algebra

Definition
다음을 만족하는 collection $\mathcal{F}$ of subsets of $\Omega$ 를 sigma algebra라고 한다.

$\Omega \in \mathcal{F}$

$A \in \mathcal{F} \Rightarrow A^{\complement} \in \mathcal{F} \ \cdots \ \text{(closed under complement)}$

$A_1, A_2, ... \in \mathcal{F} \Rightarrow \bigcup_{i=1}^{\infty} A_i \in \mathcal{F} \ \cdots \ \text{(closed under countable unions)}$

$\sigma$ -algebra는 결국 확률이 부여될 수 있는 것들이란 무엇인가 에 대한 정보가 잘 정의되어 있는 무언가 정확히는, collection of subsets라고 할 수 있다.

collection of subsets 이니, $\sigma$ -algebra의 각 원소는 event임을 알 수 있다.

의미

위 3가지 조건을 말로 풀어내면

가능한 모든 사건들 중 하나라도(= $\Omega$ ) 발생하는 경우에 대해 다룰 수 있어야 하고
어떤 사건 $A$ 에 대해 다룰 수 있다면 그 사건이 일어나지 않는 경우(= $A^{\complement}$ ) 에 대해서도 다룰 수 있어야 하고,
$A_1, A_2, ...$ 가 있다면, 그중 하나라도 발생하는 경우(=union)에 대해 다룰 수 있어야 한다, 라는 의미에서 저렇게 정의되는 것이라고 보면 되겠다.

예시

-topology처럼 가장 작은 $\sigma$ -algebra는 $\mathcal{F} = \{\emptyset, \Omega \}$ 이다.

가장 큰 $\sigma$ -algebra는 power set $\mathcal{F} = 2^{\Omega}$ 인데,
- countable $\Omega$ 에 대해서는 Power set도 $\sigma$ -algebra로 쓰고 probability measure도 정의해서 쓰면 된다.
- uncountable $\Omega$ 에 대해서는 Power set이 $\sigma$ -algebra의 정의를 만족할 수 있지만 문제가 터지기 시작한다.
  - 예를 들어 $\Omega=[0,1]$ $Ω = [0, 1]$ , $\mathcal{F}=2^{\Omega}$ $F = 2^{Ω}$ 이면 $\text{P}([a,b])=b-a$ $P ([a, b]) = b - a$ 로 probability measure를 정의하는 게 불가능해진다.
    - $2^{\Omega}$ 의 어떤 원소에 대해 $\text{P}([a,b])=b-a$ 로 측정이 불가능하냐? 라고 하면 답변으로 Vitali set 같은 게 등장
  - 저렇게 정의해서 uniform distribution을 정의하려면 좀 더 작은 $\sigma$ -algebra, Borel sigma algebra를 써야 한다. Borel sigma algebra의 중요성이 느껴지기 시작할 수 있는 부분이다.

즉 $\sigma$ -algebra는 '이게 측정 가능하면 그와 관련된 저것도 측정 가능해야 하고...' 의 의미이지, '이게 만족되어야 확률 부여가 가능하다!' 의 의미는 아니다.

Partition-genearted $\sigma$ -algebra라는 것도 있다.
- 정의는 $\Omega$ 의 partition $\{B_1, B_2, ..., B_n \}$ 에 대해 $\mathcal{F}=\{ \cup_{i \in I}{B_i} : I \subseteq \{1, ..., n\} \}$ 로 복잡하다.
- 예시가 기억에 남는데, 예를 들어 주사위의 sample space $\Omega=\{1, 2, 3, 4, 5, 6\}$ 를 정의하고 주사위 눈의 홀/짝 여부에만 관심이 있다면 $B_1=\{1, 3, 5\}, B_2=\{2, 4, 6\}$ 와 같이 partition을 정의할 수 있다. 그럼 $\mathcal{F}=\{ \emptyset, B_1, B_2, \Omega \}$ 이다.

Generated $\sigma$ -algebra

sigma algebra들의 intersection도 sigma algebra라는 점을 이용하면, $\Omega$ 의 subset $\mathcal{A}$ 에 대해 $\sigma$ -algabra generated by $\mathcal{A}$ 를 다음과 같이 정의할 수 있다.

$\sigma(\mathcal{A}) = \cap \{ \mathcal{F} : \mathcal{F} \ \text{is a} \ \sigma \text{-algebra and} \ \mathcal{A} \subseteq \mathcal{F} \}$

이것의 의미로는 $\mathcal{A}$ 을 포함하는 가장 작은 $\sigma$ -algebra라고도 할 수 있다.

예를 들어 $\Omega = \{\text{HH}, \text{HT},\text{TH},\text{TT}\}$ 일 때 $\mathcal{A} = \{ \text{HT}, \text{TH} \}$ 라면 (즉, $\mathcal{A}$ 는 앞면이 한 개 나오는 사건)

$\sigma(\mathcal{A}) = \{ \emptyset, \{\text{HT}, \text{TH}\}, \{\text{HH}, \text{TT}\}, \Omega \}$ 이다.

Borel $\sigma$ -algebra

Borel $\sigma$ -algebra는 $\sigma$ -algebra generated by open sets in $\mathbb{R}$ 이다.

\begin{aligned} \mathcal{B}(\mathbb{R}) & = \sigma(\{(a,b) : a < b \}) & \cdots \ \text{(1)} \\ & = \sigma(\{(-\infty, x] : x \in \mathbb{R} \}) & \cdots \ \text{(2)} \\ \end{aligned}

실수 집합 또는 실수 집합의 부분 집합을 sample space로 쓰려면 Borel $\sigma$ $σ$ -algebra를 이용할 수 있다.
- 직관적으로는 실수 집합 $\mathbb{R}$ 의 부분 집합이면서 Borel $\sigma$ -algebra에는 포함되지 않는 것을 떠올리기 어려운데, 이에 대한 예시로도 Vitali set이 있다.
열린 집합의 complement는 닫힌 집합이니 닫힌 집합도 $\sigma$ -algebra에 포함된다.
$\text{(2)}$ 의 정의는 이후 CDF의 정의에 활용된다.

Probability Measure

Definition
다음을 만족하는 함수 $\mathbb{P}: \mathcal{F} \rightarrow [0,1]$ 은 $(\Omega, \mathcal{F})$ 에 대한 probability measure라고 한다.

$\mathbb{P}(\Omega) =1$

$\mathbb{P}(E) \geq 0 \quad \forall E \in \mathcal{F}$

$\text{Countable additivity: If} \ A_1, A_2, ... \in \mathcal{F} \ \text{are pairwise disjoint, then} \ \mathbb{P}(\bigcup_{n=1}^{\infty} A_i) = \sum_{n=1}^{\infty} \mathbb{P}(A_i)$

Kolmogorov Axiom 이다.
3번의 의미를 생각해보면, 여러 사건들에 대해 그중 하나라도 일어날 확률은 그 사건들 각각이 일어날 확률의 합과 같다.
이건 정의역이 $\mathcal{F}$ 이다.
이후로는 $\mathbb{P}$ 와 $P$ 를 혼용하여 표기한다.

Properties of probability measures

$P(\emptyset)=0$ , Finite additivity, $P(A^{\complement}) = 1 - P(A)$ , Monotonicity, Subadditivity, Inclusion-Exclusion 의 성질을 가진다.

Finite additivity 하에 continuity from below, continuity from above는 countable additivity와 같다.

Conditional Probability

확률이 정의되었으니 여러가지를 정의할 수 있다.

Definition
Conditional Probability of $A$ given $B$ ( $P(B)>0$ )는 $P(A \vert B) = \frac{P(A \cap B)}{P(B)}$ 이다.

Independence

Definition
다음을 만족하는 events $A$ 와 $B$ 는 Independent 하다.

$P(A \cap B) = P(A) P(B)$

$P(B) > 0$ 일 경우, $P(A \vert B) = P(A)$

Bayes' Theorem

$P(A) > 0, P(B) > 0 \Rightarrow P(A \vert B) = \frac{P(B \vert A)P(A)}{P(B)}$

Law of Total Probability

$\Omega$ 에 대한 partition $\{B_1, B_2, ..., B_n \}$ 에 대해 ( $P(B_i) > 0 \ \forall i$ ) $P(A) = \sum_{i=1}^{n}{P(A \vert B_i)P(B_i)}$

Probability Space

triple $(\Omega,\mathcal{F},\mathbb{P})$ 을 Probability space 라고 한다.

Random Variable

현실에서 일어나는 일을 수로 나타내서 보고 싶은 경우가 이것저것 있다.

대표적인 예시는 역시 동전 두 개를 던지고 앞면의 개수를 세는 일이다.

Definition
Probability space $(\Omega,\mathcal{F},\mathbb{P})$ 에 대해, 함수 $X: \Omega \rightarrow \mathbb{R}$ 가 $\mathcal{F}$ -measurable일 경우 $X$ 는 Random Variable 이다.

$\mathcal{F}$ -measurable: $X^{-1}(B) = \{ \omega \in \Omega : X(\omega) \in B \} \in \mathcal{F} \quad \forall \ B \in \mathcal{B}(\mathbb{R})$

이건 정의역이 $\Omega$ 이다.
sample space를 실수로 맵핑하고 나면 결국 관심사는 그 random variable을 $\mathbb{R}$ 에서 다루는 것이고, 그렇다면 $\mathbb{R}$ 의 모든 부분에서 random variable을 문제 없이 다룰 수 있어야 할 것이다.
- 따라서 함수의 공역에 해당하는 $\mathbb{R}$ 의 모든 부분(=Borel $\sigma$ -algebra의 모든 원소)에 대해서 정의역에 preimage가 존재하는지를 따진다.
  - ~~정의역, 치역 말고 공역이라는 개념도 존재하는 이유가 뭔가요? 라는 질문에 대한 예시가 될 수 있지 않을까~~
- $\{ X \in B\} := \{ \omega : X(\omega) \in B \}$ 라고도 쓰고, Measurable하다는 것은 $\mathbb{P}(X \in B)$ 가 잘 정의되어 있음을 보장(ensure)한다.
  - 이후 Distribution의 정의와 직결된다.
위 예시의 경우
- $\{1\} \in \mathcal{B}(\mathbb{R})$ 이다. $X^{-1}(\{1\})=\{HT, TH\}$ 이고, $\{HT, TH\} \in \mathcal{F}$ 이다.
- $(1,2) \in \mathcal{B}(\mathbb{R})$ 이다. $X^{-1}(\{(1,2)\})=\emptyset$ 이고, $\emptyset \in \mathcal{F}$ 이다.
- $[1,2) \in \mathcal{B}(\mathbb{R})$ 이다. $X^{-1}(\{[1,2)\})=\{HT, TH\}$ 이고, $\{HT, TH\} \in \mathcal{F}$ 이다.
- $[2,\infty) \in \mathcal{B}(\mathbb{R})$ 이다. $X^{-1}(\{[2,\infty)\})=\{HH\}$ 이고, $\{HH\} \in \mathcal{F}$ 이다.
즉 $\mathcal{G}$ -measurable이냐? 를 따지는 기준이 Borel $\sigma$ -algebra의 원소의 preimage가 항상 $\mathcal{G}$ 안에 존재하는지를 따지는 것이니, 이 역시 Borel $\sigma$ -algebra의 중요성이라고 볼 수 있겠다.

Indicator Variable

Event $A \in \mathcal{F}$ 에 대해 다음과 같은 함수 $\mathbb{1}_A(\omega)$ 는 random variable이다.

\begin{aligned} \mathbb{1}_A(\omega) = \begin{cases} 1 \quad \text{if} \quad \omega \in A \\ 0 \quad \text{if} \quad \omega \notin A \\ \end{cases} \end{aligned}

Simple Random Variable

$X = \sum_{i=1}^{n}{a_1 \mathbb{1}_{A_i}} \ \text{where} \ a_i \in \mathbb{R} \ \text{and} \ A_i \in \mathcal{F}$

유한한 개수의 random variable의 합으로 새로운 random variable을 정의할 수 있고, 다른 random variable을 근사하는 데에도 쓰일 수 있다.

Operations on Random Variable

Random Variable $X, Y$ 에 대해 다음도 Random Variable이다.

$X+Y, \ X-Y, \ XY, \ cX, \ \vert X \vert, \ X^2, \ X/Y \text{(where )} \ Y \ne 0, \ \text{max}(X, Y), \ \text{min}(X, Y)$

그리고 $f(X) \ \text{for any Borel measurable} \ f: \mathbb{R} \rightarrow \mathbb{R}$ .

Borel measurable function의 정의는 함수 $f: \mathbb{R} \rightarrow \mathbb{R}$ 가 $\ \forall B \in \mathcal{B}(\mathbb{R}) \text{(=Borel set)} f^{-1}(B) \in \mathcal{B}(\mathbb{R})$ 이라는 것이다.

심지어 random variable의 limit도 (특정 조건 하에) random variable이다.

Distribution

distribution, 2. cdf, 3. pdf 각각을 순서대로 명확히 구분하며 이해해야 한다.

Probability space $(\Omega,\mathcal{F},\mathbb{P})$ 에 정의된 random variable $X$ 에 대해, 먼저 다음과 같은 함수 $P_X(B)$ 를 정의한다.

\begin{aligned} P_X(B) = P(X \in B) = P(\{ \omega: X(\omega) \in B \}) \end{aligned}

이 $P_X(B)$ 는 probability measure on $(\mathbb{R}, \mathcal{B}(\mathbb{R}))$ 이고, 이를 $X$ 의 distribution 이라 한다.

따라서 $P_X(B)$ 의 정의역과 공역을 생각해보면, $P_X: B \rightarrow \mathbb{R}$ 이다.

Probability Space $(\Omega,\mathcal{F},\mathbb{P})$ 에 대한 Random Variable $X$ 가 있을 때, $X$ 에 대한 distribution $\mu_X$ 는 mass를 $B$ 로 assign하는 measure이다. 이 때 $\mu_X(B) = \mathbb{P}(X \in B)$ 이다.

Cumulative Distribution Function

Definition
Cumulative Distribution Function of $X$ is: $F_X(x) = P(X \leq x) = P_X((-\infty,x])$

$(-\infty,x]$ 는 모두 Borel $\sigma$ -algebra의 원소이다.

Probability Density Function

Definition
연속적인 $X$ 에 대해, 다음과 같은 함수 $f: \mathbb{R} \rightarrow [0, \infty)$ 가 존재할 경우 이를 Probability Distribution Function 이라 한다. $F_X(x) = \int_{-\infty}^{x}{f(t)dt}$

즉 PDF는 항상 존재성이 보장되는 것은 아니다.
$\mathbb{P}(a < X \leq b) = F(b) - F(a) = \int_a^b{f(x)dx}$
Continuous $X$ 에 대해 $\mathbb{P}(X = x) = 0$

확률변수가 확률분포를 '따른다'는 것의 의미

흔히 $N(\mu,\sigma^2), \text{Unif}(a,b), \text{Expo}(\lambda), \text{Pois}(\lambda)$ 와 같이 표기하는 것들은 probability space와 어떤 관련이 있는 것일지 생각해보면 이게 또 어렵다.

일단 위의 분포들은 모두 distribution에 대한 정보이다. 즉 '이 random variable로부터 특정 값이 튀어나올 확률' 정도를 알려줄 뿐, probability space에 대한 정보를 제공하는 것은 아니다. 즉 다른 두 개의 probability space가 동일한 distribution을 가질 수도 있다.

GPT에서 나온 예시를 보면

$(\mathbb{R}, \mathcal{B}(\mathbb{R}), P) \ \text{where} \ P(A) = \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

Random variable $X(w) = w$

$((0,1), \mathcal{B}((0,1)), P) \ \text{where} \ P(A) = \text{length}(A)$

Random variable $X(w) = \Phi^{-1}(w)$

이래버리면 위 두 경우는 sample space가 완전히 다르지만 동일한 distribution을 가지게 된다.

하지만 현실적으로 중요한 takeaway는, (보통의 경우에는) 1번과 같이 정의한다면 $X \sim N(\mu,\sigma^2)$ 과 같이 표기할 수 있다는 점일 것이다.

2026.03.09
2026.03.10
2026.03.14
2026.04.11

Probability Space

서사

Probability Space

Sample Space (Ω\OmegaΩ)

Event (AAA)

σ\sigmaσ-algebra

의미

예시

Generated σ\sigmaσ-algebra

Borel σ\sigmaσ-algebra

Probability Measure

Properties of probability measures

Conditional Probability

Independence

Bayes' Theorem

Law of Total Probability

Probability Space

Random Variable

Indicator Variable

Simple Random Variable

Operations on Random Variable

Distribution

Cumulative Distribution Function

Probability Density Function

확률변수가 확률분포를 '따른다'는 것의 의미

References

Sample Space ( $\Omega$ )

Event ( $A$ )

$\sigma$ -algebra

Generated $\sigma$ -algebra

Borel $\sigma$ -algebra