학부에서 찍먹만 했던, 그리고 무엇보다도 궁금했던 이 개념들을 제대로 공부해야 할 때가 되었다.
Recap
Random variable을 항상 라고 쓰지 않는 이유
Random variable 가 어떤 분포를 따른다고 주어졌을 때, 그 가 어떤 sample space를 바탕으로 하는지는 알 수 없다.
반대로 말하면 전혀 다르게 만들어진 두 확률 변수가 같은 분포를 따르는 것도 가능하다.
간단한 예시로 1. fair coin 하나를 던져서 앞면이 나오면 값이 1, 뒷면이 나오면 값이 0인 확률 변수 과 2. fair dice 하나를 던져서 짝수가 나오면 값이 1, 홀수가 나오면 값이 0인 확률 변수 는 같은 분포를 따른다. 각각이 어떻게 만들어진 확률 변수이든, 확률 변수만 관찰한다면 그냥 둘 다 1/2의 학률로 1 또는 0이 나오는 확률 변수 에 불과하고 기댓값이나 분산의 계산도 모두 동일하다.
그리고 확률 변수의 분포와 기댓값 등에만 관심이 있는 것이라면 애초에 그 확률 변수가 어떤 Sample space로부터 만들어진 것인지 알 필요가 없을 수도 있다. 그렇다면 굳이 확률 변수의 정의역인 를 표기하지 않고 라고만 써도 충분할 것이다.
Random variable을 라고 표기하는 경우
대표적으로 Stochastic Process를 생각해보면, 확률 변수의 값을 결정하는 요인이 총 2개가 된다.
-
고정된 특정 에 대해 시간의 흐름에 따른 변화를 관찰하면 sample path가 되고 ()
-
고정된 특정 시점에 나타날 수 있는 확률 변수의 값들을 관찰하면 확률 변수를 관찰하는 것과 같다.
이렇게 특정한 의 값에 대해 관찰할 일이 있다면 확률 변수를 와 같이 표기하게 된다.
Convergence
Definition (Convergence in Probability)
Definition
A sequence of random variablesconverges in probabilityto if for every :
- 아래의 Almost Sure Convergence와의 차이점은, Sample space의 outcome 과는 무관하다는 점이다.
이는 위의 정의를 엡실론-델타 논법의 관점에서 보면서 Typewriter Sequence 예제를 보고 나서야 감이 잡혔는데, 이는 아래에
Definition (Almost Sure Convergence)
Definition
A sequence of random variablesconverges almost surelyto if:
-
안에 들어가는 것은 결국 event 이므로 로 표기하는 게 더 보기 편하지 않나 싶다
-
를 만족하는 가 많이 있어서 그것들이 모인 event의 확률이 1이면 된다.
- 그런 가 얼마나 많아야 확률이 1까지 되나? 라고 하면 almost every 가 모여야 한다고도 하는데, 이 almost every 라는 게 얼마나 많은 거냐고 한다면 그건 또 를 모은 것들의 확률이 1이 될 만큼... 이렇게 정의가 빙글빙글 도는 느낌이었다.
- 이건 '점을 얼마나 모아야 선이 되냐?' 와 같게 생각할 수 있는 듯 하다.
흔히 사용되는 이고 가 Lebesgue measure의 변형(Normal, Uniform의 probability measure 등)인 경우, 를 만족하지 못하는 가 countable하게 많은 정도까지는 어차피 확률이 0이고 허용 가능하다.
Theorem (Slutsky's Theorem)
Example (Sample Mean)
Example (Typewriter Sequence)
테렌스 타오의 웹사이트에도 소개되어있는 예시이다. (Example 7)
에 uniform probability (measure)를 가정하고,
확률 변수 은 1또는 0의 값을 가지며, 이 커짐에 따라 이 1의 값을 가질 수 있는 값의 범위는 점점 작아진다.
...
이 모든 것을 한 줄로 일반화하면
라고 쓸 수 있다. 그리고 이 확률 변수가 수렴해야 할 확률 변수는 이라고 하자.
여기에 두 convergence를 적용하기에 앞서, 일단 각각의 정의를 (GPT가 변환해준) 엡실론-델타 논법의 표현으로 바꿔서 보면 다음과 같다.
-
Convergence in Probability:
-
Almost Sure Convergence:
이 정의를 사용해서 생각해보면,
- Convergence in Probability
- 의 값이 1일 확률이 ( 이 커짐에 따라) 점점 작아지면 된다. 그리고 이 예시에서 이 커지면 의 값이 1일 확률은 계속해서 작아지므로, 어떤 가 주어지든 이 보다 작아지는 값들을 찾을 수 있다. (So is .)
- (이 예시에서는 의 값이 항상 0 또는 1이 된다. 그래서 의 값을 이것저것 테스트해보는 건 별 의미 없을 듯)
- Convergence in Probability의 경우 를 하나하나 고려할 필요가 없음을 알 수 있다. 이 커짐에 따라 수많은 중 을 만족하는 를 다 모아봤을 때, 그것들(event)의 확률이 0으로 수렴하기만 하면 된다.
- 굳이 특정한 fixed 에 대해 Sample path를 그려보면 어떻게 될까... 했지만 애초에 Convergence in Probability의 정의 자체가 들을 따로따로 보는 것이 아니니 생각해볼 필요가 없어보인다.
- Almost Sure Convergence
- 이 경우에는 각 하나하나를 관찰해야 한다.
(왜냐하면, 그것이 정의이니까.) - 임의의 fixed ( 라 하자) 에 대하여 이 에 수렴해야 한다.
- 즉 Sample path를 그려봤을 때, 이 커지면 인 부분이 없어야 한다.
- 그런데 이 예시에서는, 이 아무리 커져도 인 부분은 계속해서 등장한다.
- 따라서 모든 에 대해 가 로 수렴하지 못한다. 따라서 이라는 처참한 결과(...)에 의해 Almost Sure Convergence는 성립하지 않음을 알 수 있다.
Example (평균 키 구하기)
인구가 1000만명 있다고 하고, 그 사람들 다 조사할 수 없으니 n명을 샘플링해서 계산하는 키의 sample mean을 X_n 이라 하자.
평균 키의 true value는 는 이 세상 누구도 모르는 값일 것이다.
이 경우 outcome 는 (e.g. 이면) (175,170,181) 뭐 이렇게 생겼을 것이고
이때 event 을 정의해보자. 해석은 'sample을 이상한 거 뽑아서 평균 키 계산 값에 오차가 너무 큰 outcome들(=event)' 정도로 볼 수 있겠다.
이제 이 예시를 바탕으로 두 convergence의 정의를 다시 생각해보자.
-
convergence in probability: 일단 임의의 과 를 정하고, 그러면 우리는 자연수 을 찾을 수 있다. 근데 그게 어떤 대단한 이냐면
- 모든 에 대해, 명을 뽑아서 sample mean(=평균 키) 을 계산하면, 우리가 1000만명 중 n명을 뽑는 수많은 sample들의 경우의 수 중 ' '인 (=오차가 너무 큰) 경우의 수가 매우 적다. 얼마나 적냐면 저 비율(=이상한 sample 뽑을 확률)이 보다 작다. (아니라면 보다 작아질 때까지 을 더 크게 잡아보자.)
- 여기서 알 수 있는 것은, fixed 에 대해 bad case () 를 일으키는 가 엄청 많아도(uncountably infinite 여도), 위에서 말한 확률이 보다 작아지게 하는 건 가능하니 convergence in probability의 성립에는 문제가 없다.
- 이게 '' 에 대한 해석이다. 지금처럼 population이 finite한 경우에 대해 이걸 측정하는 방법을 더 구체적으로 생각해보면: n명을 샘플링을 할 때 1000만명 중 그 n명을 고르는 수많은 조합이 있을텐데, 수많은 조합들 중 '' 을 만족하는 조합들을 bad case라 부르자. 'bad case의 개수 나누기 n명 뽑는 모든 조합의 수' 뭐 이렇게 계산할 수 있을 것이다.
- 즉 convergence in probability는, 표본을 많이 뽑을수록, 모든 표본 추출의 경우의 수 중 내가 하필 이상한 표본을 뽑아서 평균 키를 이상하게 계산할 확률이 점점 작아진다는 뜻이다. => 그러니까 이름이 convergence in 'probability' 인가보다.
- 그래서 생길 수 있는 한계점: 을 더 크게 했는데 과 의 오차가 갑자기 커질 수도 있고, n을 더 더 키우니 갑자기 오차가 보다 작아질 수도 있고... 그렇다. 심지어 n을 끝없이 키워도 끝없이 (infinitely often) 그런 bad case가 관찰될 수도 있다. (다르게 말하면 일 수 있다.)
- 그런데 이런 문제가 있다고 해도 convergence in probability는 성립이 가능하다. 정의를 으로 다시 생각해보면, convergence in probability는 이다. 즉 fixed 에 대해 '내가 하필 이상한 거 뽑게 되는 확률 = 이상한 sample이 나오는 경우의 수/뽑을 수 있는 sample들의 경우의 수' 이게 점점 줄어들어서 0에 수렴하면 된다.
- 즉 저 비율(=확률)만 보면 되지, 저것의 분자에 해당하는 '이상한 sample이 나오는 경우의 수 (=bad case를 일으키는 의 개수)' 의 원소 하나하나를 관찰할 필요가 없다. 즉 개별 가 의 변화에 따라 어떻게 변화하는지 관찰할 필요는 없다.(=sample path를 관찰할 필요는 없다.) 위에서 말한 한계점은 이런 식으로 sample path를 관찰하는 건데, 그걸 관찰하지 않는 게 convergence in probability의 정의이다.
- 모든 에 대해, 명을 뽑아서 sample mean(=평균 키) 을 계산하면, 우리가 1000만명 중 n명을 뽑는 수많은 sample들의 경우의 수 중 ' '인 (=오차가 너무 큰) 경우의 수가 매우 적다. 얼마나 적냐면 저 비율(=이상한 sample 뽑을 확률)이 보다 작다. (아니라면 보다 작아질 때까지 을 더 크게 잡아보자.)
-
converge almost surely: 우리가 뽑을 수 있는 조합들 즉 하나하나가 의 변화에 따라 어떻게 변하는지 다 살펴본다. (=sample path를 관찰한다.)
- 예를 들어 이면, (174,179,181)을 뽑을 수도 있고 (184,178,172)로 뽑을 수도 있고... 이걸 하나하나 다 살펴봐야 한다.
- 각 들마다 를 잘 정한다. 그 이 만족해야 하는 건: 모든 에 대해 . 즉 n이 특정 값() 이상이 되면 오차가 항상 보다 작아야 한다. 이게 되는 가 얼마나 있는지가 관심사이다.
- 이면 (=그런 가 almost every하게 많으면) almost sure convergence이다.
- 이제부터는 이 특정 보다 크면 은 항상 근처에 있다고 말할 수 있다. 이 부분이 convergence in probability와의 차이점이다.
- 다르게 말하면 이어야 하고, 이게 a.s. convergence의 또다른 정의이다.
-
둘의 차이점:
- convergence in probability는 이 변함에 따른 변화를 관찰한다. 무엇의 변화? '샘플링 하는 경우의 수 중 내가 하필 이상한 거 뽑게 되는 확률'. 그런 확률이 점점 작아지는 추세면 된다. 설령 어떤 outcome 는 이 아무리 커져도 '오차가 너무 큰 상황' 이 intinitely often하게 발생하더라도 상관 없다. 거기에 관심이 없다는 것이 정의이다. 하나하가 에 대해 어떻게 변화하는지 추적하진 않는다.
- a.s.는 애초에 각 를 관찰한다. sample path를 다 관찰해서, P(문제가 되는 sample path)=0을 만족해야 한다. 각 를 하나하나 다 관찰한다는 것이 정의이다.
Definition (Convergence in )
Definition
For , a sequence of random variablesconverges in L^pto if:
- 이면 Convergence in mean, 이면 Convergence in mean square
- convergence는 와 같은데, 이것은 어떤 확률 변수의 제곱의 평균이니
와 같이 식을 변형할 수 있고,
이는 Bias-Variance decomposition이다. 따라서 convergence는 Bias와 Vaiance가 모두 0이어야 함을 함의한다.
Theorem ( implies Convergence in Probability)
- 증명은 Markov Inequality를 이용해 가능
Example (Convergence in Probability does not imply )
- Convergence in Probability는 성립할 수 있으나, Convergence in
L^1은 불가능 - Escaping Mass: 작은 확률에 매우 큰 확률 변수의 값에 할당되는 경우
Theorem (Dominated Convergence)
Theorem
If and for all with , then .
Theorem (Subsequence Criterion)
Theorem
iff every subsequence has a further subsequence such that .
Weak Law of Large Numbers
Weak LLN은 Convergence in Probability, Strong LLN은 Almost Sure Convergence이다.
Setup
-
LLN은 Sample average가 실제로 Population mean에 가까워지는가에 대한 것이므로, 먼저 Sample average 라는 것이 구해지는 과정을 명확히 이해해야 할 것이다.
-
한 나라에 총 명의 국민이 있고, 전체 인구의 평균 키가 라고 하자. 는 관측할 수 없는 값이니, 대신 명으로부터 조사를 하여 명의 평균 키는 계산해볼 수 있을 것이다.
-
총 명의 키를 조사할 때, 번째 설문 대상인 사람의 키를 라 하면 와 같이 관측값을 모을 수 있을 것이다.
-
각 는 Random Variable이고, 여러 버전의 LLN 각각에 따라 가정은 조금씩 다르다. 끼리 uncorrelated이면 충분할 수도 있고, i.i.d.여야 할 수도 있다.
i.i.d. 조건에 의해 각 가 모두 population distribution(= 전국민의 키 분포)을 따른다면, 는 trivial하게 성립한다.
-
명의 평균 키를 의미하는 Sample average 이다.
Theorem ( Weak Law of Large Numbers)
Theorem (Weak Law of Large Numbers)
Theorem
Let be i.i.d. with . Then:
이게 클레식한 정의
- 각 가 finite mean을 가지기만 하면 된다. 분산은 발산해도 상관 없음.
- 이 로부터 크게 벗어날(deviation) 가능성이 ( 이 커짐에 따라) 0으로 수렴함을 알려줄 뿐, rate of convergence나 fluctuation에 대해서는 정보를 주지 못함
Application (Consistency of Sample Variance)
Application (Method of Moment)
Application (Monte Carlo Integration)
2026.04.05
2026.04.11
