Definition
Given discrete random variable X, the expected value (or mean) of X is E[X]=∑i=1nxi⋅P(X=xi), provided absolute convergence: ∑i∣xi∣P(X=xi)<∞
Given continuous random variable X with pdf fX, the expected value of X is E[X]=∫−∞∞x⋅fX(x)dx, provided absolute convergence: ∫−∞∞∣x∣fX(x)dx<∞
기댓값은 확률변수에서 나올 수 있는 값들의 가중평균 값으로 생각할 수 있다.
sum, integral 결과값이 (absolute하게) 수렴해야 한다는 조건이 있다. 발산하는 예시로 St. Petersburg Paradox가 있다.
EX 라고 표기하기도 한다. 얼마 전 재무론 교재에서 진짜로 봤다.
기댓값 계산 시 적분 기호 안의 x 는 무엇인가
헷갈리는 지점은, 적분 기호 안에 들어있는 x 는 확률변수 X 와 무슨 관계인가 하는 것이다. (특히 확률변수를 소문자로 쓰면 뭐가 뭔지 더 헷갈린다.)
결론은 적분 기호 안의 x 는 그냥 적분 연산의 대상으로써 등장하는 변수이고, 확률변수 X 그 자체가 적분식 안에 들어가있는 것은 아니다.
미분과 기댓값 계산의 순서 바꾸기
(위와 같은 혼란의 원천이 이것이었는데) Asset pricing 교재들 앞 부분에서는 어떠한 기댓값을 미분하는 계산이 많이 등장했다.
학부 2학년 1학기에 이것의 존재를 배우고 2학기에 이것에 대해 글을 쓴 적이 있었는데, 새롭게 더 알게 된 점은 1. 함수 g(⋅) 가 Borel measureable function이어야 한다는 점, 그리고 2. 이름이 'unconscious' 인 이유는 당연해보여서 다들 그렇게 쓰지만 증명이 별도로 필요하기 때문이다.
E[g(X)]=∑ig(xi)P(X=xi)⋯(Discrete case)
E[g(X)]=∫−∞∞g(xi)fX(x)dx⋯(Continuous case)
증명의 난이도는 심각하지는 않은 듯 하다. [1]
Properties of expectation
Linearity: E[aX+bY]=aE[X]+bE[Y]
X,Y 의 independence가 주어지지 않아도 이는 성립한다.
Monotonicity: X≤Ya.s.⇒E[X]≤E[Y]
Constant: E[c]=c
Triangle inequality: ∣E[X]∣≤E[∣X∣]
0≤Xa.s. andE[X]=0⇒P(x=0)=1
의 성질을 가진다.
Lebesgue Integration
리만 스틸체스 적분을 떠올려서
E[X]=∫ΩX(ω)dP
라고 쓰면 discrete/continous case들을 모두 하나로 표현할 수 있다.
Convergence Theorems
Monotone Convergence Theorem
해석학에서 등장하는 정리이고 이건 그것의 확률변수에 대한 정리이다.
Monotone sequence에 는 an≤an+1 또는 an≥an+1, ∀n 을 만족하는 수열을 말하고,
여기서는 sequence of non-negative random variables 0≤Xn 에 대해
Xn↑X(pointwise)⇒E[Xn]↑E[X]
를 말한다.
↑ 의 의미는 monotonically incraesing하면서 수렴한다는 뜻이고
pointwise라는 건 ∀ωlimn→0Xn(ω)=X(ω) 라는 뜻이다.
확률변수끼리 어떻게 대소비교를 할 수 있나 했지만 이 'pointwise'가 그 해결책이었다.
즉 음수가 아닌 확률변수들의 수열 각 원소가 점점 증가하면서 어느 값으로 수렴한다면, 원소들의 기댓값 역시 수렴한다.
하나의 예시로 [2], 수열 an={3−21,5+31,3−41,5+51,3−61,5+71,⋯} 를 가정한다. an 의 원소들을 앞에서부터 하나씩 제거하면서 최솟값을 찾아보면
n>1 : inf{5+31,3−41,5+51,3−61,5+71,⋯}=3−41
n>2 : inf{3−41,5+51,3−61,5+71,⋯}=3−41
n>3 : inf{5+51,3−61,5+71,⋯}=3−61
... 이렇게 계속 n 을 크게 잡으면서 최솟값을 구한, 최솟값들의 수열 을 정의할 수 있다.
sn={3−41,3−41,3−61,⋯}
이때 supsn 이 lim infan 과 같다. n→∞ 이면 supsn=lim infan=3 이 된다.
...아무튼 Fatou's Lemma는
E[lim infXn]≤lim infE[Xn]
을 말한다. 확률변수 극한의 기댓값은 확률변수 기댓값의 극한보다 항상 작거나 같다.
GPT에서는 Ω=[0,1] 에 uniform distribution이 되도록 정의한 확률공간에 대해 확률변수 Xn(ω)=nif0<ω≤n1,0otherwise 를 정의하면 좌변이 0, 우변이 1이 된다는 예시를 내놓기도 했다.
Tail Sum Formula
Non-negative, integer-valued random variable X 에 대해
E[X]=∑k=1∞P(X≥k)⋯(Discrete case)
또한 non-negative random variable X 에 대해
E[X]=∫0∞P(X>k)dt⋯(Continuous case)
Random variable에서 나올 수 있는 값들 각각에 확률을 곱하는 게 아닌, 확률들을 쭉 합산해서 기댓값을 계산하는 방식으로도 기댓값을 구할 수 있다.
유도 과정을 간략히 보면, 먼저 기댓값의 정의를 르베그 적분으로 나타내면
E[X]=∫ΩX(ω)dP
여기서 X(ω) 는 indicator variable 1(X>t) 을 정의하면 X(ω)=∫0∞1(X>t)dt 로 나타낼 수 있다.
그럼 E[X]=∫Ω(∫0∞1(X>t)dt)dP 이고, 여기에 Fubini's Theorem을 적용해 적분 순서를 바꾸면
∫0∞(∫Ω1(X>t)dP)dt
안쪽의 적분 ∫Ω1(X>t)dP=P(X>t) 이므로 대입하면 Tail sum formula가 된다.
확률분포의 전체 density를 알지 못해도 P(X≥k) 는 알 수 있을 때 기댓값을 구하기 위해 사용 가능
Variance, Moments
Definition (Variance)
Definition
Random variable X 의 mean μ=E[X] 일 때 X 의 variance는 Var(X)=E[(X−μ)2]=E[X2]−(E[X])2 이다.
Standard Deviation 은 σX=Var(X) 이다.
Properties of variance
Var(X)≥0 이고, Var(X)=0⇔X=ca.s. for some constantc
Var(aX+b)=a2Var(X)
Var(X)=0⇔X=E[X]a.s.
X,Y 가 independent할 경우 Var(X+Y)=Var(X)+Var(Y)
Definition (Moments)
Definition
The k-th moment of random variable X is E[Xk]
The k-th central moment is E[(X−μ)k]whereμ=E[X]
확률변수의 통계량 계산에 유용하게 사용 가능한 모멘트의 정의이다.
Covariance
Definition
The covarianceX and Y is Cov(X,Y)=E[(X−μX)(Y−μY)]=E[XY]−E[X]E[Y]
모두 centered random variable을 이용하여 정의된다.
역시 가장 중요한 것은 uncorrelated⇏independent 라는 사실이다.
uncorrelated but dependent의 대표적인 예시는 학부에서도 봤던Y=X2
그런데 예외로 joint normal인 X,Y 에 대해서는 성립한다. 즉 uncorrelated⇔independent
Properties of covariance
(생략)
Correlation
Definition
The correlation (or Pearson correlation coefficient) of X and Y is Corr(X,Y)=ρXY=Var(X)Var(Y)Cov(X,Y)
X,Y 모두 finite variance를 가지면 ∣ρ∣≤1 이라는 Bound가 있다. 증명은 Cauchy-Schwarz inequality로.
∣ρXY∣=1⇔Y=aX+ba.s. for somea=0
Moment Generating Function
Definition (Moment Generating Function)
여러 moment들에 대한 정보를 한 함수가 모두 담고 있는 것과 같고, 미분을 통해 k-th moment를 쉽게 구할 수 있도록 변수 t 도 추가하여 만들어진 함수.
Definition
The moment generating function of random variable X is MX(t)=E[etX] defined for all t in some neighborhood of 0.
Taylor expansion에 기반하여 정의된다.
MX(0)=E[e0]=1 이므로 t=0 에선 항상 MGF가 존재한다. 근데 t=0 에서만 존재해서는 의미가 없고, 최소한 어떤 δ 에 대해 (−δ,δ) 의 구간 내 모든 범위에 대해서라도 (즉, ∀t∈(−δ,δ)) MGF가 존재해줘야 미분도 하고 의미있게 활용이 가능할 것이다.
Exponential distribution의 경우 t<λ 인 구간에 대해서만 MGF가 정의된다.
또한 저런 expectation이 존재해야 한다. 즉, 0의 neighborhood 내의 모든 t 에 대해 MX(t)=E[etX]<∞ 여야 한다.
이걸 만족하지 못하는 예시가 Logormal. t>0 이면 항상 E[etX]=∞ 이다.
MGF가 항상 존재하는 것은 아니다. 예를 들어 Cauchy distribution에 대해서는 MGF가 존재하지 않는다.
세 가지 property로 1. uniquness, 2. Linear Transformation, 3. Sum of independents 가 있는데
1번은 random variables X, Y 의 MGF가 동일하면 (in a neighborhood of 0) X, Y 는 동일한 distribution을 가진다는 뜻으로, 이는 CLT 증명 등에 사용 가능
3번은 정규분포를 따르는 두 (independent) random variables의 합으로 정의되는 random variable도 정규분포를 따른다는 것을 보일 수 있음.
1번에 대한 증명이 궁금했으나 너무 어렵고 characteristic function으로 그냥 넘야가게 된다는 글을 보고 마음을 접었다. [n]