OLS Estimator의 Asymptotic distribution, t-Test

Tags:

OLS estimator의 Limiting distribution


2024.02.11

Multiple Regression

Asymptotic distribution이라는 표현이 더 많이 쓰이는 듯..

y=Xβ+e\textbf{y}=\textbf{X}\beta + e   where  eN(0,σ2I) \ e \sim N(0, \sigma^2 I) 에서

β^=(XX)1Xy=(XX)1X(Xβ+e)=β+(XX)1Xe\begin{aligned} \hat{\beta} & = (\textbf{X}'\textbf{X})^{-1}\textbf{X}'\textbf{y} \\ & = (\textbf{X}'\textbf{X})^{-1}\textbf{X}'(\textbf{X} \beta + e) \\ & = \beta + (\textbf{X}'\textbf{X})^{-1}\textbf{X}'e \\ \end{aligned}

이므로

  • 평균: E[β^β]=0\mathbb{E}[\hat{\beta} - \beta] = 0 E[e]=0\quad \because \mathbb{E}[e]=0

  • 분산: let  plim(1nXX)Qx,1n(xe)dN(0,σ2Qx)\ plim (\frac{1}{n}X'X) \rightarrow Q_x, \frac{1}{\sqrt{n}}(x'e) \xrightarrow{\quad d} N(0, \sigma^2 Q_x) .

    n(β^β)=(1nXX)1(1nXe)dN(0,Qx1(σ2Qx)Qx1)dN(0,σ2Qx1)\begin{aligned} \sqrt{n}(\hat{\beta} - \beta) = (\frac{1}{n}\textbf{X}'\textbf{X})^{-1}(\frac{1}{\sqrt{n}}\textbf{X}'e) & \xrightarrow{\quad d} N(0, Q_x^{-1} (\sigma^2 Q_x) Q_x^{-1}) \\ & \xrightarrow{\quad d} N(0, \sigma^2 Q_x^{-1}) \\ \end{aligned}

n(β^β)dN(0,σ2Qx1)\therefore \sqrt{n}(\hat{\beta} - \beta) \xrightarrow{\quad d} N(0,\sigma^2 Q_x^{-1})



Standard Error, t-Test, p-value


2024.02.11

Standatd Error

s.e.(T)s.e.(T) : estimator TT 의 표준편차.

  • 결국, 그 estimator의 계산된 값이 얼마나 틀릴 수 있는지에 대한 정보이다.
  • 대표적인 예시가 t-Test에 사용하는 s.e.(β^)=σ2XXs.e.(\hat{\beta}) = \frac{\sigma^2}{X'X} 인데,
  • 그런데 σ2\sigma^2 는 알 수 없는 값이므로 관측을 통해 구할 수 있는 σ^2=1nkei^2=1nk1(yiyi^)2\hat{\sigma}^2 = \frac{1}{n-k}\sum{\hat{e_i}^2} = \frac{1}{n-k-1}\sum{(y_i-\hat{y_i})^2} 을 대신 사용하면   (kk 는 독립 변수의 개수.)
  • s.e.(βj^)=Var(βj^)^=σ^2[XX]jjs.e.(\hat{\beta_j}) = \sqrt{\widehat{Var(\hat{\beta_j})}} = \sqrt{\frac{\hat{\sigma}^2}{[\textbf{X}'\textbf{X}]_{jj}}} (참고)
    • simple regression의 경우에는 s.e.(β^)=Var(β^)^=σ^2(xixˉ)2s.e.(\hat{\beta}) = \sqrt{\widehat{Var(\hat{\beta})}} = \sqrt{\frac{\hat{\sigma}^2}{\sum{(x_i-\bar{x})^2}}}

t-Test

Two-sample

t-statistic: t=X1ˉX2ˉsp1n1+1n2, sp=(n11)SX12+(n21)SX22(n11)+(n21)t = \frac{\bar{X_1}-\bar{X_2}}{s_p \cdot \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}, \ s_p = \sqrt{\frac{(n_1-1)S_{X_1}^2 + (n_2-1)S_{X_2}^2}{(n_1-1) + (n_2-1)}} (pooled variance, 두 집단의 분산은 같다고 가정)
(SXnS_{X_n} 은 표본분산)

  • 두 집단의 평균값의 차이가 통계적으로 유의미한지 비교하는 것이 목적

  • 평균의 차이흩어짐의 정도를 비교.

    • 자료를 모아본 결과 a만큼 흩어짐이 있는데, 두 집단의 평균의 차이가 a정도 난다면 그건 두 집단이 실제로 차이가 나는 건지 그냥 자료를 모으며 생긴 흩어짐에 불과한 건지 알 수가 없다.
  • 그래서 평균의 차이와 흩어짐의 정도의 비율을 계산한다. 이 값(의 절댓값)이 클수록 t분포의 끝자락에 위치할테니 귀무가설이 기각될 확률이 높아진다.

    • 귀무가설 H0H_0μ1=μ2\mu_1 = \mu_2 와 같이 세울 수 있다.
    • 이후 위와 같은 t-statistic 값을 구하고, 상응하는 t분포에서 그 값이 얼마나 끝자락에 있는지 확인한다.
      (모표준편차 σ\sigma 대신 standard error로 나눴기 때문에 t분포를 따른다.)
    • 가령 significance level을 5%로 했고 t-static 값이 1.96보다 크다면, H0H_0 를 기각, 즉 두 표본평균의 차이가 유의미하게 크다는 것으로 생각할 수 있다.
    • 이것이 t-Test
  • t-statistic은 분모의 분모(=분자)에 nn 있는 형태이다. 원래 nn 이 작아지면 standard error로가 작아지므로 t-statistic의 값은 커질텐데, 이는 표본의 개수가 많을수록 t-statistic의 더 확신할 수 있다는 직관과도 방향이 같다.

    • 이는 아래의 s.e.(β^)s.e.(\hat{\beta}) 를 사용하는 경우에도 같다. s.e.(β^)s.e.(\hat{\beta}) 의 분모에는 n\sqrt{n} 이 있고, 그 s.e.(β^)s.e.(\hat{\beta}) 는 t-statistic의 분모이므로, 결론적으로 t-statistic의 분자에 nn 이 있다. 즉 nn 이 커지면 (s.e.(β^)s.e.(\hat{\beta}) 가 작아져서) t-statistic의 값도 커진다.
  • 기타

    • one-tailed test, two-tailed test
    • 독립표본, 대응표본 t-Test
    • 표본 수가 많으면 -> Z-test
    • 세 개 이상의 집단의 평균을 비교? -> ANOVA

One-sample

(2023년 여름학기 계량경제 수업에서 배워온 건 이 내용이었다.)

t-statistic: t=β^cs.e.(β^)t = \frac{\hat{\beta} - c}{s.e.(\hat{\beta})}

  • 이는 자유도가 (np1)(n-p-1) 인 t-분포 t(np1)t(n-p-1) 을 따른다. (nn 이 커질수록 정규분포와 유사해짐)
  • 이번엔 두 집단을 비교하는 것이 아니다. β^\hat{\beta} 는 열심히 계산해서 구한 estimate이고, 이를 우리가 비교하고자 하는 값 cc 와 비교한다.
    • 만약 H0:β^=0H_0: \hat{\beta}=0 이라면 c=0c=0 이 된다.
    • 위의 두 집단을 비교하는 경우와 다르게 이번에는, 이번에는 한 집단만 평균과 분산을 계산했고, 다른 한 집단은 특정한 평균값에 표본분산이 0인 (=매우 확실히 안다) 상황이라고 생각해볼 수 있겠다.

p-value

  • 그냥 t-Test 개념에서 부산물처럼 이해할 수 있는 개념. (significance level이 5%일 경우로 가정하고)
    1. t-statistic의 값이 1.96보다 큰지 확인할 수도 있지만
    2. t분포에서 P(X>t)P(X > t) 의 값이 0.05보다 작은지 확인할 수도 있다. 이 때 계산되는 저 확률값이 p-value이다. 결국 1번과 같은 작업을 할 뿐이다.

References


https://khalidpark2029.tistory.com/34 https://angeloyeo.github.io/2020/02/13/Students_t_test.html https://bioinformaticsandme.tistory.com/80