simple regression의 경우에는 s.e.(β^)=Var(β^)=∑(xi−xˉ)2σ^2
t-Test
Two-sample
t-statistic: t=sp⋅n11+n21X1ˉ−X2ˉ,sp=(n1−1)+(n2−1)(n1−1)SX12+(n2−1)SX22 (pooled variance, 두 집단의 분산은 같다고 가정) (SXn 은 표본분산)
두 집단의 평균값의 차이가 통계적으로 유의미한지 비교하는 것이 목적
두 평균의 차이와 흩어짐의 정도를 비교.
자료를 모아본 결과 a만큼 흩어짐이 있는데, 두 집단의 평균의 차이가 a정도 난다면 그건 두 집단이 실제로 차이가 나는 건지 그냥 자료를 모으며 생긴 흩어짐에 불과한 건지 알 수가 없다.
그래서 평균의 차이와 흩어짐의 정도의 비율을 계산한다. 이 값(의 절댓값)이 클수록 t분포의 끝자락에 위치할테니 귀무가설이 기각될 확률이 높아진다.
귀무가설 H0 는 μ1=μ2 와 같이 세울 수 있다.
이후 위와 같은 t-statistic 값을 구하고, 상응하는 t분포에서 그 값이 얼마나 끝자락에 있는지 확인한다.
(모표준편차 σ 대신 standard error로 나눴기 때문에 t분포를 따른다.)
가령 significance level을 5%로 했고 t-static 값이 1.96보다 크다면, H0 를 기각, 즉 두 표본평균의 차이가 유의미하게 크다는 것으로 생각할 수 있다.
이것이 t-Test
t-statistic은 분모의 분모(=분자)에 n 있는 형태이다. 원래 n 이 작아지면 standard error로가 작아지므로 t-statistic의 값은 커질텐데, 이는 표본의 개수가 많을수록 t-statistic의 더 확신할 수 있다는 직관과도 방향이 같다.
이는 아래의 s.e.(β^) 를 사용하는 경우에도 같다. s.e.(β^) 의 분모에는 n 이 있고, 그 s.e.(β^) 는 t-statistic의 분모이므로, 결론적으로 t-statistic의 분자에 n 이 있다. 즉 n 이 커지면 (s.e.(β^) 가 작아져서) t-statistic의 값도 커진다.
기타
one-tailed test, two-tailed test
독립표본, 대응표본 t-Test
표본 수가 많으면 -> Z-test
세 개 이상의 집단의 평균을 비교? -> ANOVA
One-sample
(2023년 여름학기 계량경제 수업에서 배워온 건 이 내용이었다.)
t-statistic: t=s.e.(β^)β^−c
이는 자유도가 (n−p−1) 인 t-분포 t(n−p−1) 을 따른다. (n 이 커질수록 정규분포와 유사해짐)
이번엔 두 집단을 비교하는 것이 아니다. β^ 는 열심히 계산해서 구한 estimate이고, 이를 우리가 비교하고자 하는 값 c 와 비교한다.
만약 H0:β^=0 이라면 c=0 이 된다.
위의 두 집단을 비교하는 경우와 다르게 이번에는, 이번에는 한 집단만 평균과 분산을 계산했고, 다른 한 집단은 특정한 평균값에 표본분산이 0인 (=매우 확실히 안다) 상황이라고 생각해볼 수 있겠다.
p-value
그냥 t-Test 개념에서 부산물처럼 이해할 수 있는 개념. (significance level이 5%일 경우로 가정하고)
t-statistic의 값이 1.96보다 큰지 확인할 수도 있지만
t분포에서 P(X>t) 의 값이 0.05보다 작은지 확인할 수도 있다. 이 때 계산되는 저 확률값이 p-value이다. 결국 1번과 같은 작업을 할 뿐이다.