Sample Statistics and Standard Error
TL; DR
- 기본 통계학 용어와 개념 몇 개를 두서없이 내 맘대로 정리한다.
- 자주 잊는 나를 위한 개인적인 용도
Why
통계학을 배운 사람들이라면 표준 오차는 대체로 잘 아는 내용이다. 그런데 나는 가끔 까먹는다. 개인적인 용도를 위해서 관련된 앞뒤 내용 몇 가지를 순서 없이 정리해둔다.
Big Ifs
- 알려진 파라미터는 없다.
- 알려진 분포도 없다.
- 표본은 평균이
이고 분산이 인 분포에서 IID(independent and identically distributed)로 추출된다.
Finite Sample vs Asymptotic Properties
“유한 표본 finite sample”이란 어떤 크기든 표본의 크기가 정해져 있다는 의미이다. 가끔 “소 표본 small sample”이라는 표현도 활용된다. “점근적 특성 asymptotic properties”이란 표본 크기가 계속 커질 때 추정량이 지니는 특성을 의미한다. 통계학을 배울 때는 유한 표본의 추정량(estimator)에 관해 먼저 엄밀하게 배운다. 통계학을 활용한다는 실용적인 관점에서 중요한 것은 추정량의 점근적 특징이다.
점근성에 관해서 두 가지를 짚고 가자. 일치성은 샘플의 크기가 커질수록 추정량이 모수에 접근하는 특징이다. 다른 하나는 중심 극한 정리(central limit theorem)이다. 샘플의 크기가 커질수록 추정량의 분포가 정규 분포에 접근하게 된다. 일치성이 확보되면 추정량이 불편성을 지니고 있지 않아도 표본의 크기가 커질수록 참값에 충분히 가깝게 접근한다. 한편 중심 극한 정리는 추정량의 통계적인 검정을 위한 매우 중요한 방법을 제공한다. 아래에서 다시 살펴보기로 하자.
Unbiasedness, Efficiency, Consistency
파라미터
표본
Unbiased
불편성은 추정량의 중요한 특징이지만, 불편성만으로 충분하지 않다. 극단적인 예로
Efficiency
모든
Consistent
표본의 크기에 따른 추정량의 시퀀스
plim의 정의는 다음과 같다. 표본 크기
Concepts
용어 | 영어 표현 | 정의 | 사례 혹은 코멘트 |
---|---|---|---|
모수 | parameter | 한 모집단의 고정된 특성 혹은 이를 나타내는 값 | |
표본 통계량 | sample statistics | 표본에 따라서 변화하는 값 | |
표본 평균 | sample mean | 표본의 평균 | |
표본 분산 | sample variance | 표본의 분산 | |
표준 오차 | standard error | 표본 통계량의 표준 편차 | |
표준 오차의 추정치 | estimated standard error | 표준 오차 계산 시 |
|
Sample Mean
IID 추출로 크기
표본 평균과 달리
Unbiasedness
1에서 보듯이
Consistency
Central Limit Theorem
Sample Variance
Standard Error(SE)
어떤 통계량의 표준 오차(Standard Error)는 표본 통계량의 표준 편차를 뜻한다. 표본 통계량
표준오차 SE는 다음과 같다.
Asymptotically Normal!
가설 검정에 활용하는
회귀 분석의 검정 또한
-값은 해당 통계량의 ‘통계적인’ 증거일 뿐이다
울드리지 교수는 이를 통계적 유의성과 실용적 유의성의 차이로 설명한다. 통계적으로 유의미한 변수를 찾으면 우리는 대체로 기분이 좋아진다. 하지만 통계적으로 유의한 그 관계가 실용적으로도 그럴까? 만일 통계적 유의성을 지닌 계수가 사실상 의미가 없는 경우라면 어떨까? 책을 읽을 때 다리를 떨면 책을 읽는 속도가 통계적으로 유의미하게 0.1% 증가한다고 하자. 이는 사실상 의미 있는 결과일까? (책을 읽을 때는 열심히 다리를 떨어라?)
More
이하의 내용은 딱히 필요하지는 않다. 관심이 있는 경우는 살펴보면 좋겠다.
을 로 나누는 이유
이제
합해지는 부분의 각각을 따져보자.
의 분자를 계산하면 된다. 먼저 각 의 제곱이 개 나온다. 다음으로 각각 가 독립적으로 추출되었으므로 일 때 이 된다. 개 중에서 2개를 순서에 관계없이 뽑게 된다. 즉,
따라서,
이제 각각을 넣어 계산을 완료하자.
따라서 불편 추정량이 되기 위해서는
의 일치성
위에서 보듯이
자세한 내용은 여기 책의 해당 부분을 참고하라.
회귀 분석의 통계량
회귀 분석의 계수의 표본 추정량
with
여기서
: 의 ’th 행(row) 벡터
회귀 분석의
CLT and LLN illustrated
LLN과 CLT은 동전의 양면처럼 보이기도 한다. 아래 첫번째 그림에서 보듯이