일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 내일배움카드
- 내일배움
- SQL
- wil
- 텍스트 분석
- 중회귀모형
- 파이썬 머신러닝 완벽 가이드
- 스파르타코딩
- MySQL
- Cluster
- 오블완
- 회귀분석
- 웹 스크랩핑
- 내일배움캠프
- 실전 데이터 분석 프로젝트
- 스파르타
- 프로그래머스
- 티스토리챌린지
- TiL
- 파이썬 완벽 가이드
- 파이썬 머신러닝 완벽가이드
- hackerrank
- 스파르타 코딩
- 파이썬 철저 입문
- 미세먼지
- harkerrank
- 프로젝트
- 파이썬
- R
- 파이썬 철저입문
- Today
- Total
OkBublewrap
[통계 101 x 데이터 분석] 추론통계 ~ 신뢰구간 본문
추론통계란?
표본으로 모집단의 성질을 추정함
데이터를 얻는다는 것
모집단에 포함된 전체 값으로 구성된 분포에서 일부를 추출하는 것
모집단 : 확률분포
표본 : 확률분포를 따르는 실현값
목표 : 얻은 실현값으로 이 값을 발생시킨 확률분포를 추정한다.
현실 세계의 모집단분포는 약간 비뚤어진 형태일 것이므로, 이를 직접 다루기는 어렵습니다. 이에 수학적으로 이상적인 분포로 근사함으로써 다룰 수 있는 형태로 바꾸게 됩니다.
무작위 추출
데이터를 얻을 때 모집단에 포함된 요소를 하나씩 무작위로 선택하여 추출하는 방법
무작위 추출 방법
단순무작위추출법 | 모집단의 모든 개체가 동일한 확률로 선택될 수 있도록 방법 |
층화추출법 | 모집단을 공통의 특성을 가진 여러 개의 하위 집단으로 나눈 후, 각 층에서 무작위로 표본을 추출하는 방법 |
계통추출법 | 모집단의 모든 개체를 일정한 간격으로 나열한 뒤, 첫 번째 표본을 무작위로 선정한 다음 일정한 간격을 유지하며 표본을 선택하는 방법 |
군집추출법 | 모집단을 여러 개의 집단으로 나누고, 일부 군집을 무작위로 선택하여 해당 군집 내 모든 개체를 표본으로 사용하는 방법 |
편향된 조사
편향된 추출로써 표본을 만든 경우라면, 표본으로 모집단을 올바르게 추정할 수 없습니다.
이는 모집단 설정 방법과도 밀접한 관계가 있습니다.
모집단에 대해 추정한 결과를 어느 정도 일반화할 수 있는가는표본으로 모집단의 성질을 추정함
직감적인 추론통계
모집단 : 된장국 전체
표본 : 소량의 된장국
소량의 된장국을 맛봄으로써, 냄비 안 전체 된장국의 맛을 조사하는 것입니다.
시사점 1
정말로 알고자 하는 것은 표본(소량의 된장국)이 아니라 모집단(된장국 전체)이다.
시사점 2
모집단의 모든 요소를 다 조사하는 전수조사는 어렵다(냄비 안의 된장국을 다 먹고 맛을 조사하기는 어렵다)
시사점 3
작은 크기의 표본으로도 모집단을 추론할 수 있다.
시사점 4
표본을 추출할 때는 무작위로 추출해야 한다.(국자로 된장국을 뜰 때는 먼저 섞어야 한다)
표본오차와 신뢰구간
표본오차 : 정말로 알고 싶은 것과 실제로 손 안에 있는 데이터에는 어긋남이 생기는 것
표본을 추출할 때의 인위적인 실수나 잘못으로 생기는 오차가 아니라, 데이터 퍼짐이 있는 모집단에서 확률적으로 표본을 고르는데서 발생하는, 피할 수 없는 오차라는 점
표본은 모집단의 성질과 정확히 일치하지 않고, 확률오차를 수반합니다. 그러므로 표본으로 모집단의 성질을 정확히 알아맞히기는 불가능합니다. 그러나 여기서 포기하지 않고 이 오차에 대해 파고들어 생각하는 것이 중요하다.
큰 수의 법칙
표본크기 $ n $ 이 커질수록 표본평균 $ \overline{x} $가 모집단평균 $ \mu $에 가까워진다는 법칙
표본오차의 확률분포를 알면 어느 정도 크기의 오차가, 어느 정도의 확률로 나타나는지를 알 수 있게 됩니다.
중심극한정리
모집단이 어떤 분포이든 간에, 표본크기 n이 커질수록 표본평균 $ \overline{x}$의 분포는 정규분포로 근사할 수 있다.
중심극한정리 요약
표본 크기 n이 커질수록 표본평균의 분포는 다음과 같은 정규분포로 근사할 수 있습니다.
평균 : 모집단 평균 $ \mu $
표준편차 : $ \frac{\sigma }{\sqrt{n}} $
추정량
모집단의 성질을 추정하는 데 사용하는 통계량
일치추정량 : 표본크기를 무한대로 했을 때, 모집단의 성질과 일치하는 추정량
비편향추정량 : 평균값이 모집단의 성질과 일치할 때의 추정량
비편향추정량은 매번 얻을 때마다 확률적으로 다른 값이 되지만, 평균으로 보면 모집단의 성질을 과대하지도 과소하지도 않게 나타내는 양을 뜻합니다.
표본평균은 모집단평균을 편향되지 않게 추정하는 비편향추정량
문제는 표본표준편차, 기술통계에서 데이터 퍼짐 정도를 평가할 때는 문제가 없습니다만, 모집단의 표준편차 $\sigma $의 비편향추정량이 됩니다.
신뢰구간
간단하게 오차를 정량화하기 위해서 도입된 개념
신뢰구간 해석
OO%의 확률로 이 구간에 모집단평균 $ \mu $가 있다.
신뢰구간은 표본에서 구한 모집단 $ \mu $의 추정값을 어느 정도 신뢰할 수 있는지를 나타낸다고 할 수 있다.
t분포
$$ \frac{\overline{x}-\mu}{s/\sqrt{n}} $$
모집단이 정규분포라는 가정하에 미지의 모집단 표준편차 $ \sigma $를 표본으로 계산한 비편향표준편차 s로 대용했을 때, $ \overline{x}-\mu $를 표준오차 $ s/\sqrt{n} $로 나누어 표준화한 값
정밀도를 높이기
표준오차를 줄이기 위해서는 분자인 비편향표준편차 $ s $를 작게하거나,
분모인 표본크기 $ n $을 크게 하는 두 가지 방법이 있습니다
t분포 사용할 때 주의점
정규분포에서 얻은 데이터라는 가정이 필요
데이터의 배경에 있는 모집단분포가 완벽한 정규분포일 수는 없으므로
얻은 신뢰구간 95% 신뢰구간은 정확한 95%가 아니라는 점
문제가 되는 것은 정규분포와 현저하게 다른 분포에서 데이터를 얻었을 때!
단, 표본크기가 클 때는 중심극한정리에 따라 모집단이 정규분포에 근사
⚠️ Long tail 분포는 어떻게 해도 안된다.
'Statistics' 카테고리의 다른 글
[통계 101 x 데이터 분석] 다양한 가설 검정 (0) | 2025.01.23 |
---|---|
[통계 101 x 데이터 분석] 가설검증 (1) | 2025.01.22 |
[통계 101 x 데이터 분석] 통계분석의 기초 (0) | 2025.01.20 |
[통계 101 x 데이터 분석] 모집단과 표본 (0) | 2025.01.20 |
[통계 101 x 데이터 분석] 통계학이란? (0) | 2025.01.20 |