일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- wil
- SQL
- 프로그래머스
- 파이썬
- 파이썬 머신러닝 완벽 가이드
- 파이썬 완벽 가이드
- 내일배움
- 프로젝트
- 텍스트 분석
- 실전 데이터 분석 프로젝트
- 스파르타 코딩
- 스파르타코딩
- 파이썬 머신러닝 완벽가이드
- 웹 스크랩핑
- TiL
- 중회귀모형
- 내일배움캠프
- 티스토리챌린지
- 내일배움카드
- harkerrank
- Cluster
- MySQL
- hackerrank
- 파이썬 철저입문
- 오블완
- R
- 미세먼지
- 스파르타
- 파이썬 철저 입문
- 회귀분석
- Today
- Total
OkBublewrap
[통계 101 x 데이터 분석] 가설검정의 주의점 본문
재현성
가설 검정, 이해는 어렵지만 시행은 간단
이치를 제대로 이해하지 않아도, 선행 연구를 모방하여 가설검정을 시행, p <0.05를 얻기만 하면 그만이라 여기는 사용자가 많다는 것일 실정이다. 실은 이런 가설검정의 취급 방식으로 말미암아, 재현성 위기라는 중대한 문제가 발생
재현성 위기
p값을 둘러싼 논쟁
이런 논쟁의 배경에는 가설검정 원리상에서의 문제나, 가설검정의 잘못된 사용이 낮은 재현성으로 이어진다는 문제가 있다.
그러므로 가설검정의 문제점이나 그 사용 방법을 제대로 이해하는 것은, 현대 데이터 분석에 있어 필수라 할 수 있다.
과학에서의 재현성
재현성은 누가 언제 어디서 실험하더라도, 조건이 동일하다면 동일한 결과를 얻을 수 있어야 한다.
그러나 최근 논문으로 발표된 내용을 다른 연구자가 동일한 방법과 조건으로 추시했을 때,
같은 결과를 얻지 못했다는 보고가 잇따르고 있다.
재현성이 없다는 것은 원래 논문의 주장이 잘못되었을 가능성이 있다를 의미한다.
재현성이 없다는 것은 원래 논문의 주장이 잘못되었을 가능성이 있다. 이 문제를 재현성 위기라 합니다.
심리학에서의 재현성 위기
심리학 분야에서 보고된 과거 연구 100건을 재실험하고, 그 재현성을 조사한 연구에서
원래 연구에서는 97%가 통계적으로 유의미하다고 한 데 비해,
추시에서는 그 중 36%의 연구만 통계적으로 유의미한 것으로 나타났습니다.
다시 말해 1/3 정도밖에 재현할 수 없었다는 결과입니다.
재현 불가능한 원인은?
그 중 하나로, 실험 조건을 동일하게 조성하기 어렵다는 것을 들 수 있습니다.
그 이외에도 가설검정의 검정력은 100%가 아니므로, 원래 논문의 결론이 옳더라도 단 한 번의 추시로 얻은 데이터가 반드시 통계적으로 유의미하다고 할 수는 없습니다.
또 다른 주원인은, 가설검정의 사용 방법에 있다.
놀랍게도 사용 방법에 따라 p값이 0.05보다 작아지게 조작하는 것이 가능합니다. 이처럼 자신에게 유리하도록 p값을 조작하는 행위는 p-해킹이라 하며, 매우 많은 문제가 있다. p-해킹은 의도치 않게 저지를 수 있다.
가설검정의 문제점
p값 되돌아보기
p값의 정의는 귀무가설이 옳다고 가정할 때 실제 관찰한 데이터 이상으로 극단적인 값을 얻을 확률입니다.
이 값이 작으면 귀무가설과 관찰한 데이터 사이에 괴리가 크다는 것을 뜻하며 아예 유의 수준 a를 밑도는 때에는 귀무가설을 기각하는 판단을 내리게 됩니다.
왜 a=0.05를 사용하는가?
a = 0.05라는 숫자를 사용하여 얻은 통계적으로 유의미한 결과 중, 실제로 는 귀무가설이 옳았을 비율이 뜻밖에 높습니다.
예를 들어 귀무가설이 옳을 때와 대립가설이 옳을 때의 비율이 5:1라고 하고, 검정력 1-b = 0.8로 검정을 수행하면, 유의미였던 결과 중 약 24%는 사실 귀무가설이 옳았던 것으로 나타납니다.
최근에는 a=0.005라는 기준을 사용하자고 제안하는 논문도 있다. 베이즈 인수라 부르는 다른 지표로부터 a=0.005 이끌어 내고, 표본크기 n을 70% 정도 늘려 b가 커지지 않도록 하자는 아이디어입니다. 이후 동향에 따라 이러한 새로운 a로 바뀔 가능성도 있습니다.
피셔류 검정과 네이만-피어슨류 검정
역사적으로 통계학 검정에는 피셔류 검정과 그 후 발전한 네이만-피어슨류 검정의 2가지가 있습니다.
피셔류 검정에서는 귀무가설이 옳을 때 관찰한 데이터 이상으로 극단적인 값을 얻을 확률인 p값을 계산하고,
귀무가설과 관찰한 값의 괴리정도를 평가
네이만-피어슨류 검정에서는 p값이 유의수준 a미만인가 이상인가에만 주목하여, 가설 기각 / 채택이라는 결론을 내립니다.
p값이 0.01이든, 0.001이든, p<0.05라는 점에서는 똑같으므로 모두 통계적으로는 유의미하다는 결과가 됩니다.
단, 네이만-피어슨류 검정에서는 미리 검출하고자 하는 효과크기를 정하고,
설정한 a와 b에 따라 필요한 표본크기 n을 결정해야 합니다.
그런데 미리 표본크기 n을 정하는 네이만-피어슨류 검정이 항상 가능하지는 않습니다. 예를 들어 실험 연구라면 피험자 모집을 통해 n을 통제할 수 있겠지만, 관찰 연구에서는 표본크기 n이 이미 결정되어 있는 경우가 적지 않습니다. 이럴 때는 p값이 0.05보다 작은 가에 주목하기보다 p값 그 자체나 신뢰구간, 또는 나중에 설명할 효과 크기까지도 함께 보고하고 논의하는 것이 바람직합니다.
현대 가설검정에서는 p값이 0.05보다 큰지 작은지가 아니라 p값 자체를 기재하거나, p<0.05, p <0.01, p <0.001 등의 단계에 따라 * 기호를 붙일 것을 권장하고 있습니다.
표본크기 n 정하기
a = 0.05, 1-b = 0.8, 효과크기 = 1이라면, 표본크기 n은 17로 하면 된다.
가설검정에서 유의수준 a와 검정력 1-b, 어느 정도 차이를 의미 있는 차이라 보는지의 효과크기, 마지막으로 표본크기 n은,
넷 중 셋을 결정하면 나머지 하나는 자동으로 정해집니다.
표본크기 n과 p값
표본크기 n이 클수록 오른쪽과 같이 아주 약간의 차이로도 p=0.01이 될 수 있습니다. 즉, p값은 차이의 크기뿐만 아니라 표본크기 n에도 의존하는 것입니다. 만일 평균값의 차이가 같더라도, 표본크기 n이 커질수록 p값은 작아집니다. 이는 표본크기 n이 커짐에 따라 신뢰구간의 폭이 좁아지는 현상과 관련이 있다.
여기서 중요한 것은, 표본크기 n이 커지면 p값은 작아지므로 검출하고자 하는 효과크기를
사전에 설정하고 표본크기 n을 설계해야 한다는 점이다.
간혹 표본크기 n을 사전에 설계하지 않은 관찰 데이터로부터 표본크기 n이 매우 큰, 예를 들어 n=10,000인
데이터를 얻을 때, 이러한 데이터로 가설검정을 시행하면 앞서 이야기한 것처럼 아주 작은 차이로도 p값이 작아져,
통계적으로 유의미한 차이를 검출하게 됩니다.
효과 크기
p < 0.05을 얻어 통계적으로 유의미한 차이가 있음을 알았다고 해도, 이는 귀무가설이 옳다고는 생각하기 어렴을 나타낼 뿐이며, 평균값에 얼마나 차이가 있는지는 말해 주지 않습니다. 그러므로 얼마만큼의 효과가 있는지를 나타내는 효과크기도 함께 표기하는 것이 바람직합니다.
예)
평균값의 차이를 나타내는 효과크기의 예를 살펴봅시다. 2개 집단 평균값 차이의 효과크기에는, 원래 모집단의 분산을 기준으로 2개의 모집단평균이 얼마나 떨어져 있는지를 나타내는 Cohens d 또는 거의 같은 Hedges g가 있다.
이러한 효과크기는 메타분석에서도 중요하다. 메타 분석이란 어떤 현상을 보고한 여러 논문을 통합하여, 결과를 종합적으로 평가하는 방법입니다.
다양한 효과크기
분석 | 효과크기 | 소 | 중 | 대 |
t 검정 | $ d $ | 0.2 | 0.5 | 0.8 |
상관 | $ r $ | 0.1 | 0.3 | 0.5 |
(다중) 회귀 | $ R^2 $ | 0.02 | 0.13 | 0.26 |
ANOVA | $ \eta ^2 $ | 0.01 | 0.06 | 0.14 |
월콕슨 순위합 검정 | $ r $ | 0.1 | 0.3 | 0.5 |
카이제곱검정 (2x2) |
$ \varphi $ | 0.1 | 0.3 | 0.5 |
카이제곱검정 (2x2이외) |
$ Cramer's V $ | 0.1 | 0.3 | 0.5 |
베이즈 인수
p>=0.05일 때는 통계적으로 유의미한 차이가 없다고 표현하는데, 이는 귀무가설을 채택하는 것이 아니라 판단을 보류한다는 뜻이다. 가설검정에서 귀무가설과 대립가설은 대등한 관계가 아니므로, 귀무가설을 지지할 수는 없기 때문이다.
이러한 문제의 해결책 중 하나로, p값 대신 사용하는 베이즈 인수라는 지표가 있습니다.
베이즈 인수의 특징과 주의점
p값 문제에서 본 귀무가설과 대립가설 간 비대칭성 문제는 베이즈 인수에는 해당하지 않습니다. 따라서 2가지 가설을 대등하게 비교할 수 있으며, 귀무가설을 지지할 수도 있습니다. 또한 베이즈 인수가 특정 값이 될 때까지 표본크기 n을 늘린다는 순차적인 갱신이 가능하다는 이점이 있습니다.
주의할 점
1. 베이즈 인수는 두 가설의 상대적인 비교일 뿐이어서, 한쪽 가설이 나쁜 것만으로 베이즈 인수가 큰 값이 될 수 있습니다. 그렇기에 절대적인 가설의 좋고 나쁨을 확인하는 방법으로, 사후예측분포를 평가하는 사후예측점검을 수행할 필요가 있습니다.
2. 베이즈 인수는 파라미터 $ \theta $의 사전분포에 영향을 받습니다.
3. 주변 가능도를 구할 때는 모형으로 설정한 파라미터로 평균화하기 위한 적분 계산이 필요합니다. 그러므로 간단하게 계산할 수 이쓴 p값에 비해, 베이즈 인수를 계산하는 데는 시간과 노력이 필요할 수 있습니다.
p-해킹
p-해킹이란 의도하든, 의도하지 않든 p값을 원하는 방향으로(유의수준 a=0.05 미만이 되도록) 조작하는 행위입니다.
1. p < 0.05가 될 때까지 표본크기 n을 늘림
2. 처음에는 n=30으로 실험하여 p=0.07이었지만, 표본크기 n=10을 추가하여 n=40으로 실험했더니, p <0.05이 되었기에 이를 보고함
3. 여러 개의 요인을 탐색하여, 그중 p<0.05인 것만 보고함
마음에 드는 해석만 보고해서는 안 됨
신약을 개발하는 상황에서 A, B, C, D가 통계적으로 유의미한 결과를 발견하지 못했다.
하지만 E를 실험할 때 통계적으로 유의미한 결과를 얻었을 때, 약 E에 효과가 있다는 가설을 세우고 실험을 수행했다. 이때 약 E가 효과가 있다는 가설을 세우고 실험을 수행했다. 통계적으로 유의미하므로 가설을 지지한다.라는 것은 p-해킹이다.
특히 p-해킹의 연관 개념인 HARking의 예이다.
HARKing이란, 데이터를 얻어 결과를 보고 나서 가설을 만드는 행위입니다.
p-해킹을 예방하기 위한 노력들
약 A,B,C 같이 여러 가지를 시험해 보는 것은 예비 실험으로서 수행하고, 여기서 얻은 결과를 바탕으로 어느 약에 효과가 있는지 가설을 세워, 본 실험에서 약의 범위를 좁혀 다시 실험하는 것이 바람직하다.
단, 본 실험에서 얻은 데이터는 독립적으로 해야 한다.
예비 실험에서 얻은 데이터와 섞어 버리면 유의미한 결과가 되기 쉬운 편향이 생긴다.
탐색형 연구
전체를 탐색적으로 해석하는 연구
가설검증형 연구
가설을 세우고 이를 검증하는 연구
사전 등록
연구를 실시가 전에 가설과 실험 설계, 분석 방법 등의 연구 계획을 등록하는 것입니다.
등록된 내용에 따라 연구를 진행하므로, 데이터를 얻은 다음 가설을 세우는 HARkin을 막을 수 있습니다.
p값 관련 문제 정리
- p값을 제대로 이해하고 사용한다
- 가설검정을 반복하면 다중성 문제가 발생하고, 위양성이 증가한다는 것을 이해한다.
- 탐색형 연구와 가설검증형 연구의 차이를 이해한다.
- 실시한 실험이나 해석은 제대로 보고하낟.
- 재현성이 있는지 염두에 둔다. 가능하다면 재실험하여 확인한다.
- 좋은 가설을 세운다.
가설검정을 이해할 떄 확인할 항목
- 귀무가설의 기각과 채택에 대한 오해:
- 가설검정의 결과로 귀무가설을 기각하거나 기각하지 않는 결정을 내리지만, 이는 귀무가설이 참이나 거짓임을 확정하는 것이 아닙니다. 귀무가설을 기각하지 않는다고 해서 귀무가설이 참이라는 결론을 내릴 수 없으며, 이는 단지 현재의 데이터로는 귀무가설을 기각할 충분한 증거가 없다는 의미입니다.
- p-값의 해석 오류:
- p-값은 귀무가설이 참일 때 현재 데이터와 같거나 더 극단적인 결과가 나타날 확률을 의미합니다. 그러나 p-값이 작다고 해서 반드시 대립가설이 참임을 의미하지 않으며, p-값이 크다고 해서 대립가설이 거짓임을 의미하지도 않습니다. p-값은 단지 데이터가 귀무가설과 얼마나 일치하는지를 나타낼 뿐입니다.
- 유의수준의 임의적 설정:
- 통계적 유의수준(예: 0.05)은 연구자들이 관습적으로 사용하는 값이지만, 이는 임의적으로 설정된 기준입니다. 유의수준은 연구의 맥락과 중요도에 따라 조정되어야 하며, 단순히 관습에 따라 설정해서는 안 됩니다.
- 효과 크기와 실질적 유의성의 무시:
- 통계적 유의성에만 집중하고 효과 크기나 실질적 유의성을 간과하는 경우가 많습니다. 작은 효과라도 큰 표본 크기로 인해 통계적으로 유의미하게 나타날 수 있으므로, 결과의 실질적인 중요성을 함께 고려해야 합니다.
- 검정력의 중요성 간과:
- 검정력(power)은 실제로 효과가 있을 때 이를 발견할 수 있는 능력을 의미합니다. 검정력이 낮으면 실제로 효과가 있음에도 불구하고 이를 발견하지 못할 수 있으므로, 연구 설계 시 충분한 검정력을 확보하는 것이 중요합니다.
'Statistics' 카테고리의 다른 글
[통계 101 x 데이터 분석] 베이즈 통계 (1) | 2025.02.06 |
---|---|
[통계 101 x 데이터 분석] 인과와 상관 (0) | 2025.02.06 |
[통계 101 x 데이터 분석] 통계 모형화 (3) | 2025.02.01 |
[통계 101 x 데이터 분석] 상관과 회귀 (0) | 2025.01.28 |
[통계 101 x 데이터 분석] 다양한 가설 검정 (0) | 2025.01.23 |