일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- harkerrank
- 실전 데이터 분석 프로젝트
- MySQL
- 스파르타
- 파이썬 완벽 가이드
- hackerrank
- wil
- TiL
- SQL
- 스파르타 코딩
- R
- 스파르타코딩
- 중회귀모형
- 웹 스크랩핑
- 프로그래머스
- 텍스트 분석
- 파이썬 머신러닝 완벽가이드
- 파이썬 머신러닝 완벽 가이드
- 파이썬
- 회귀분석
- 티스토리챌린지
- 파이썬 철저입문
- 미세먼지
- 파이썬 철저 입문
- 내일배움캠프
- 프로젝트
- 내일배움카드
- Cluster
- 내일배움
- 오블완
- Today
- Total
목록Statistics (26)
OkBublewrap
모형이란?통계 모형, 기계학습 모형, 수리 모형이와 함께 또 하나의 중요한 모형으로 수리 모형이 있습니다. 수리 모형은 현상의 프로세스나 메커니즘을 가정하고 그 움직임을 조사하는 모형 수리 모형은 메커니즘을 수학적으로 나타내는 것에서 출발하여 논리적으로 무엇이 일어나는가를 조사하는 방법입니다.그러므로 연역적인 방법입니다. 많은 경우 메커니즘에 기반을 둔 모형을 구축하기 때문에,데이터로 경험하지 못한 범위라도 예측이나 통제가 가능할 때가 있습니다. 모형은 현상을 이해하는 도구모형이란, 현상을 잘 기술하여 이해할 수 있도록 간략화하는 방법이다.모형을 만들 때는 현상의 본질을 유지하면서 간략화하는 방법입니다. 모형화란 간략화를 통해 사물의 본질을 이끌어 내는 일인 것 같습니다. 완벽한 모형은 없다현상..
주성분 분석변수의 차원차원이 높다고 하면 정보량이 많으니 얼핏 좋은 것처럼 생각되지만, 실은 쓸데없이 많기만 한 상황이 종종 발생합니다.상관이 있는 변수의 수를 줄이는 것이, 차원축소라고 합니다. 변수의 수를 줄이는 이유고차원 데이터 해석의 어려움- 저차원 데이터는 시각화 가능- 다중회귀에서 상관이 있는 상황일 때 다중공선성이 발생, 회귀계수 추정이 불안정해지는 문제 발생차원의 저주표본크기가 충분하지 않은 상황이라면, 회귀계수를 올바르게 추정할 수 없는 문제가 생긴다. 주성분분석제1주성분 : 새로운 축은 데이터 퍼짐이 가장 커지는 방향으로 설정제2주성분 : 제1주성분와 수직 방향이고 데이터 퍼짐이 가장 커지는 방향으로 설정 인자분석데이터 내에서 잠재적인 요인을 추정하여, 여러변수들이 그 요인들에 의해 ..
통계학의 2가지 흐름1. 빈도주의 통계2. 베이즈 통계 불확실성 다루기통계학은 불확실성을 다루고자 확률을 이용합니다. 지금까지 등장한 빈도주의 흐름에서의 불확실성은, 모집단엣 표본을 추출할 때의 불확실성입니다.빈도주의무한히 반복 실행한 결과로써의 객관적인 빈도를 나타냅니다.베이즈 통계확률을 얼마나 확신하는지로 해석하는 원리 통계 모형통계 모형의 목적과 방침은 지금까지 소개한 방법들과 똑같이, 데이터의 발생원인 모집단의 실제 분포 q(x)를 아는 것입니다.그런데 q(x)를 직접 알기는 불가능하므로, 얻은 데이터 x1, x2, ..., xn으로부터 분포 q(x)을 추론해 가는 방법을 이용한다.이처럼 데이터로 모집단의 실제 분포 q(x)를 추론하는 것을 통계적 추론이라고 합니다. 데이터를 이용하여 추정한 ..
인과관계 밝히기우리가 사는 세상은 원인과 결과, 즉 인과관계로 넘쳐 나며, 복잡하게 얽힌 네트워크를 구성하고 있습니다.인과관계를 밝히는 일이 그리 쉬운 일이 아닙니다. 인과관계와 상관관계인과관계원인과 결과의 관계 (원인 → 결과) 상관관계데이터에서 보이는 관련성어떤 특정한 조합이 일어나기 쉽다는 것이고,수학적으로 말하면 확률변수 사이가 독립이 아니라는 것을 뜻한다. 중첩요인두 변수에 관련된 외부 변수가 존재할 때, 이를 중첩이라 한다. 인과-상관-허위상관상관관계란 2개 요소 X, Y가 있을 때 X가 커지면 Y도 커지고(또는 작아지고), X가 작아지면 Y도 작아지는(또는 커지는) 관계였습니다. 인과관계는 없지만 상관관계는 있을 때, 이를 허위상관이라 합니다. 상관과 인과를 나타낸 벤 다이어그램, X-Y..
재현성가설 검정, 이해는 어렵지만 시행은 간단이치를 제대로 이해하지 않아도, 선행 연구를 모방하여 가설검정을 시행, p 재현성 위기라는 중대한 문제가 발생 재현성 위기p값을 둘러싼 논쟁이런 논쟁의 배경에는 가설검정 원리상에서의 문제나, 가설검정의 잘못된 사용이 낮은 재현성으로 이어진다는 문제가 있다.그러므로 가설검정의 문제점이나 그 사용 방법을 제대로 이해하는 것은, 현대 데이터 분석에 있어 필수라 할 수 있다. 과학에서의 재현성재현성은 누가 언제 어디서 실험하더라도, 조건이 동일하다면 동일한 결과를 얻을 수 있어야 한다.그러나 최근 논문으로 발표된 내용을 다른 연구자가 동일한 방법과 조건으로 추시했을 때,같은 결과를 얻지 못했다는 보고가 잇따르고 있다. 재현성이 없다는 것은 원래 논문의 주장이 잘못..
선형회귀는 다양한 해석 방법의 기초실제 데이터 해석에서는 설명변수가 여러 개인 경우나, 반응변수가 양적 변수가 아니라 예/아니요 같은 범주형 변수일 때도 있기에, 회귀모형이 항상 적절하지는 않습니다. 확장방향성설명변수의 개수를 늘리거나 유형 변경- 개수 늘리기- 유형 변경(양적 변수, 범주형 변수)반응변수의 유형 변경하기- 오차분포(등분산의 정규분포, 이항분포 -> 2개의 범주형 변수, 푸아송 분포 -> 음이 아닌 정수- 일반화선형모형(GLM)회귀모형의 형태 변경하기- 상호작용- 비선형- 일반화선형혼합모형(GLMM) 다중회귀설명변수가 여러 개인 것을 다중회귀라 합니다. $$ y = a + b_{1} * x_{1} + b_{2} * x_{2} + \varepsilon $$ $ b_{1}. b_{2} $ 은..
양적 변수 사이 관계를 밝히다2개의 양적 변수로 이루어진 데이터양적 변수 사이의 관계를 분석하는 또 다른 방법인 상관과 회귀를 설명 산점도 상관산점도를 이용하면 두 양적 변수의 관계를 시각화하면 어떤 관계가 있는지 대략적으로 파악할 수 있습니다.위 그림을 보면 수학점수가 오르면 과학점수도 높은 경향이 있다는 것을 확인할 수 있습니다. 그림으로 살펴본 2개 변수 사이의 관계성을 상관이라 합니다이는 2개의 확률변수 또는 데이터 사이의 관계성을 의미합니다. ⚠️ 상관이 있다고 해서 원인과 결과를 뜻하는 인과관계가 있는지까지는 알 수 없다. 회귀$ y=f(x) $ 함수를 통해 변수 사이의 관계를 공식화 하는 것을 가르킵니다. 여기서 x를 설명변수, 독립변수, y를 반응변수 또는 종속변수라고 한다. 상관관..
가설검정 방법 구분해 사용하기가설검정 해석 흐름어느 가설검정 방법이든 간에 해석의 기본 흐름은 공통귀무가설 설정 : 확인하고 싶은 대상에 따라 귀무가설과 대립가설을 설정데이터로 검정통계량 계산 : 데이터로 가설검정에 필요한 검정통계량을 계산귀무가설이 옳다는 가정하에 통계량의 분포를 생각하고, 데이터로 계산한 통계량이 분포의 어느 위치에 있는지 구하여 P값을 계산한다. ✅ 가설 검정 방법을 선택할 때는 다음에 설명하는 데이터 유형, 표본의 수, 양적 변수 분포의 성질을 먼저 확인 데이터 유형에 따라 달라지는 해석 방법더보기 import seaborn as snsimport matplotlib.pyplot as pltimport pandas as pd# 데이터 로드df = sns.load_dataset(..
또 하나의 추론통계 방법가설검정이란 , 분석자가 세운 것을 검증하기 위한 방법입니다.가설검정에서는 P값(p-value)이라는 수치를 계산하여 가설을 지지하는지 여부를 판단합니다. 가설 검증하기확증적 자료분석가설을 세움 → 실험, 관찰로 가설과 관련한 데이터 수집 → 세운 가설을 검정 탐색적 자료분석가설이 없음 → 데이터를 다양하게 탐색하여 해석 → 데이터의 경향 파악, 가설 후보 물색 어떠한 조치를 취한 집단을 실험군, 실험군과 비교, 대조를 위해 마련한 집단을 대조군이라 부른다.⚠️ 여기서 말한 가설은 모집단을 대상으로 한 가설이지, 표본을 대상으로 한 가설은 아니라는 점 귀무가설과 대립가설귀무가설 신약에 효과가 없다($ \mu_{a} = \mu_{b} $ )대립가설 신약에 효과가 있다. ($ \..
추론통계란?표본으로 모집단의 성질을 추정함 데이터를 얻는다는 것모집단에 포함된 전체 값으로 구성된 분포에서 일부를 추출하는 것 모집단 : 확률분포표본 : 확률분포를 따르는 실현값 목표 : 얻은 실현값으로 이 값을 발생시킨 확률분포를 추정한다. 현실 세계의 모집단분포는 약간 비뚤어진 형태일 것이므로, 이를 직접 다루기는 어렵습니다. 이에 수학적으로 이상적인 분포로 근사함으로써 다룰 수 있는 형태로 바꾸게 됩니다. 무작위 추출데이터를 얻을 때 모집단에 포함된 요소를 하나씩 무작위로 선택하여 추출하는 방법 무작위 추출 방법단순무작위추출법모집단의 모든 개체가 동일한 확률로 선택될 수 있도록 방법층화추출법모집단을 공통의 특성을 가진 여러 개의 하위 집단으로 나눈 후, 각 층에서 무작위로 표본을 추출하는 방법..