Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 파이썬
- 회귀분석
- TiL
- 내일배움캠프
- MySQL
- 스파르타코딩
- 프로그래머스
- 실전 데이터 분석 프로젝트
- 스파르타
- wil
- Cluster
- 오블완
- 미세먼지
- 중회귀모형
- R
- hackerrank
- 티스토리챌린지
- 웹 스크랩핑
- 파이썬 철저 입문
- harkerrank
- 프로젝트
- 내일배움
- 내일배움카드
- SQL
- 텍스트 분석
- 파이썬 완벽 가이드
- 파이썬 머신러닝 완벽가이드
- 스파르타 코딩
- 파이썬 머신러닝 완벽 가이드
- 파이썬 철저입문
Archives
- Today
- Total
OkBublewrap
2024-12-19 TIL (양질의 데이터4) 본문
아티클 # 12
양질의 데이터를 판별하는 5가지 방법 : ④ 데이터 형식을 파악했는가? | 요즘IT
데이터 구조와 생김새에서 모든 데이터는 차이를 보입니다. 그리고 데이터의 생김새, 즉 데이터 형식에 따라서 분석 가치가 높은 양질의 데이터와 그렇지 못한 저품질의 데이터가 나뉘기도 합
yozm.wishket.com
1. 아티클 주요 내용 요약
- 핵심 주제: 빅데이터 분석과 인사이트 도출에 있어서는 결국 '숫자'를 대상으로 하는 것이 활용성이 높다.
- 주요 내용:
- 정형, 비정형
- 범주형 데이터의 비율이 얼마나 되는가?
- 데이터 척도
2. 생각 및 의견
- 나의 의견 : 생각 보다 범주형 데이터를 처리할 일이 많다. 모델을 생성할때는 one-hot 인코딩이나 label인코딩을 쓴다. 아니면 단어 분석을 할때 토큰화 시키기도 한다.
'Today I Learning' 카테고리의 다른 글
WIL - 4주차 (0) | 2024.12.20 |
---|---|
2024-12-20 TIL (유저 생존 곡선) (0) | 2024.12.20 |
2024-12-18 TIL (Retension) (0) | 2024.12.18 |
2024-12-17 TIL (양질의 데이터3) (0) | 2024.12.17 |
2024-12-16 TIL (데이터 스토리텔링) (0) | 2024.12.16 |