| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
- 웹 스크랩핑
- MySQL
- 프로젝트
- 파이썬 머신러닝 완벽 가이드
- 프로그래머스
- 텍스트 분석
- hackerrank
- 파이썬 철저 입문
- 실전 데이터 분석 프로젝트
- 어쩌다 마케팅
- 파이썬 철저입문
- Cluster
- wil
- 회귀분석
- SQL
- 티스토리챌린지
- 파이썬
- harkerrank
- 오블완
- 스파르타
- 미세먼지
- 스파르타코딩
- 내일배움캠프
- R
- 중회귀모형
- 내일배움
- 파이썬 머신러닝 완벽가이드
- 내일배움카드
- TiL
- 스파르타 코딩
- Today
- Total
목록Python (70)
OkBublewrap
데이터 분석(EDA)에 충분한 시간 투자데이터 분포 및 특성 파악수치형 히스토그램, 상자그림, 범주형 막대차트 등으로 전반적인 분포, 이상치, 결측치 파악합니다.Target(레이블)과의 상관관계도 탐색하여 유의미한 패턴을 찾습니다.문제 정의 재확인데이터의 컬럼이 실제로 무엇을 의미하는지(도메인), 회귀, 분류, 순위 예측인지 확인해커톤 문제의 목표(예 : Fraud 검출, 매출 예측, 주가 예측)에 따라 어떤 지표가 중요한지도 점검파생 변수(Feature Engineering) 아이디어 발굴날짜/시간 피처라면 요일, 공휴일, 요일 간격 등을 추출 가능범주형 피처라면 교차 피처(두 범주를 합친 변수)나 빈도 인코딩 시도단순 EDA에서 상관관계가 높은 피처를 조합/변환해볼 수 있습니다. 적절한 전처리와 피처..
Anaconda Prompt 에서 pip install tabpy을 적고 tabpy를 실행한다. tableau와 연동중 문제가 생겼다. 감성분석을 이용해서 시각화를 진행하는 것이였는데 nltk.download 문제였다. 동작을 완료할 수 없습니다. 오류 코드: 6116dd27 분석 확장 프로그램과(와) 통신하는 동안 오류가 발생했습다. error processing script lookuperror : ********************************************************************** resource %1b[93mvader_lexicon%1b[0m not found. please use the nltk downloader to obtain the resource..
봄이 되서 그런지 황사의 계절이 다가 온 것 같다. 한 때 미세먼지가 엄청 심할때가 있었는데 디스코드 봇을 공부하다가 문득 알람이 오는 것을 보고 한번 만들어 보기로 했다. 우선 공공데이터 API를 활용 AQI(대기질 지수)로 계산해서 메세지를 받는 그런 설계를 해보았다. AQI에는 6가지 대기 오염 물질을 측정해야하는데, PM25, PM10, 일산화탄소, 이산화황, 이산화질소, 지상 오존이 필요하게 된다. 위에서 보면 필요한 데이터는 각각 pm25value, pm10value, coValue, so2Value, no2Value, o3Value의 태그만 추출하면 될 것이다. 동은 한 곳으로 1시간 마다 10시간으로만 만들어 보기로 했다. 카테고리는 이렇게 나누어지는데 좋음 : 창문을 열고 집안을 환기, ..
: 최근점 이웃 협업 필터링 https://grouplens.org/datasets/movielens/latest/ MovieLens Latest DatasetsThese datasets will change over time, and are not appropriate for reporting research results. We will keep the download links stable for automated downloads. We will not archive or make available p…grouplens.orgimport pandas as pdimport numpy as npmovies = pd.read_csv('/content/drive/MyDrive/movies.csv')rat..
TMDB 5000 Movie Datasetimport pandas as pdimport numpy as npmovies = pd.read_csv('/content/drive/MyDrive/tmdb_5000_movies.csv')print(movies.shape)# (4803, 20)movies_df = movies[['id', 'title', 'genres', 'vote_average', 'vote_count', 'popularity', 'keywords', 'overview']] pd.set_option('max_colwidth', 100)movies_df[['genres','keywords','title]][:1]원본 데이터 movie는 20개의 열을..
# Packages & Data from sklearn.linear_model import Ridge , LogisticRegression from sklearn.model_selection import train_test_split , cross_val_score from sklearn.feature_extraction.text import CountVectorizer , TfidfVectorizer import pandas as pd mercari_df= pd.read_csv('/content/drive/MyDrive/train.tsv',sep='\t') print(mercari_df.shape) mercari_df.head(3) print(mercari_df.info()) # # RangeIndex..
네이버 영화리뷰 데이터 (train) https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt import pandas as pd train_df = pd.read_csv('C:/myPyCode/data/ratings_train.txt', sep='\t', encoding = 'cp949') train_df.tail(5) id는 아이디가 변환된 숫자, document는 리뷰가 들어있는 텍스트, label은 긍정, 부정을 뜻하는 것이다. train_df['label'].value_counts( ) # 0.0 45901 # 1.0 45714 # Name: label, dtype: int64 0은 부정, 1은 긍정으로 라벨이 붙어져 있다. 둘다 ..
코사인 유사도는 두 개의 문서 간의 유사도를 측정하기 위해 벡터 공간 모델을 사용, 벡터 공간 모델은 각 문서를 벡터로 표현하고, 이 벡터들 간의 유사도를 측정하여 문서 간의 유사도를 파악하는 방법이다. 코사인 각도가 작을수록 유사도가 높으며 수직에 가까워질수록 유사도가 낮아진다. 이 방법은 텍스트 데이터 마이닝, 정보 검색, 자연어 처리 등 다양한 분야에서 활용됩니다. Cosine Similarity $$ \text{cosine similarity = }\frac{\sum_{i=1}^{n}a_{i}b_{i}}{\sqrt{\sum_{i=1}^{n}a_{i}^{2}}\sqrt{\sum_{i=1}^{n}b_{i}^{2}}} $$ 의 공식을 사용하게 된다. 이 공식을 코드로 작성을 하면 import numpy..
개념 문서 군집화(Document Clustering)란, 비슷한 특성을 가지는 문서들을 자동으로 그룹화하는 자연어 처리 기술입니다. 이는 대표적으로 unsupervised learning 중 하나인 클러스터링 기술을 사용합니다. 1. 문서 전처리: 문서 내의 불필요한 정보를 제거하고, 토큰화, 형태소 분석 등의 과정을 거쳐 특징을 추출합니다. 특징 벡터 생성: 문서에서 추출한 특징을 이용해, 특징 벡터를 생성합니다. 이 때 벡터의 차원 수는 추출한 특징의 수와 동일합니다. 2. 유사도 계산: 각 문서 간의 유사도를 계산합니다. 이는 특징 벡터 간의 거리 측정 방법을 사용합니다. 대표적인 거리 측정 방법으로는 코사인 유사도, 유클리드 거리 등이 있습니다. 3. 클러스터링: 계산된 유사도를 기반으로 문서들..
문서 집합에 숨어 있는 주제를 찾아내는 것 자주 사용하는 기법은 LSA(Latent Semantic Analysis)와 LDA(Latent Dirichlet Allocation)이다. LDA(Latent Dirichlet Allocation) # Packages from sklearn.datasets import fetch_20newsgroups from sklearn.feature_extraction.text import CountVectorizer from sklearn.decomposition import LatentDirichletAllocation # category cats = ['rec.motorcycles', 'rec.sport.baseball', 'comp.graphics', 'comp...
