일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 프로그래머스
- 오블완
- 파이썬 철저 입문
- TiL
- 웹 스크랩핑
- 내일배움
- hackerrank
- 파이썬
- 파이썬 머신러닝 완벽가이드
- 스파르타코딩
- Cluster
- SQL
- 미세먼지
- 티스토리챌린지
- 중회귀모형
- 내일배움카드
- 프로젝트
- harkerrank
- 파이썬 머신러닝 완벽 가이드
- MySQL
- 스파르타
- R
- 스파르타 코딩
- 회귀분석
- 파이썬 완벽 가이드
- 실전 데이터 분석 프로젝트
- 파이썬 철저입문
- 텍스트 분석
- 내일배움캠프
- wil
- Today
- Total
목록파이썬 머신러닝 완벽가이드 (9)
OkBublewrap
TMDB 5000 Movie Datasetimport pandas as pdimport numpy as npmovies = pd.read_csv('/content/drive/MyDrive/tmdb_5000_movies.csv')print(movies.shape)# (4803, 20)movies_df = movies[['id', 'title', 'genres', 'vote_average', 'vote_count', 'popularity', 'keywords', 'overview']] pd.set_option('max_colwidth', 100)movies_df[['genres','keywords','title]][:1]원본 데이터 movie는 20개의 열을..

# Packages & Data from sklearn.linear_model import Ridge , LogisticRegression from sklearn.model_selection import train_test_split , cross_val_score from sklearn.feature_extraction.text import CountVectorizer , TfidfVectorizer import pandas as pd mercari_df= pd.read_csv('/content/drive/MyDrive/train.tsv',sep='\t') print(mercari_df.shape) mercari_df.head(3) print(mercari_df.info()) # # RangeIndex..

개념 문서 군집화(Document Clustering)란, 비슷한 특성을 가지는 문서들을 자동으로 그룹화하는 자연어 처리 기술입니다. 이는 대표적으로 unsupervised learning 중 하나인 클러스터링 기술을 사용합니다. 1. 문서 전처리: 문서 내의 불필요한 정보를 제거하고, 토큰화, 형태소 분석 등의 과정을 거쳐 특징을 추출합니다. 특징 벡터 생성: 문서에서 추출한 특징을 이용해, 특징 벡터를 생성합니다. 이 때 벡터의 차원 수는 추출한 특징의 수와 동일합니다. 2. 유사도 계산: 각 문서 간의 유사도를 계산합니다. 이는 특징 벡터 간의 거리 측정 방법을 사용합니다. 대표적인 거리 측정 방법으로는 코사인 유사도, 유클리드 거리 등이 있습니다. 3. 클러스터링: 계산된 유사도를 기반으로 문서들..

감성분석은 문서 내 텍스트가 나타내는 여러 가지 주관적인 단어와 문맥을 기반으로 감성수치를 계산하는 방법을 이용. 이러한 긍정 감성 지수와 부정 감성 지수로 구성하며 이들 지수를 합산해서 긍정감성, 부정감성을 결성 - 지도학습 : 학습 데이터와 타겟 레이블 값을 기반으로 감성 분석 학습을 수행한 뒤 이를 기반으로 다른 데이터의 감성 분석을 예측하는 방법으로 일반적인 텍스트 기반의 분류와 거의 동일 - 비지도학습 : Lexicon이라는 감성 어휘 사전을 사용. 이를 이용해 문서의 긍정적, 부정적 감성 여부를 판단 IMDB 영화평(지도 학습) 캐글 데이터 실습(labeledTrainData.tsv) import pandas as pd review_df = pd.read_csv('C:/myPyCode/labe..

# 군집을 사용한 이미지 분할 import urllib url = "https://raw.githubusercontent.com/rickiepark/handson-ml2/master/images/unsupervised_learning/ladybug.png" urllib.request.urlretrieve(url, "lady.png") # 시각화 from matplotlib.image import imread image = imread("lady.png") image.shape # (533, 800, 3) plt.imshow(image) plt.show() 민들레에 무당벌레가 있는 사진이다. from matplotlib.image import imread image = imread("lady.png") p..

LDA : Linear Discriminant Analysis, 선형판별분석 pca와 차이점은 target이 필요한 지도학습이라는 것이다. from sklearn.discriminant_analysis import LinearDiscriminantAnalysis from sklearn.preprocessing import StandardScaler from sklearn.datasets import load_iris iris = load_iris() # LDA는 목표변수가 필요하다 lda = LinearDiscriminantAnalysis(n_components = 2) lda.fit(iris_scaled, iris.target) iris_lda = lda.transform(iris_scaled) pri..

지도학습 : 분류, 회귀 유방암데이터 import pandas as pd import numpy as np # 시각화 import matplotlib.pyplot as plt %matplotlib inline # 유방암 데이터 from sklearn.datasets import load_breast_cancer # 로지스틱회귀분석 모델 from sklearn.linear_model import LogisticRegression cancer = load_breast_cancer() type(cancer) # sklearn.utils.Bunch cancer.keys() # dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_name..

다항회귀 과대, 과소 적합 다항식 (polynomial) : 고차항이 포함된 함수 식 n = 100 np.random.seed(2022) X = 6 * np.random.rand(n, 1) -3 y = 2 * X **2 + X + 3 + np.random.randn(n, 1) * 1.5 plt.scatter(X, y) plt.show() from sklearn.proprocessing import PolynomialFeatrues poly = PolynomailFeatures(degree = 2, include_bias = False) X_poly = poly.fit_transform(X) 다항 함수가 필요할 때는 sklearn.preprocessing의 PolynomialFeatures 클래스를 쓰면 ..

경사하강법 회귀분석(1)에 나온 정규방정식은 한번의 계산으로 되지만 경사하강법은 반복적으로 수행을 해 최적의 답을 찾아나가는 방법이다. 학습률이 너무 작은 값이면 반복계산이 증가하므로 시간이 증가한다. 학습률이 너무 크면 값을 못찾을 수 있다. 경사하강법은 변수들의 scale의 값에 큰 영향을 끼치므로 정규화하는 과정이 중요하다. 배치 경사하강법을 사용한 선형 회귀 - 비용 함수의 그레이디언트 벡터 $$ \frac{\partial }{\partial w}MSE(w) = \frac{2}{N}X^{T}(Xw-y) $$ - 경사 하강법의 스텝 $$ w^{step} = w-\eta \frac{\partial }{\partial w}MSE(w) $$ eta : 학습률 # 데이터 np.random.seed(52) ..