'파이썬 머신러닝 완벽가이드' 태그의 글 목록

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

추천시스템 - 컨텐츠 기반

TMDB 5000 Movie Datasetimport pandas as pdimport numpy as npmovies = pd.read_csv('/content/drive/MyDrive/tmdb_5000_movies.csv')print(movies.shape)# (4803, 20)movies_df = movies[['id', 'title', 'genres', 'vote_average', 'vote_count', 'popularity', 'keywords', 'overview']] pd.set_option('max_colwidth', 100)movies_df[['genres','keywords','title]][:1]원본 데이터 movie는 20개의 열을..

Python/학습용 2023. 4. 11. 21:23

Mercari Price Suggestion Challenge

# Packages & Data from sklearn.linear_model import Ridge , LogisticRegression from sklearn.model_selection import train_test_split , cross_val_score from sklearn.feature_extraction.text import CountVectorizer , TfidfVectorizer import pandas as pd mercari_df= pd.read_csv('/content/drive/MyDrive/train.tsv',sep='\t') print(mercari_df.shape) mercari_df.head(3) print(mercari_df.info()) # # RangeIndex..

Python/학습용 2023. 4. 8. 18:03

문서 군집화

개념 문서 군집화(Document Clustering)란, 비슷한 특성을 가지는 문서들을 자동으로 그룹화하는 자연어 처리 기술입니다. 이는 대표적으로 unsupervised learning 중 하나인 클러스터링 기술을 사용합니다. 1. 문서 전처리: 문서 내의 불필요한 정보를 제거하고, 토큰화, 형태소 분석 등의 과정을 거쳐 특징을 추출합니다. 특징 벡터 생성: 문서에서 추출한 특징을 이용해, 특징 벡터를 생성합니다. 이 때 벡터의 차원 수는 추출한 특징의 수와 동일합니다. 2. 유사도 계산: 각 문서 간의 유사도를 계산합니다. 이는 특징 벡터 간의 거리 측정 방법을 사용합니다. 대표적인 거리 측정 방법으로는 코사인 유사도, 유클리드 거리 등이 있습니다. 3. 클러스터링: 계산된 유사도를 기반으로 문서들..

Python/학습용 2023. 4. 5. 00:54

감성분석

감성분석은 문서 내 텍스트가 나타내는 여러 가지 주관적인 단어와 문맥을 기반으로 감성수치를 계산하는 방법을 이용. 이러한 긍정 감성 지수와 부정 감성 지수로 구성하며 이들 지수를 합산해서 긍정감성, 부정감성을 결성 - 지도학습 : 학습 데이터와 타겟 레이블 값을 기반으로 감성 분석 학습을 수행한 뒤 이를 기반으로 다른 데이터의 감성 분석을 예측하는 방법으로 일반적인 텍스트 기반의 분류와 거의 동일 - 비지도학습 : Lexicon이라는 감성 어휘 사전을 사용. 이를 이용해 문서의 긍정적, 부정적 감성 여부를 판단 IMDB 영화평(지도 학습) 캐글 데이터 실습(labeledTrainData.tsv) import pandas as pd review_df = pd.read_csv('C:/myPyCode/labe..

Python/학습용 2023. 3. 30. 09:02

군집화(cluster)(2)

# 군집을 사용한 이미지 분할 import urllib url = "https://raw.githubusercontent.com/rickiepark/handson-ml2/master/images/unsupervised_learning/ladybug.png" urllib.request.urlretrieve(url, "lady.png") # 시각화 from matplotlib.image import imread image = imread("lady.png") image.shape # (533, 800, 3) plt.imshow(image) plt.show() 민들레에 무당벌레가 있는 사진이다. from matplotlib.image import imread image = imread("lady.png") p..

Python/학습용 2022. 12. 11. 17:06

LDA(선형판별분석)

LDA : Linear Discriminant Analysis, 선형판별분석 pca와 차이점은 target이 필요한 지도학습이라는 것이다. from sklearn.discriminant_analysis import LinearDiscriminantAnalysis from sklearn.preprocessing import StandardScaler from sklearn.datasets import load_iris iris = load_iris() # LDA는 목표변수가 필요하다 lda = LinearDiscriminantAnalysis(n_components = 2) lda.fit(iris_scaled, iris.target) iris_lda = lda.transform(iris_scaled) pri..

Python/학습용 2022. 12. 6. 06:06

로지스틱 회귀분석

지도학습 : 분류, 회귀 유방암데이터 import pandas as pd import numpy as np # 시각화 import matplotlib.pyplot as plt %matplotlib inline # 유방암 데이터 from sklearn.datasets import load_breast_cancer # 로지스틱회귀분석 모델 from sklearn.linear_model import LogisticRegression cancer = load_breast_cancer() type(cancer) # sklearn.utils.Bunch cancer.keys() # dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_name..

Python/학습용 2022. 12. 4. 00:31

회귀분석(3)

다항회귀 과대, 과소 적합 다항식 (polynomial) : 고차항이 포함된 함수 식 n = 100 np.random.seed(2022) X = 6 * np.random.rand(n, 1) -3 y = 2 * X **2 + X + 3 + np.random.randn(n, 1) * 1.5 plt.scatter(X, y) plt.show() from sklearn.proprocessing import PolynomialFeatrues poly = PolynomailFeatures(degree = 2, include_bias = False) X_poly = poly.fit_transform(X) 다항 함수가 필요할 때는 sklearn.preprocessing의 PolynomialFeatures 클래스를 쓰면 ..

Python/학습용 2022. 11. 21. 23:15

회귀분석(2)

경사하강법 회귀분석(1)에 나온 정규방정식은 한번의 계산으로 되지만 경사하강법은 반복적으로 수행을 해 최적의 답을 찾아나가는 방법이다. 학습률이 너무 작은 값이면 반복계산이 증가하므로 시간이 증가한다. 학습률이 너무 크면 값을 못찾을 수 있다. 경사하강법은 변수들의 scale의 값에 큰 영향을 끼치므로 정규화하는 과정이 중요하다. 배치 경사하강법을 사용한 선형 회귀 - 비용 함수의 그레이디언트 벡터 $$ \frac{\partial }{\partial w}MSE(w) = \frac{2}{N}X^{T}(Xw-y) $$ - 경사 하강법의 스텝 $$ w^{step} = w-\eta \frac{\partial }{\partial w}MSE(w) $$ eta : 학습률 # 데이터 np.random.seed(52) ..

Python/학습용 2022. 11. 10. 21:40

OkBublewrap

목록파이썬 머신러닝 완벽가이드 (9)

OkBublewrap

티스토리툴바