| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
- 텍스트 분석
- 웹 스크랩핑
- 내일배움캠프
- 파이썬 머신러닝 완벽가이드
- MySQL
- 내일배움
- 프로그래머스
- harkerrank
- 내일배움카드
- 어쩌다 마케팅
- 프로젝트
- 파이썬 머신러닝 완벽 가이드
- 오블완
- SQL
- Cluster
- R
- wil
- 파이썬 철저입문
- 스파르타
- 스파르타 코딩
- TiL
- 중회귀모형
- 파이썬 철저 입문
- 티스토리챌린지
- 파이썬
- hackerrank
- 회귀분석
- 미세먼지
- 실전 데이터 분석 프로젝트
- 스파르타코딩
- Today
- Total
목록Python (70)
OkBublewrap
# 분석할 데이터 import pandas as pd # 감성분석에 쓸 리뷰 데이터 review_df = pd.read_csv('C:/myPyCode/labeledTrainData.tsv', header=0, sep="\t", quoting=3) # Data Cleaning import re # html 태그는 replace 함수로 공백으로 변환 review_df['review'] = review_df['review'].str.replace(' ',' ') # 파이썬의 정규 표현식 모듈인 re를 이용하여 영어 문자열이 아닌 문자는 모두 공백으로 변환 review_df['review'] = review_df['review'].apply( lambda x : re.sub("[^a-zA-Z]", " ", x)..
감성분석은 문서 내 텍스트가 나타내는 여러 가지 주관적인 단어와 문맥을 기반으로 감성수치를 계산하는 방법을 이용. 이러한 긍정 감성 지수와 부정 감성 지수로 구성하며 이들 지수를 합산해서 긍정감성, 부정감성을 결성 - 지도학습 : 학습 데이터와 타겟 레이블 값을 기반으로 감성 분석 학습을 수행한 뒤 이를 기반으로 다른 데이터의 감성 분석을 예측하는 방법으로 일반적인 텍스트 기반의 분류와 거의 동일 - 비지도학습 : Lexicon이라는 감성 어휘 사전을 사용. 이를 이용해 문서의 긍정적, 부정적 감성 여부를 판단 IMDB 영화평(지도 학습) 캐글 데이터 실습(labeledTrainData.tsv) import pandas as pd review_df = pd.read_csv('C:/myPyCode/labe..
사이킷런 예제 데이터 20 뉴스그룹 데이터 텍스트를 피처벡터화로 변환하면 일반적으로 희소 행렬 형태가 되는데 이 형태를 효과적으로 분류할 수 있는 알고리즘은 로지스틱 회귀, 선형 서포트 벡터 머신, 나이브 베이즈 등이 있다. 20 뉴스 그룹 데이터 from sklearn.datasets import fetch_20newsgroups news_data = fetch_20newsgroups(subset='all',random_state=156) print(news_data.keys()) # dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR']) data, filenames, target_names, target, DESCR이 Key에 들어간 ..
- 텍스트 분류(Text Classification) : Text Categorization이라고도 한다. 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법을 통칭합니다. 예를 들어 특정 신문 기사 내용이 연애, 정치, 사회, 문화 중 어떤 카테고리에 속하는지 자동으로 분류하거나 스팸 메일 검출 같은 프로그램이 이에 속합니다. 지도 학습을 적용 - 감성 분석(Sentiment Analysis) : 텍스트에서 나타나는 감정, 판단, 믿음, 의견, 기분 등의 주관적인 요소를 분석하는 기법을 총칭합니다. 소셜 미디어 감정 분석, 영화나 제품에 대한 긍정 또는 리뷰, 여론조사 의견 분석 등의 다양한 영역에서 활용, Text Analytics에서 가장 활발하게 사용되고 있는 분야, 비지도학습, 지도학습..
전에 이어서 분석을 하고 싶은 상수도에서만 대해 분석을 진행 df_seoul_water = df_seoul[df_seoul['부서레벨2'] == '상수도사업본부'] df_seoul_water.head(5) 부서명을 조회를 해봤다. 부서명에는 엄청 많은 부서명이 존재를 했다. 일단 필요없는 부서레벨1, 부서레벨2는 삭제하고 부서명을 표시해봤다. # 부서레벨1, 부서레벨2 열 삭제 df_seoul_water_x = df_seoul_water.drop(['부서레벨1', '부서레벨2'], axis = 1) # 부서명 고유값 df_seoul_water_x['부서명'].unique() array(['급수부', '구의아리수정수센터 정수과', '강북정수센터 정수시설과', '상수도사업본부 영등포아리수정수센터 정수과', ..
부서레벨1 집행 비중 from matplotlib import pyplot as plt pd.set_option('display.max_rows', None) %matplotlib inline plt.rcParams['font.family'] = 'Malgun Gothic' plt.rcParams["figure.figsize"] = (20, 10) plt.rcParams["font.size"] = 12 plt.rcParams["figure.autolayout"] = True df_seoul_1 = df_seoul[df_seoul['부서레벨1'] == '서울시본청'] group_count_1 = df_seoul_1[['부서레벨1', '부서레벨2', '집행금액']].groupby(['부서레벨1','부서레벨2..
실제 데이터로 분석을 진행을 한다. 분석할 데이터는 서울시 업무 추진비 이다. 분석전 데이터를 불러와서 결합하고 처리하는 코드는 생략한다. import pandas as pd data_folder = 'C:/myPyCode/data/seoul_expense/' years = [2016, 2017, 2018] df_expense_all = pd.DataFrame() for year in years: expense_list_year_dir = data_folder + str(year) + '/' expense_list_tidy_file = "{}_expense_list_tidy.csv".format(year) path_file_name = expense_list_year_dir + expense_list_t..
import pandas as pd data_file = "C:/myPyCode/data/total_sales_data.csv" df_sales = pd.read_csv(data_file) df_sales df_sales.info() 매장명 9 non-null object 제품종류 non-null object 모델명 non-null object 판매 non-null int64 재고 non-null int64 df_sales['매장명'].value_counts() # C 3 # B 3 # A 3 df_sales['제품종류'].value_counts() # 스마트폰 5 # TV 4 Pivot Table # 매장별 제품종류별 모델명별 재공량합계, 판매합계 df_sales.pivot_table(index=["매..
파이썬 철저 입문에 마지막 챕터이다. 데이터 분석 프로세스 주제 선정 > 데이터 수집 > 데이터 처리 > 데이터 분석 > 정보 도출 주제 선정 데이터 분석을 위해 가장 먼저 해야 할 일은 데이터 분석의 목표를 명확히 하고 이로부터 주제를 선정하는 것 즉, 데이터 분석을 통해 얻고 싶은 결과가 무엇인지를 설정하는 것, 이 단계에서는 요구사항도 구체화하고 분석의 목적도 명확이 설정해야 한다. 데이터 수집 주제가 선정이 되면 주제에 맞는 데이터를 수집해야 한다. 데이터 수집에는 직접 수집, 이미 수집된 데이터를 활용하는 방법이 있다. https://www.data.go.kr/ 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여..
https://www.data.go.kr/tcs/dss/selectApiDataDetailView.do?publicDataPk=15073861 한국환경공단_에어코리아_대기오염정보 각 측정소별 대기오염정보를 조회하기 위한 서비스로 기간별, 시도별 대기오염 정보와 통합대기환경지수 나쁨 이상 측정소 내역, 대기질(미세먼지/오존) 예보 통보 내역 등을 조회할 수 있다. www.data.go.kr 위 api를 들고 와봤다. 정보를 찾으면서 구동은 되는데 남들 쓰는 게 다양해서 조금 시간이 걸렸다. import requests encoding = '' decoding = '' url = 'http://apis.data.go.kr/B552584/ArpltnInforInqireSvc/getCtprvnRltmMesure..
