| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
- 파이썬 철저 입문
- 내일배움캠프
- MySQL
- Cluster
- 텍스트 분석
- wil
- 웹 스크랩핑
- R
- 티스토리챌린지
- 파이썬
- 스파르타
- 스파르타 코딩
- TiL
- harkerrank
- 중회귀모형
- hackerrank
- 내일배움
- 미세먼지
- 프로젝트
- 어쩌다 마케팅
- 회귀분석
- 파이썬 머신러닝 완벽가이드
- 파이썬 철저입문
- 내일배움카드
- 프로그래머스
- 파이썬 머신러닝 완벽 가이드
- 오블완
- 실전 데이터 분석 프로젝트
- 스파르타코딩
- SQL
- Today
- Total
목록Python (70)
OkBublewrap
1. review table & review_text table 작업ERD 1) review table추가로 작업해야할 작업1. product_id가 들어왔을때 review table이 None 이면 모든 데이터를 수집 해야함2. product_id가 들어왔을때 review table이 있으면 max(review_date) 이후 데이터를 수집해야함+ 사이트를 들어가면 최신순으로 나옴 하나당 600페이지 정도, 병렬 크롤링을 진행해볼려고 했으나코드가 복잡하여 그냥 시도중..review_text는 병렬 크롤링 시도 + 18시간 12분 14초 (병렬로 꼭하자..) random.uniform(5, 10)으로 한것도 이유인것 같다 1, 3으로해도 될 것 같다.총 104,809개의 리뷰..2025-02-27 09:..
1. 데이터 베이스 생성(brand, category, product) 더보기import sqlite3# SQLite 데이터베이스 연결 (없으면 생성됨)conn = sqlite3.connect("cosme.db")cursor = conn.cursor()# # 기존 테이블 삭제 (있으면 삭제)cursor.execute("DROP TABLE IF EXISTS product")cursor.execute("DROP TABLE IF EXISTS category")cursor.execute("DROP TABLE IF EXISTS brand")cursor.execute("DROP TABLE IF EXISTS rank")# products 테이블 생성cursor.execute("""CREATE TABLE IF NOT ..
ERD 함수 생성def extract_id(url): """ 주어진 URL에서 ID를 추출하는 함수. 'brands/{id}' 또는 'products/{id}' 경로가 있는 URL을 처리. Parameters: url (str): URL Returns: str: ID 또는 None (ID가 없는 경우) """ match = re.search(r'(?:brands|products)/(\d+)', url) if match: return match.group(1) # ID 반환 return None # ID가 없는 경우 None 반환 url을 가져오면 brand, products일 경우 https://ww..
1. 프로젝트 계획@cosme에 있는 한국 화장품 브랜드 랭킹 데이터베이스 구축주기적(매주)으로 크롤링 후 데이터베이스 적재 2. 기술 스택pythonrequestsBeautifulSoupSQLite 3. 수집 플랫폼 韓国コスメのおすすめ商品・人気ランキング|美容・化粧品情報はアットコスメ www.cosme.net 4. ERD 구상
sqlite3sqlite3는 SQLite 데이터 베이스를 사용하는데 필요한 인터페이스 파이썬 표준 라이브러리파이썬 설치 시 SQLite가 함께 자동으로 설치됨SQLite는 주로 개발용이나 소규모 프로젝트에서 사용하는 파일 기반의 가벼운 데이터베이스개발 시에는 SQLite를 사용하여 빠르게 개발하고 실제 운영 시스템에서는 좀 더 규모 있는 데이터베이스를 사용하는 것이 일반적 데이터 베이스 생성import sqlite3# 버젼 확인print(sqlite3.version)# 2.6.0print(sqlite3.sqlite_version)# 3.40.1# 데이터 베이스 만들기conn = sqlite3.connect('test1.db')# 커서 생성c = conn.cursor()# 쿼리문 작성query = '''C..
main.pyimport loggingimport platform, psutilimport osfrom bs4 import BeautifulSoupimport requests# 로거 생성logger = logging.getLogger()# 로그의 출력 기준 설정logger.setLevel(logging.INFO)# log 형식 지정formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')# log 출력stream_handler = logging.StreamHandler()stream_handler.setFormatter(formatter)logger.addHandler(stream_handler)# log 파일..
스레드란?스레드란 프로세스 내부에 있는 CPU 수행 단위프로세스는 운영체제로부터 자원을 할당해 실행되는 작업의 단위ex) 크롬 브라우저 두개 실행하면 두개의 프로세스 실행 threadingthreading은 스레드를 이용하여 한 프로세스에서 2가지 이사으이 일을 동시에 실행할 수 있게 하는 표준 모듈파이썬은 기본적으로 싱글 스레드에서 순차적으로 동작함병렬 처리를 위해서는 별도 작업이 필요함활용 분야대용량 데이터의 처리시간을 줄이기 위해 데이터를 분할하여 병렬로 처리애플리케이션에서 다중 네트워크 통신을 할 때여러 클라이언트의 요청을 동시에 처리하는 서버를 개발할 때from threading import Threadimport time# 0부터 10,000,000 까지의 합을 구하는 프로그램def work(..
시스템 정보 확인platform실행하고자하는 프로그램이 시스템 요구사항을 만족하는지 사양 정보를 확인할 때 사용하는 모듈 운영 체제 확인def printOsInfo(): print('OS :\t', platform.system()) print('OS Version :\t', platform.version()) printOsInfo() OS : WindowsOS Version : 10.0.19045 CPU / 메모리 확인# 튜플 객체형으로 확인info = platform.uname()# CPUinfo.processor# 'Intel64 Family 6 Model 94 Stepp..
비지도학습레이블이 달린 데이터를 이용해 모델을 학습하는 과정 없이 데이터로부터 의미를 이끌어내는 통계적 기법 목적클러스터링 : 레이블이 정해진 응답변수가 없는 상태에서 예측 규칙을 만드는 데 사용차원 줄이기 : 탐색적 데이터 분석 가능, 데이터의 변수들을 관리할 수 있을 만한 수준으로 하는 것 PCA(주성분 분석)PCA는 범주형 데이터에 사용할 수 없지만 그래도 어느 정도 관련 있는 기술은 대응분석이다.이 분석의 목적은 범주간 혹은 범주형 피처 간의 연관성을 인식하는 것이다. 대응분석과 주성분분석은 주로 차원 스케일링을 위한 행렬 대수라는 기본 원리에 공통점이 있다. 대응분석은 주로 저차원 범주형 데이터의 그래프 분석에 이용되며, 빅데이터 준비 단계에서 차원 축소를 위해 PCA를 사용하는 것과는 다른 방..
Python sql alchemyimport pandas as pdfrom sqlalchemy import create_engine# 데이터베이스 접속 정보DATABASE_TYPE = 'mysql'DBAPI = 'pymysql'HOST = 'localhost' USER = 'xxxx'PASSWORD = 'xxxx' # 본인 mysql 의 데이터베이스 비밀번호DATABASE = 'xxxx'PORT = '3306'# 데이터베이스 URI 설정DATABASE_URI = f'{DATABASE_TYPE}+{DBAPI}://{USER}:{PASSWORD}@{HOST}:{PORT}/{DATABASE}'engine = create_engine(DATABASE_URI)# Connection 객체를 사용하여 쿼리 실행qu..
