| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
- 파이썬
- 오블완
- 스파르타
- 실전 데이터 분석 프로젝트
- MySQL
- 티스토리챌린지
- 중회귀모형
- 스파르타 코딩
- 회귀분석
- 프로그래머스
- 파이썬 철저 입문
- 스파르타코딩
- 웹 스크랩핑
- 프로젝트
- TiL
- SQL
- 어쩌다 마케팅
- 미세먼지
- 파이썬 철저입문
- 내일배움카드
- 내일배움캠프
- Cluster
- 내일배움
- 파이썬 머신러닝 완벽가이드
- wil
- 텍스트 분석
- R
- hackerrank
- harkerrank
- 파이썬 머신러닝 완벽 가이드
- Today
- Total
목록Python (70)
OkBublewrap
최근접 이웃 기반 협업 필터링협업 필터링(Collaborative Filtering, CF)이란?사용자들이 아이템과 어떤 상호작용을 했는지에 대한 데이터를 분석하여 추천을 수행하는 방식사용자 간 또는 아이템 간의 유사성을 이용하여 추천하는 방식나와 비슷한 취향을 가진 사용자가 좋아한 아이템은 나도 좋아할 가능성이 높다는 원리 협업 필터링 vs. 콘텐츠 기반 필터링 협업 필터링콘텐츠 기반 필터링추천 방식유사한 사용자 또는 아이템 기반 추천사용자가 선호하는 아이템의 특징에 기반한 추천주요 데이터사용자-아이템 간의 상호작용 데이터(평점, 클릭, 구매 이력 등)아이템 메타데이터(장르, 키워드, 설명 등)사용자 콜드스타트상호작용 이력이 없으면 추천 어려움콜드스타트 문제가 상대적으로 적음아이템 콜드스타트아이템이 충..
환경 설정!pip install -U google-generativeai -U: --upgrade 축약- 이미 설치 되어 있으면, 최신 버젼으로 업그레이드- 설치된 패키지가 없으면 일반적인 설치와 동일하게 동작 google-generativeai: Gemini 생성형 API 라이브러리예시)import google.generativeai as genaigenai.configure(api_key="YOUR_API_KEY")model = genai.GenerativeModel('gemini-pro')response = model.generate_content("질문 또는 프롬프트")print(response.text) 사용가능한 모델 목록# 사용가능한 모델 목록models_nm = genai.list_mod..
RAG(Retrieval-Augmented Gneration)LLM의 한계실시간 검색을 통한 최신 정보 반영LLM은 사전 학습된 데이터만 사용하기 때문에, 학습 이후 등장한 최신 정보나 트렌드를 반영할 수 없지만RAG는 실시간 검색을 통해 최신 정보를 제공할 수 있음Hallucination 문제 완화외부 문서를 검색하여 출처가 명확한 정보를 기반으로 답변을 생성하므로, 신뢰성을 높일 수 있음특정 도메인 정보 활용 가능LLM은 모든 분야의 전문 지식을 완벽히 학습하긴 어려움. 의료, 법률 등 특정 도메인 지식이 필요할 경우, RAG를 통해 특정 데이터베이스나 내부 자료 문서를 검색하여 보다 정확한 답변 제공지속적 모델 업데이트 부담 완화기존 LLM을 최신 정보로 업데이트하려면 다시 학습(Fine-tunin..
Apriori 알고리즘연관규칙의 1세대 알고리즘..?! 1️⃣ 효율적인 연관규칙 탐색 알고리즘이 필요한 이유 아이템 개수가 많을수록 기하급수적으로 증가함 2️⃣ 연관규칙 생성 전략 및 알고리즘 종류모든 가능한 항목집합의 개수(M)를 줄이는 전략 ➡️ AprioriTransaction(N) 개수를 줄이는 전략 ➡️ DHP비교하는 수(W)를 줄이는 전략 ➡️ FP-growth 3️⃣ Apriori 원리빈발항목집합- 최소 지지도 이상의 빈발항목집합을 추출- 지지도를 계산하는 대신, 최소 지지도 이상인 빈발항목집합만 추출하여 연관규칙을 계산Apriori Principle- 첫 번째 원칙: 하나의 항목집합이 빈발하다면, 그 항목집합의 모든 부분집합도 빈발해야 한다.- 두 번째 원칙: 하나의 항목집합이 비빈발하다면..
연관규칙비지도학습: 연관규칙분석, 유통업계에서 사용하는 용어로 장바구니 분석 상품 추천연관 규칙(Association Rule)순차 분석(Sequence Analysis)Collaboratiive FilteringContent-based recommen-dationWho-which modeling 연관 규칙 분석, 순차 분석- 연관 규칙: 동시 구매품목에 관심을 가진다. ➩ 주문번호, 고객ID, 구매상품코드- 순차 분석: 시간의 순서에 따른 규칙에 관심 ➩ Time-stamp, 고객ID, 구매상품코드 연관규칙의 평가할 수 있는 척도평가 척도가 중요한 이유수십, 수백, 수천개의 association rule들이 쏟아지기 때문에 육안으로 일일이 보고 평가하기가 너무 힘들기 때문이다.- (1) 모래사장에서 보..
실습 데이터 ERD+------------------+ +----------------------+ +----------------+| orders | 1 | order_products | N | products ||------------------|------|----------------------|------|----------------|| order_id (PK) | | order_id (PK, FK) | | product_id (PK)|| user_id | | product_id (PK, FK) | | product_name || eval_set ..
Data Handlingread_parquet%%timedf = pd.read_parquet("df_optimized.parquet")CPU times: user 12.4 s, sys: 3.9 s, total: 16.3 sWall time: 14.6 s method chaning# 중간 변수를 활용한 방식grouped = df.groupby("app_name").review_rating.agg(["size", "mean"])reset = grouped.reset_index()sorted_df = reset.sort_values("mean", ascending=False)## method chaningdf.groupby("app_name").review_rating.agg(["size", "mean"])...
병렬 처리와 분산 처리병렬 처리CPU는 여러 개의 코어로 이루어져 있고, 파이썬은 기본적으로 1개 사용여러개를 시키도록 나눠주는 것이 병렬처리 분산처리 vs 병렬처리병렬 처리는 주로 단일 머신 내의 여러 코어나 프로세서를 사용하여 작업을 동시에 수행Mulriprocessing이나 joblib이 흔히 사용sklearn의 njobs가 이를 제어하는 기능분산 처리는 네트워크를 통해 연결된 여러 대의 컴퓨터(노드)가 각각의 작업을 수행하는 것Spark를 포함해 Ray, Dask 등의 라이브러리 사용 병렬 처리 vs Vectorize한 기기의 메모리 안에서 처리가 가능한 규모라면, 연산을 최적하는 것이 일반적으로 더 나음Numpy(Pandas 포함)는 벡터화 연산을 통해 단순 반복작업을 굉장히 빠르게 처리할 수 ..
1. review_text TABLE2025-02-28 12:55:28,417 - ERROR - Error fetching 510549066: HTTPSConnectionPool(host='www.cosme.net', port=443): Read timed out. (read timeout=5) 이전에 진행했던 코드로 에러가 발생했다. 연결하는 시간이 적었던 모양이다.추후에 리뷰가 있는 review_id를 가져와 없는 review_id를 추출해서 리뷰 텍스트를 크롤링 진행 def get_review_id_in(): """기존 적재된 review_id 리스트 가져오기""" conn = sqlite3.connect(DB_NAME) cursor = conn.cursor() cursor.e..
Merge csvfrom glob import globfrom datetime import timedeltafrom tqdm import tqdmimport pandas as pdimport matplotlib.pyplot as pltglob("app_review_data/*.csv")['app_review_data\\FACEBOOK_REVIEWS.csv', 'app_review_data\\FLIPKART_REVIEWS.csv', 'app_review_data\\INSTAGRAM_REVIEWS.csv', 'app_review_data\\SPOTIFY_REVIEWS.csv', 'app_review_data\\TIKTOK_REVIEWS.csv', 'app_review_data\\TWITTER_REVIEWS...
