데이터 분석 5

Matrix Factorization 알고리즘을 사용한 상품 추천

In [1]: from IPython.core.display import display, HTML display(HTML("")) Matrix Factorization을 통한 상품 추천¶ 1. 개요¶목적 상품 구매 데이터 탐색 상품 추천 모델을 만들어 고객 만족도 증대 및 매출 증대 작업 기간 2020.12.15. ~ 2020.12.29. 데이터 출처 쇼핑몰 주문 데이터 참고 Collaborative Filtering for Implicit Feedback Datasets https://yeomko.tistory.com/5 https://velog.io/@vvakki_/series/Recommendation-System https://medium.com/code-states/%EC%B6%94%EC%B2%..

데이터 분석 2021.01.13

[kaggle]유튜브 인기 동영상 데이터 분석(파이썬)

In [61]: #티스토리 업로드를 위하여 화면 크기 조절 from IPython.core.display import display, HTML display(HTML("")) 유튜브 인기 동영상 데이터 분석¶ Data Description(kaggle)¶https://www.kaggle.com/datasnaek/youtube-new by byeongjoon Context¶YouTube (the world-famous video sharing website) maintains a list of the top trending videos on the platform. According to Variety magazine, “To determine the year’s top-trending videos, Yo..

데이터 분석 2020.02.26

카톡 분석 : 파이썬

재미를 목적으로 만든 카카오톡 대화 분석기입니다. 우리 단톡방은 언제 말이 많았고, 누가 어떤 말을 많이 사용하는지 알 수 있었네요.(개인신상과 관련된 부분은 가렸습니다.) 파이썬+주피터를 사용했습니다. 코드카카오톡의 대화내용 내보내기 기능을 이용하여 추출한 csv파일을 이용했습니다.#!/usr/bin/env python # coding: utf-8 # # 카카오톡 대화 분석기 # # In[ ]: import pandas as pd import numpy as np import matplotlib.pyplot as plt get_ipython().run_line_magic('matplotlib', 'inline') import locale locale.setlocale(locale.LC_ALL, 'ko_..

데이터 분석 2019.11.28

알바몬 분석: 알바몬 경기의 공고수는 몇개나 될까

최근 알바를 구하기 위해, 알바몬을 보다가 궁금한 점이 생겼다. 지역별로 아르바이트를 구하는 수요가 얼마나 될까. 그래서 알바몬 채용정보의 전체 알바정보 카테고리의 데이터를 수집해 살펴보았다. 최근 1달 7월 17일 ~ 8월 17일에 해당하는 데이터 157,084건을 수집했고, 수집한 시점은 8월 17일이다. 수집한 데이터는 몇 개의 전처리 과정을 거쳐 아래와 같은 형태로 만들었다. 분석을 시작한 이유인, 지역별 공고수를 살펴보았다. 수집한 데이터에서, 서울과 경기 지역에 해당하는 공고수가 압도적으로 많은 것을 확인할 수 있었다. 부산의 공고수가 많지 않은 점이 예상 밖이다. 조금 더 자세히 살펴보자. 세부 지역별로 248개의 항목이 있어서, 상위 30개 지역을 살펴보았다. 알바 구인 게시물이 가장 많은..

데이터 분석 2019.08.18

공공데이터 활용 - 교통사고 통계 리포트

교통사고 데이터를 활용하여 빠르게 현황을 파악하는 리포팅을 해보겠습니다. 사용한 데이터는 도로교통공단에서 관리하는 2018년 교통사고 통계 데이터입니다. 2018년 교통사고 전체 평균 2018년 전체의 평균 교통사고 발생건수는 위와 같습니다. 평균적으로, 발생건수는 약 79건, 사망 1명, 부상자수 117명, 중상 27건, 경상 83건, 부상신고 8건입니다. 주목할만한 점으로 3가지가 있습니다. 1) 평균부상자수는 평균발생건수보다 높은 것 2) 경상은 중상보다 약 3배 많은것 3) 부상신고는 발생건수의 약 10% 정도인 것 월별 그룹화를 하여 보다 자세하게 월별로 데이터를 살펴보겠습니다. 6가지 항목 중 부상신고를 제외한 모든 항목에서, 10월은 가장 많은 비중을 차지합니다. 부상신고 항목에서는 8월이 ..

데이터 분석 2019.07.18