크롤링 3

python 웹툰 크롤링 시리즈3: 카카오페이지

웹툰 크롤링 시리즈 마지막 편은 카카오페이지이다 카카페의 전체 작품의 시리즈ID, 작품명, 장르, 작가, 연령가, 조회수, 마지막연재일, 연재상태 정보를 가져오는 코드이다 카카페는 GraphQL을 통해 데이터를 요청해야해서 코드가 길다 import openpyxl import requests from tqdm import tqdm import time ## 전체작품 url = 'https://page.kakao.com/graphql' query = '''query staticLandingGenreSection($sectionId: ID!, $param: StaticLandingGenreParamInput!) { staticLandingGenreSection(sectionId: $sectionId, par..

파이썬 2023.03.19

python 웹툰 크롤링 시리즈1: 네이버웹툰

네이버에 현재 서비스 중인 모든 웹툰을 크롤링해서 결과를 엑셀 파일로 저장하는 코드이다 가져오는 정보는, 시리즈ID, 작품명, 저자, 성인작품여부, 별점, 연재요일 등이 있다 import openpyxl import requests from tqdm import tqdm import time def series_info(series_id): '''시리즈ID를 입력받아, 장르와 관심수를 반환한다''' series_info_url = 'https://comic.naver.com/api/article/list/info?titleId=' + str(series_id) series_res = requests.get(series_info_url) series_info = series_res.json() try: f..

파이썬 2023.03.17

[파이썬]웹데이터 수집(requests, jupyternotebook)

파이썬을 사용해 웹에 있는 데이터를 수집해보겠습니다. 거창하게 문법을 따지고 효율을 따지기 보다는, 간단하고 필요한 과정만 담겠습니다. 데이터를 수집할 페이지는 위키백과의 메인페이지입니다. 아래 과정에서 jupyternotebook을 사용했지만 필수가 아닙니다. 파이썬의 기본 idle로 해도 전혀 문제가 없으니, jupyternotebook이 뭔지 모르는 분들, jupyternotebook을 쓸 필요가 없는 분들은 코드만 확인하시면 됩니다. 먼저, 분석에 사용할 모듈인 requests를 설치하겠습니다. cmd를 실행하시고 pip install requests 라고 입력하시고 엔터치시면 됩니다. 엔터를 치면 이것과 비슷한 화면이 나올겁니다. 그러면 설치가 완료된 것 입니다. 이제 준비가 끝났으니 아래의 코..

파이썬 2019.07.02