웹툰크롤링 3

python 웹툰 크롤링 시리즈3: 카카오페이지

웹툰 크롤링 시리즈 마지막 편은 카카오페이지이다 카카페의 전체 작품의 시리즈ID, 작품명, 장르, 작가, 연령가, 조회수, 마지막연재일, 연재상태 정보를 가져오는 코드이다 카카페는 GraphQL을 통해 데이터를 요청해야해서 코드가 길다 import openpyxl import requests from tqdm import tqdm import time ## 전체작품 url = 'https://page.kakao.com/graphql' query = '''query staticLandingGenreSection($sectionId: ID!, $param: StaticLandingGenreParamInput!) { staticLandingGenreSection(sectionId: $sectionId, par..

파이썬 2023.03.19

python 웹툰 크롤링 시리즈2: 카카오웹툰

카카오웹툰에 현재 서비스 중인 연재작품과 완결작품 정보를 수집하는 코드이다 시리즈ID, 작품명, 저자, 출판사, 성연작품여부, 조회수, 좋아요수, 연재상태를 가져온다 import json import openpyxl import requests from tqdm import tqdm import time from bs4 import BeautifulSoup def epi_info(series_id, state): epi_url = 'https://webtoon.kakao.com/content/text/' + str(series_id) epi_res = requests.get(epi_url) soup = BeautifulSoup(epi_res.content, 'html.parser') result = so..

파이썬 2023.03.18

python 웹툰 크롤링 시리즈1: 네이버웹툰

네이버에 현재 서비스 중인 모든 웹툰을 크롤링해서 결과를 엑셀 파일로 저장하는 코드이다 가져오는 정보는, 시리즈ID, 작품명, 저자, 성인작품여부, 별점, 연재요일 등이 있다 import openpyxl import requests from tqdm import tqdm import time def series_info(series_id): '''시리즈ID를 입력받아, 장르와 관심수를 반환한다''' series_info_url = 'https://comic.naver.com/api/article/list/info?titleId=' + str(series_id) series_res = requests.get(series_info_url) series_info = series_res.json() try: f..

파이썬 2023.03.17