[파이썬]웹데이터 수집(requests, jupyternotebook)

파이썬

박범준2 2019. 7. 2. 00:47

파이썬을 사용해 웹에 있는 데이터를 수집해보겠습니다.

거창하게 문법을 따지고 효율을 따지기 보다는, 간단하고 필요한 과정만 담겠습니다.

데이터를 수집할 페이지는 위키백과의 메인페이지입니다.

아래 과정에서 jupyternotebook을 사용했지만 필수가 아닙니다.

파이썬의 기본 idle로 해도 전혀 문제가 없으니, jupyternotebook이 뭔지 모르는 분들, jupyternotebook을 쓸 필요가 없는 분들은 코드만 확인하시면 됩니다.

먼저, 분석에 사용할 모듈인 requests를 설치하겠습니다.

cmd를 실행하시고

pip install requests

라고 입력하시고 엔터치시면 됩니다.

엔터를 치면

이것과 비슷한 화면이 나올겁니다. 그러면 설치가 완료된 것 입니다.

이제 준비가 끝났으니 아래의 코드를 입력하시면 됩니다.

위의 과정이 전부입니다.

2번째 줄의 url에는 해당 사이트의 링크를 복사 붙여넣기 하시면 됩니다.

######코드######

import requests #데이터 수집을 위해 사용하는 모듈

url = "https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EB%8C%80%EB%AC%B8"
#데이터를 수집할 웹사이트의 주소를 url이라는 변수에 저장

res = requests.get(url) #requests모듈의 .get() 이라는 기능을 활용하여 url 페이지의 데이터를 수집하고, res라는 변수에 저장

res.text #res에 저장한 데이터에서 text 부분을 불러와 아래에 출력

단 4줄이면 원하는 페이지의 데이터를 불러올 수 있습니다.

물론 당장 활용할 수 있는 상태의 데이터는 아니지만, 코드를 조금만 더 추가하면, 활용할 수 있는 데이터로 만들 수 있습니다.

그러니 너무 웹사이트 데이터 수집하는 것을 너무 어렵게 생각하지마시고, 원하는 url을 넣어보시면서 위의 코드를 실행해보시면 됩니다.

다음 포스팅은 불러온 데이터를, 실제 활용할 수 있도록 가공하는 내용입니다.

파이썬 스타일 가이드 (0)	2020.02.24
주피터 노트북 단축키 for mac (0)	2019.11.24
[파이썬]공공데이터포털 open API 지하철정보 활용하기(인증키발급) (0)	2019.07.14
python tutorial 한글 (0)	2019.07.06
파이썬 설치하는 법 (0)	2019.07.04

관심사와 관련된 여러가지를 다룹니다.

카카오웹툰, Review, PANDAS, 웹툰크롤링, 파이썬, 데이터, 손무, 마케팅, t검정, 업무자동화, 분석, jupyternotebook, Python, 공공데이터, 크롤링, 공공데이터포털, 요약, SQL, 주피터, 데이터분석,

박범준의 일상로그