파이썬

[파이썬]웹데이터 수집(requests, jupyternotebook)

박범준2 2019. 7. 2. 00:47
반응형

파이썬을 사용해 웹에 있는 데이터를 수집해보겠습니다.

거창하게 문법을 따지고 효율을 따지기 보다는, 간단하고 필요한 과정만 담겠습니다.

 

데이터를 수집할 페이지는 위키백과의 메인페이지입니다.

아래 과정에서 jupyternotebook을 사용했지만 필수가 아닙니다.

파이썬의 기본 idle로 해도 전혀 문제가 없으니, jupyternotebook이 뭔지 모르는 분들, jupyternotebook을 쓸 필요가 없는 분들은 코드만 확인하시면 됩니다.

 

먼저, 분석에 사용할 모듈인 requests를 설치하겠습니다.

cmd를 실행하시고  

pip install requests

라고 입력하시고 엔터치시면 됩니다.



엔터를 치면

이것과 비슷한 화면이 나올겁니다. 그러면 설치가 완료된 것 입니다.

 

이제 준비가 끝났으니 아래의 코드를 입력하시면 됩니다.

위의 과정이 전부입니다.

2번째 줄의 url에는 해당 사이트의 링크를 복사 붙여넣기 하시면 됩니다.

 

 

######코드######

 import requests #데이터 수집을 위해 사용하는 모듈

 

url = "https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EB%8C%80%EB%AC%B8
#데이터를 수집할 웹사이트의 주소를 url이라는 변수에 저장

res = requests.get(url) #requests모듈의 .get() 이라는 기능을 활용하여 url 페이지의 데이터를 수집하고, res라는 변수에 저장

res.text #res에 저장한 데이터에서 text 부분을 불러와 아래에 출력

 

 

 

단 4줄이면 원하는 페이지의 데이터를 불러올 수 있습니다.

물론 당장 활용할 수 있는 상태의 데이터는 아니지만, 코드를 조금만 더 추가하면, 활용할 수 있는 데이터로 만들 수 있습니다.

그러니 너무 웹사이트 데이터 수집하는 것을 너무 어렵게 생각하지마시고, 원하는 url을 넣어보시면서 위의 코드를 실행해보시면 됩니다.

 

 

다음 포스팅은 불러온 데이터를, 실제 활용할 수 있도록 가공하는 내용입니다.

 

 

 

반응형