본문 바로가기
코딩테스트/Python

간단한 파이썬 웹 크롤러 구현

by _Bree_ 2022. 7. 25.
반응형


간단한 파이썬 웹 크롤러 구현

: 지금은 간단한 hTML 태그를 이용하여 웹사이트 에서 크롤링
이것은 매우 간단 -> 응용하여 고급 크롤링 프로그램을 만드는 것은 더 공부해야지!!

ex) 네이버 웹 사이트 뉴스 기사 가져온다고 할 때
웹사이트 접속 --> html 데이터 가져오기 --> parsing(분류/분리)

뉴스 , 날씨, 증권,,,
수시로 데이터가 바뀌니까 특정 사이트의 내용을 계속 가져와야하기 때문에 주기적으로 호출할 때 크롤링이 필요하다!




코드 설명

from urllib.request import urlopen
#웹페이지 URL 을 다룰 때 사용하는 Python 라이브러리

from bs4 import BeautifulSoup
#웹 페이지의 정보를 쉽게 스크랩할 수 있도록 기능을 제공하는 라이브러리


html = urlopen("http://tcpschool.com/webbasic/works")

우리가 보고 있는 웹사이트는 html 태그들이 모여있는 집합체이다. 따라서 html 변수 안에 urlopen()을 통해 태그들을 저장한다

bsObject = BeautifulSoup(html, "html.parser")

html 변수 안에 있는 태그들을 파싱한다.

for link in bsObject.find_all('a'):
print(link.text.strip(), link.get('href'))

생성했던 bsObject 에서 a(태그)를 찾는다
그리고 텍스트를 프린트하고 링크명을 출력한다.



!! Error
https 의 보안 상 이유인진 모르겠으나 크롤링이 안되는 문제 발생 -> 추후 해결예정

현재는 http형식을 사용하는 사이트에서 크롤링을 함


전체 코드

from urllib.request import urlopen
from bs4 import BeautifulSoup


bsObject = BeautifulSoup(html, "html.parser")

for link in bsObject.find_all('a'):
    print(link.text.strip(), link.get('href'))



크롤링 결과

크롤링 결과

반응형

'코딩테스트 > Python' 카테고리의 다른 글

[데이콘] 기초 파이썬 lv.0  (0) 2022.07.26

댓글