간단한 파이썬 웹 크롤러 구현
: 지금은 간단한 hTML 태그를 이용하여 웹사이트 에서 크롤링
이것은 매우 간단 -> 응용하여 고급 크롤링 프로그램을 만드는 것은 더 공부해야지!!
ex) 네이버 웹 사이트 뉴스 기사 가져온다고 할 때
웹사이트 접속 --> html 데이터 가져오기 --> parsing(분류/분리)
뉴스 , 날씨, 증권,,,
수시로 데이터가 바뀌니까 특정 사이트의 내용을 계속 가져와야하기 때문에 주기적으로 호출할 때 크롤링이 필요하다!
코드 설명
from urllib.request import urlopen
#웹페이지 URL 을 다룰 때 사용하는 Python 라이브러리
from bs4 import BeautifulSoup
#웹 페이지의 정보를 쉽게 스크랩할 수 있도록 기능을 제공하는 라이브러리
html = urlopen("http://tcpschool.com/webbasic/works")
우리가 보고 있는 웹사이트는 html 태그들이 모여있는 집합체이다. 따라서 html 변수 안에 urlopen()을 통해 태그들을 저장한다
bsObject = BeautifulSoup(html, "html.parser")
html 변수 안에 있는 태그들을 파싱한다.
for link in bsObject.find_all('a'):
print(link.text.strip(), link.get('href'))
생성했던 bsObject 에서 a(태그)를 찾는다
그리고 텍스트를 프린트하고 링크명을 출력한다.
!! Error
https 의 보안 상 이유인진 모르겠으나 크롤링이 안되는 문제 발생 -> 추후 해결예정
현재는 http형식을 사용하는 사이트에서 크롤링을 함
전체 코드
크롤링 결과
'코딩테스트 > Python' 카테고리의 다른 글
[데이콘] 기초 파이썬 lv.0 (0) | 2022.07.26 |
---|
댓글