간단한 파이썬 웹 크롤러 구현

간단한 파이썬 웹 크롤러 구현

: 지금은 간단한 hTML 태그를 이용하여 웹사이트 에서 크롤링
이것은 매우 간단 -> 응용하여 고급 크롤링 프로그램을 만드는 것은 더 공부해야지!!

ex) 네이버 웹 사이트 뉴스 기사 가져온다고 할 때
웹사이트 접속 --> html 데이터 가져오기 --> parsing(분류/분리)

뉴스 , 날씨, 증권,,,
수시로 데이터가 바뀌니까 특정 사이트의 내용을 계속 가져와야하기 때문에 주기적으로 호출할 때 크롤링이 필요하다!

코드 설명

from urllib.request import urlopen
#웹페이지 URL 을 다룰 때 사용하는 Python 라이브러리

from bs4 import BeautifulSoup
#웹 페이지의 정보를 쉽게 스크랩할 수 있도록 기능을 제공하는 라이브러리

html = urlopen("http://tcpschool.com/webbasic/works")

우리가 보고 있는 웹사이트는 html 태그들이 모여있는 집합체이다. 따라서 html 변수 안에 urlopen()을 통해 태그들을 저장한다

bsObject = BeautifulSoup(html, "html.parser")

html 변수 안에 있는 태그들을 파싱한다.

for link in bsObject.find_all('a'):
print(link.text.strip(), link.get('href'))

생성했던 bsObject 에서 a(태그)를 찾는다
그리고 텍스트를 프린트하고 링크명을 출력한다.

!! Error
https 의 보안 상 이유인진 모르겠으나 크롤링이 안되는 문제 발생 -> 추후 해결예정

현재는 http형식을 사용하는 사이트에서 크롤링을 함

전체 코드

from urllib.request import urlopen

from bs4 import BeautifulSoup

html = urlopen("http://tcpschool.com/webbasic/works")

bsObject = BeautifulSoup(html, "html.parser")

for link in bsObject.find_all('a'):

print(link.text.strip(), link.get('href'))

크롤링 결과

'코딩테스트 > Python' 카테고리의 다른 글

[데이콘] 기초 파이썬 lv.0 (0)	2022.07.26

Bree's 빅데이터 연구소

간단한 파이썬 웹 크롤러 구현

'코딩테스트 > Python' 카테고리의 다른 글

댓글

티스토리툴바

간단한 파이썬 웹 크롤러 구현

'코딩테스트 > Python' 카테고리의 다른 글

관련글

댓글

티스토리툴바