본문 바로가기
『 Python 』/Python

파이썬 웹 크롤링 [Web Crawling] - 1 -

by Play IT 2019. 10. 1.
반응형

1. 웹 문서 전체 가져오기

 

2. 타이틀 가져오기

태그로 구성된 트리에서 title 태그만 출력합니다

 

메타 데이터만 가져오기

3. 모든 메타 데이터의 내용 가져오기

웹문서에서 메타 데이터만 찾아서 content 속성값을 가져옵니다.

4. 원하는 태그의 내용 가져오기

find를 사용하면 원하는 태그의 정보만 가져올 수 있습니다.

 

예를 들어 www.python.org/about 에서 다음 태그의 content 속성값을 가져오려면..

<meta content="The official home of the Python Programming Language" name="description"/>

우선 웹문서에 있는  meta 태그 중 가져올 태그를 name 속성 값이 description인 것으로 한정합니다.

 

meta 태그의 content 내용을 가져옵니다.

모든 링크의 텍스트와 주소 가져오기

반응형

댓글