Python/웹 스크래핑 및 웹 자동화
BeautifulSoup 사용법
P_eli
2024. 3. 1. 11:21
728x90
반응형
BeautifulSoup은 Python의 라이브러리로, HTML 및 XML 파일에서 데이터를 추출하기 위한 도구입니다. 주로 웹 스크래핑에 사용되며, 웹 페이지에서 원하는 정보를 추출할 때 유용합니다. BeautifulSoup은 파싱(parsing)을 통해 HTML 문서의 요소를 구문 분석하고 탐색할 수 있습니다. 아래는 간단한 사용법에 대한 설명입니다.
1. 설치: 먼저 BeautifulSoup을 설치해야 합니다. 일반적으로 pip를 사용하여 설치할 수 있습니다.
pip install beautifulsoup4
2. 모듈 import: BeautifulSoup을 사용하기 위해 모듈을 import합니다.
from bs4 import BeautifulSoup
3. HTML 파싱: BeautifulSoup을 사용하여 HTML을 파싱합니다. 이때, HTML 파일 또는 HTML 코드를 BeautifulSoup 생성자에 전달합니다.
# HTML 코드를 파싱하는 예제
html_doc = """
<html><head><title>웹 페이지 제목</title></head>
<body><p>웹 페이지 본문</p></body></html>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
4. 요소 탐색: 파싱된 HTML 문서에서 원하는 요소를 탐색할 수 있습니다. BeautifulSoup은 여러 메서드를 제공하여 요소를 검색할 수 있습니다.
- .find(): 첫 번째로 일치하는 요소를 반환합니다.
- .find_all(): 모든 일치하는 요소를 반환합니다.
- 다양한 CSS 선택자를 사용하여 요소를 선택할 수 있습니다.
# 예제: 타이틀 요소와 본문 요소 가져오기
title = soup.find('title')
body = soup.find('body')
5. 요소 내용 추출: 요소의 텍스트 내용을 추출하려면 .text 속성을 사용합니다.
# 예제: 타이틀과 본문의 내용 출력
print("타이틀:", title.text)
print("본문:", body.text)
이렇게 BeautifulSoup을 사용하여 HTML 문서를 파싱하고 원하는 데이터를 추출할 수 있습니다. 웹 스크래핑을 할 때는 웹 사이트의 이용 약관을 확인하고 합법적인 방법으로만 데이터를 수집하도록 주의해야 합니다.
728x90
반응형