Python 是一种非常流行的编程语言,常用于编写爬虫程序来从网页上抓取数据。下面是一个简单的 Python 爬虫示例,它使用了 requests
库来发送 HTTP 请求,以及 BeautifulSoup
库来解析 HTML 内容。
首先,你需要安装这两个库,如果你还没有安装的话,可以通过以下命令安装:
pip install requests beautifulsoup4
然后,你可以编写如下的 Python 脚本:
import requests
from bs4 import BeautifulSoup
# 目标网页的 URL
url = 'http://example.com'
# 发送 GET 请求
response = requests.get(url)
# 确保请求成功
if response.status_code == 200:
# 使用 BeautifulSoup 解析 HTML 内容
soup = BeautifulSoup(response.text, 'html.parser')
# 假设我们想抓取所有的标题
titles = soup.find_all('h1')
# 打印出所有的标题
for title in titles:
print(title.get_text())
else:
print('Failed to retrieve the webpage')
这个示例程序做了以下几件事:
- 导入了
requests
和BeautifulSoup
库。 - 定义了要爬取的网页 URL。
- 使用
requests.get
方法发送了一个 GET 请求到该 URL。 - 检查了 HTTP 响应状态码,确保请求成功。
- 使用
BeautifulSoup
解析了响应内容(即 HTML)。 - 使用
find_all
方法查找了所有的<h1>
标签,这通常用于标题。 - 遍历了找到的所有标题,并打印了它们的文本内容。