python爬虫入门示例

Python 是一种非常流行的编程语言,常用于编写爬虫程序来从网页上抓取数据。下面是一个简单的 Python 爬虫示例,它使用了 requests 库来发送 HTTP 请求,以及 BeautifulSoup 库来解析 HTML 内容。

首先,你需要安装这两个库,如果你还没有安装的话,可以通过以下命令安装:

pip install requests beautifulsoup4

然后,你可以编写如下的 Python 脚本:

import requests
from bs4 import BeautifulSoup

# 目标网页的 URL
url = 'http://example.com'

# 发送 GET 请求
response = requests.get(url)

# 确保请求成功
if response.status_code == 200:
    # 使用 BeautifulSoup 解析 HTML 内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 假设我们想抓取所有的标题
    titles = soup.find_all('h1')
    
    # 打印出所有的标题
    for title in titles:
        print(title.get_text())
else:
    print('Failed to retrieve the webpage')

这个示例程序做了以下几件事:

  1. 导入了 requestsBeautifulSoup 库。
  2. 定义了要爬取的网页 URL。
  3. 使用 requests.get 方法发送了一个 GET 请求到该 URL。
  4. 检查了 HTTP 响应状态码,确保请求成功。
  5. 使用 BeautifulSoup 解析了响应内容(即 HTML)。
  6. 使用 find_all 方法查找了所有的 <h1> 标签,这通常用于标题。
  7. 遍历了找到的所有标题,并打印了它们的文本内容。