python爬虫入门示例

Python 是一种非常流行的编程语言，常用于编写爬虫程序来从网页上抓取数据。下面是一个简单的 Python 爬虫示例，它使用了 requests 库来发送 HTTP 请求，以及 BeautifulSoup 库来解析 HTML 内容。

首先，你需要安装这两个库，如果你还没有安装的话，可以通过以下命令安装：

pip install requests beautifulsoup4

然后，你可以编写如下的 Python 脚本：

import requests
from bs4 import BeautifulSoup

# 目标网页的 URL
url = 'http://example.com'

# 发送 GET 请求
response = requests.get(url)

# 确保请求成功
if response.status_code == 200:
    # 使用 BeautifulSoup 解析 HTML 内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 假设我们想抓取所有的标题
    titles = soup.find_all('h1')
    
    # 打印出所有的标题
    for title in titles:
        print(title.get_text())
else:
    print('Failed to retrieve the webpage')

这个示例程序做了以下几件事：

导入了 requests 和 BeautifulSoup 库。
定义了要爬取的网页 URL。
使用 requests.get 方法发送了一个 GET 请求到该 URL。
检查了 HTTP 响应状态码，确保请求成功。
使用 BeautifulSoup 解析了响应内容（即 HTML）。
使用 find_all 方法查找了所有的 <h1> 标签，这通常用于标题。
遍历了找到的所有标题，并打印了它们的文本内容。

猜你喜欢

目录

热门文章