# -*- coding: UTF-8 -*-
import requests
from lxml import etree
import sys
def getOnePage(n):
url = f'https://maoyan.com/board/6?offset={n}'
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
r = requests.get(url, headers=header)
#print(r)
return r.text
#getOnePage(10)
def parse(text):
html = etree.HTML(text)
names = html.xpath('//div[@class="movie-item-info"]/p[@class="name"]/a/@title')
print(names)
t1 = getOnePage(20)
parse(t1)
爬取猫眼电影的名称,开始的时候总是报错,后来发现要把第一个函数里的print 改成 return才行。
其中主要是应用了xpath的语法和 requests 获取网页内容,header 主要是 模拟浏览器访问,避免无法抓取;不过那个r.text还是感觉怪怪的,可能了解更多后就熟悉了吧。