网页爬虫小笔记 - 代码天地

网页爬虫小笔记

编程语言 2019-01-29 02:01:32 阅读次数: 0

# -*- coding: UTF-8 -*-

import requests
from lxml import etree

import sys



def getOnePage(n):
    url = f'https://maoyan.com/board/6?offset={n}'

    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
    r = requests.get(url, headers=header)

    #print(r)
    return r.text
#getOnePage(10)

def parse(text):
    html = etree.HTML(text)
    names = html.xpath('//div[@class="movie-item-info"]/p[@class="name"]/a/@title')
    print(names)


t1 = getOnePage(20)
parse(t1)

爬取猫眼电影的名称，开始的时候总是报错，后来发现要把第一个函数里的print 改成 return才行。

其中主要是应用了xpath的语法和 requests 获取网页内容，header 主要是模拟浏览器访问，避免无法抓取；不过那个r.text还是感觉怪怪的，可能了解更多后就熟悉了吧。

猜你喜欢

转载自blog.csdn.net/coolsen133/article/details/86678527

网页爬虫小笔记

【爬虫笔记】使用Selenium打开网页

Python爬虫学习笔记（一）————网页基础

微信网页版登录爬虫小案例

大学生的小乐趣：python网页爬虫

[笔记]python爬虫学习笔记（一）——网页的获取和打印

python学习笔记——爬虫中提取网页中的信息

爬虫学习笔记（1）-- 利用Python从网页抓取数据

Python开发笔记之二——Python网页爬虫与画图

python爬虫笔记（五）——动态网页处理（下篇）

Pyhon网络爬虫学习笔记—抓取本地网页（一）

Python爬虫学习笔记一：简单网页图片抓取

python网络爬虫学习笔记（一）：网页基础

python爬虫学习笔记（一）-- beautifulsoup 解析网页文件下载网页图片

python学习笔记之网络爬虫(八) 静态网页和动态网页爬取(1)静态网页爬取

（爬虫学习笔记2）网页基础（网页的组成，网页的结构，节点树及节点间的关系，选择器）

网页爬虫

python基于正则爬虫小笔记

Python网络爬虫技巧小总结，静态、动态网页轻松爬取数据

小代码，大用途，一个遍历ip地址的python网页爬虫

宝宝小爬虫Selenium自动获取网页cookie+Curl数据查询

【爬虫】每天定时爬取网页小故事并发送至指定邮箱

2-3-1 网页爬虫所需的 HTML 基础（版本：py3）——学习笔记

Python爬虫学习笔记二：百度贴吧网页图片抓取

学习笔记(02):21天搞定分布式Python网络爬虫-用Chrome分析网页

（爬虫学习笔记1）网页请求响应（响应状态码，响应头，响应体）

【笔记】Python3｜爬虫处理网页数据异步加载问题（结合Selenium完成）

萌新小编用Python做网页爬虫！这个一看就像个老司机做的！

Python爬虫小程序，爬取百度贴吧网页文件，新手练手的好案例

爬虫课程：爬虫基础及静态网页爬虫

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)