python爬虫从入门到放弃（二）正则表达式 - 代码天地

python爬虫从入门到放弃（二）正则表达式

编程语言 2019-03-02 09:40:56 阅读次数: 0

a、学习什么是正则表达式并尝试一些正则表达式并进行匹配。

b、结合requests、re两者的内容爬取豆瓣电影 Top 250里的内容

( 要求抓取名次、影片名称、国家、导演等字段。)

1.找到网页并分析网页结构首先进入豆瓣电影Top250这个网页，按下f12打开开发者工具，如下图

在这里插入图片描述

2.用面向对象的方法进行爬取数据先用requests对网页进行请求，获取网页的html结构，在这里，为了防止网页的反爬虫技术，我加了个请求头（记得使用requests库之前先导入，没有的可以在命令行通过pip install requests进行下载）请求头在开发者工具中查看，如下图所示

在这里插入图片描述

在这里插入图片描述

3.如果你有点数据库基础的话，还可以把他们存入数据库，在这里我把这些数据存入MySQL数据库，代码如下，需要自己先建好数据库好表格这是操作数据库的类

猜你喜欢

转载自blog.csdn.net/jiujing_/article/details/88072172

python爬虫从入门到放弃（二）正则表达式

正则表达式从入门到放弃「Java」

爬虫从入门到入狱(1)——正则表达式

Python爬虫入门七之正则表达式

python爬虫入门<七>--正则表达式

爬虫入门_正则表达式

Python爬虫从入门到精通——基本库re的使用：正则表达式

Python 网络爬虫从0到1 （5）：Re（正则表达式）库入门详解

python爬虫（二）----正则表达式

爬虫（二）--正则表达式

Python从入门到入土-正则表达式

Python 爬虫_正则表达式

Python爬虫（正则表达式）

Python爬虫--正则表达式

Python爬虫与正则表达式

python爬虫正则表达式

python爬虫——正则表达式

【python爬虫】正则表达式

Python入门：正则表达式

python入门--正则表达式

Python 正则表达式入门

python正则表达式入门

python正则表达式（二）

python正则表达式（+ {}）（二）

二、python正则表达式

Python爬虫从入门到精通——基本库re的使用：正则表达式【华为云技术分享】

[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例

自学Python爬虫简单入门到进阶（一）：正则表达式+lxml+requests+Beautiful Soup+基础

Python爬虫笔记（二）——多线程爬虫、正则表达式、多进程爬虫

python 爬虫：学爬虫必学的正则表达式

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)