python爬虫(六、正则提取数据) - 代码天地

python爬虫(六、正则提取数据)

其他 2020-06-22 11:20:34 阅读次数: 0

$首先抓取豆瓣top250的网页$

首先看主函数

import urllib.request,parser
from bs4 import BeautifulSoup
import re

findlink = re.compile(r'<a href="(.*?)">')
findimage = re.compile(r'<img.*src="(.*?)">',re.S)
findjudge = re.compile(r'<span>([\d]*人评价)</span>')
#以上三个正则表达式是为了下面方便抓取内容
#分别抓取a标签超链接,img标签,span标签多少人评价
begin_url="https://movie.douban.com/top250?start="	#抓取的网址
getdata(begin_url)	#获取数据

获取数据的函数

def getdata(baseurl):
    for i in range(0,1):
        url = baseurl + str(i*25)	#观察豆瓣top250的网页,网页后面的数字代表是哪一张网页
        html = askurl(url)	#askurl()是获取某个网页内容的自定义函数
        soup = BeautifulSoup(html,'html.parser')	#使用bs4解析成树的结构图
        for item in soup.find_all('div',class_='item'):	#遍历div标签且class='item'
            #print(item) item包含了我们想要的全部信息
            item=str(item)	#转化为string类型,因为下面要用正则表达式
            link = re.findall(findjudge,item)	$findall(s1,s2),s1是模式串,s2是匹配串
            print(link)

抓取网页函数

def askurl(url):
    head={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36"}	#伪装ip
    response = urllib.request.Request(url=url,headers=head);	#封装request对象
    content = urllib.request.urlopen(response)	#打开网页内容
    html = content.read().decode('utf-8')	#解码
    return html	返回

猜你喜欢

转载自blog.csdn.net/jziwjxjd/article/details/106807910

python爬虫(六、正则提取数据)

Python爬虫演绎正则提取数据

爬虫（六）数据提取

python爬虫基础（3：数据提取之正则）

[Python爬虫] 六、数据提取之XPath与lxml类库

Python——爬虫——数据提取

【Python】爬虫数据提取

爬虫-5-数据提取-正则，xpath

python_爬虫_数据提取

Python爬虫之数据的提取和清洗的正则应用规则

Python爬虫教程-19-数据提取-正则表达式(re)

Python爬虫之（七）数据提取-正则表达式

python爬虫知识----数据提取----Xpath和lxml、BeautifulScoup4、正则（二）

Python爬虫10-页面解析数据提取思路方法与简单正则应用

Python爬虫-页面解析数据提取思路方法与简单正则应用

Python爬虫教程-19-数据提取-正则表达式 re

[Python爬虫] 五、数据提取之正则表达式re模块

python爬虫学习笔记(七)-数据提取之正则表达式

python爬虫-数据解析（正则）

python正则提取mysql中文数据

爬虫数据提取——正则表达式

爬虫-4-数据提取-json，jsonpath，正则

【Python3爬虫(六)】【数据解析】【正则表达式(二)】

python爬虫-数据提取之JSON

Python爬虫之（九）数据提取-XPath

python爬虫--04 数据标记和提取

三 Python爬虫之数据提取

Python爬虫学习（六）Re正则表示式库的入门

Jmeter正则提取数据

Python爬虫数据提取方式——-selenium爬虫框架中的数据提取方式

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

第五讲：AbstractBean以及Ioc常见注解使用和自动装配

python-re模块学习-正则表达式

黑客攻击常用手段

正则表达式的规则

windwos::mutex

Spring中日志的使用（log4j）

Bootstra5 按钮处理

JVM内存结构-这一篇全部了解

Android的低级错误

Oracle中Cursor, A表a1字段值复制到B表b1字段

每日归档

更多

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)