爬虫技巧 --图片文字混采，图片位置替换为 url 字符串 - 代码天地

爬虫技巧 --图片文字混采，图片位置替换为 url 字符串

其他 2020-04-01 21:10:17 阅读次数: 0

# -*- coding: utf-8 -*-

import pprint
import requests as req
import re
from bs4 import BeautifulSoup

url = "https://www.taoguba.com.cn/Article/2336826/1"
content = req.get(url).text
s_html = re.findall(r"<!-- 主贴内容开始 -->(.*?)<!-- 主贴内容结束 -->", content, re.S | re.M)[0]
soup = BeautifulSoup(s_html, 'lxml')
imgs = soup.find_all(attrs={'data-type': 'contentImage'})
urls = [img['data-original'] for img in imgs]
s_imgs = re.findall(r"<img.*?/>", s_html)   # 非贪婪匹配
match_info = dict(zip(s_imgs, urls))

for s_img in s_imgs:
    s_html = s_html.replace(s_img, match_info.get(s_img))

soup = BeautifulSoup(s_html, 'lxml')
text = soup.div.text.strip()
print(pprint.pformat(text))

在这里插入图片描述
更新时间： 2019-12-27

发布了291 篇原创文章 · 获赞 104 · 访问量 41万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/Enjolras_fuu/article/details/103732643

爬虫技巧 --图片文字混采，图片位置替换为 url 字符串

php匹配字符串URL并替换为超链接

爬虫url去重策略&&字符串编码

vim字符串替换及小技巧

mysql替换字符串技巧

python 爬虫时，从字符串中插入字符串的方法（如在url中添加字段）

URL查询字符串

识别字符串中的URL链接排除图片地址

爬虫&&根据url下载图片

将url编码数据转换为简单字符串

字符串包含url匹配并替换成a标签超链接

php 正则表达式替换字符串URL链接为a标签超链接

awk中字符串转换为数字的技巧

JavaScript 字符串技巧(反转、分割、替换...)

url中含有中文字符串的处理方式

Java通过图片url地址获取图片base64位字符串的两种方式 Java通过图片url地址获取图片base64位字符串的两种方式

Java通过图片url地址获取图片base64位字符串的两种方式

解析URL查询字符串

javascript url 字符串编码加密

【hive】解析url格式字符串

url字符串编码解码的方法

js获取URL查询字符串

URL地址中的字符串转换

python字符串与url编码的转换

获取url "?" 后面的字符串

url 字符串解析为 Object

js的URL字符串编码/解码

PHP对URL进行字符串编码

javaWeb 对字符串进行URL编码

字符串元素转 Blob URL

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

面试爱奇艺，竟然挂在第5轮……

scala方法和函数的区别

NYIST--2018大一新生第一次周赛题解

java如何通过client客戶端http实现get/ post请求传递json参数到restful 服务接口

RabbitMQ 队列类型

2018-2019-1 20165311 20165329 20165334 实验一开发环境的熟悉

iOS打包工具配置相应的文件路径一键打包到指定位置

【每日一题】替换空格

【转载】FPGA配置方式

旅行青蛙

每日归档

更多

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)