爬虫之汽车之家（正则表达式） - 代码天地

爬虫之汽车之家（正则表达式）

其他 2019-07-31 12:54:41 阅读次数: 0

#!/usr/bin/env python
#-*- coding:utf-8 -*-
# requests:用来下载网页源代码的,等同urlopen()
#Beautiful Soup，解析html,替代正则部分re
#Html
#BeautifulSoup().find("a")
import requests
import bs4
from bs4 import BeautifulSoup

#拿到汽车之家的首页源代码
#urlopen(url).read.decode
main_page_content=requests.get("https://www.autohome.com.cn/weifang/").text
#把页面源代码交给bs4解析
main_page=BeautifulSoup(main_page_content,"html.parser")
#可以进行标签的定位
main_div=main_page.find(name="div",attrs={"class":"people-content"})
main_ul=main_div.find(name="ul",attrs={"class":"list-text"})
main_a_lst=main_ul.find_all("a")#这是一个列表，a标签列表
n=1
for a in main_a_lst:
    #从标签中获取一个属性
    one_page_url="https:"+a.get("href")
    print("====>",one_page_url)
    one_page_content=requests.get(one_page_url).text
    one_page_content=one_page_content.replace("</br>","")#替换掉所有的</br>
    one_page=BeautifulSoup(one_page_content,"html.parser")
    img_lst=one_page.find("div",attrs={"class":"journey-item-list"}).find_all("img")
    for img in img_lst:
        #拿到图片的的src
        download_url=img.get("data-original")
        if not download_url:
            download_url = img.get("src")
        print(download_url)
        #下载图片
        f = open("img/汽车之家图片%s.jpg"% n,mode="wb")
        f.write( requests.get(download_url).content)
        f.close()
        n=n+1
        print("你成功的从汽车之家偷走了一张图片")

猜你喜欢

转载自www.cnblogs.com/tengteng0520/p/11275530.html

爬虫之汽车之家（正则表达式）

爬虫之正则表达式

[补充] java之正则表达式网络爬虫

Python爬虫入门七之正则表达式

爬虫学习之5：正则表达式的使用

Pythonp爬虫之正则表达式

Python爬虫之正则表达式的使用（三）

Python网络爬虫之正则表达式（三）

Python爬虫之正则表达式（2）

网络爬虫必备知识之正则表达式

Python爬虫之正则表达式（1）

爬虫之正则表达式基础篇

爬虫之正则表达式findall()-sub()-compile()

爬虫之正则表达式search()用法

爬虫之正则表达式中级篇

爬虫必学知识之正则表达式上篇

python爬虫之解析库正则表达式

python爬虫数据解析之正则表达式

python爬虫之正则表达式

初识python 之爬虫：正则表达式

爬虫提取规则之正则表达式的使用

网络爬虫之正则表达式

python爬虫之正则表达式回顾

python爬虫之 ---------------- 正则表达式（1）

Python爬虫之正则表达式的使用

七：爬虫-数据解析之正则表达式

Python 爬虫_正则表达式

Python爬虫（正则表达式）

Python爬虫--正则表达式

爬虫：正则表达式

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)