爬网站文字链接及标题 - 代码天地

爬网站文字链接及标题

其他 2018-05-31 09:28:37 阅读次数: 0

任务：还是那个壁纸网站（就是之前这个啦https://blog.csdn.net/qq_40024605/article/details/79067580），这次要爬壁纸的文字标题及链接并写入文件保存

实现：

# -*- coding: utf-8 -*
import urllib
import re
#这个很重要，是能够让导入文件的文字能以中文形式保存，
具体可以参考这儿http://blog.csdn.net/crazyhacking/article/details/39375535
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
f = open("3.txt", "a+")

def getHtml(url):
    page=urllib.urlopen(url)
    html=page.read()
    return html

def getTitle(html):
    reg =r'<div class="il_img"><a href="(.+?)" title="(.+?)" target="_blank"><img '#正则匹配
    imgre =re.compile(reg)
    list=re.findall(imgre,html)
    for p in list:
        print  """http://www.ivsky/.com"""+p[0],p[1]
        s=p[1]
        s=s.decode('utf-8')
        f.write("""http://www.ivsky/.com"""+p[0] +','+s+'\n')#写入文件


i=1
for i in range(1, 5):#循环，遍历url
    x=17*i
    html=getHtml("http://www.ivsky.com/bizhi/index_%s.html"%i)
    getTitle(html)
f.close()

猜你喜欢

转载自blog.csdn.net/qq_40024605/article/details/79067731

爬网站文字链接及标题

爬取网站的子链接和标题

【python爬虫自学笔记】-----爬取简书网站首页文章标题与链接

爬虫--爬取网站链接

快速引用网站标题链接到Markdown

Python基础代码爬取超链接文字及链接

Node.js爬取十九大报告标题链接

python-----爬新浪新闻标题链接

汽车之家数据爬取:文章链接//图片//标题

python爬取博客圆首页文章链接+标题

多线程爬取新闻标题和链接

python爬取个人csdn博客链接和标题

利用python爬取分享网站链接

re 正则表达式爬取网站标题

wordpress网站通过页面ID获取标题和链接的方法

WordPress SQL命令批量替换修改网站文章链接文字

python爬虫，使用BeautifulSoup模块爬取人民网新链接，标题，时间

如何爬取CSDN博客中分栏的所有文章的标题和链接

爬取博主的所有文章的标题、链接和内容

网络爬虫百度新闻标题及链接爬取

爬取某学校教务处发布的含有申报的通知的正文、标题、日期、链接

爬取百度学术：标题，关键词，年份，摘要，原链接，作者。

链接文字

文字链接

python爬虫：爬取百度云盘资料，保存下载地址、链接标题、链接详情

Python爬取新闻网站保存标题、内容、日期、图片等数据

外贸建站之网站标题设置以及首页链接设置实战经验分享

标题标签与超链接

css标题，链接等

python 爬取网站获得一个网站的所有链接

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)