Python2获取网页标题

其他 2019-01-28 00:08:05 阅读次数: 0

Python获取网页标题

使用Python2.x的urllib2和lxml，速度应该还快于BeautifulSoup4（话说回来，为什么大家都要用BS4呢？一个XPATH不就完了吗）

没有安装过的，用pip安装一下

pip install lxml

Shell演示：

>> from lxml import etree
>> import urllib2
>> page = etree.HTML(urllib2.urlopen('https://blog.csdn.net/z690798364/article/details/79960358').read().decode('utf-8'))
>> print page.xpath(u"/html/head/title")[0].text
Lxml 解析网页用法笔记 - z690798364的专栏 - CSDN博客

封装好了的函数：

from lxml import etree
import urllib2
#...
def get_site_title(link):
    send_headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; rv:16.0) Gecko/20100101 Firefox/16.0',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Connection': 'keep-alive'
    }  # 伪装一下header，防止被403
    title = etree.HTML(urllib2.urlopen(urllib2.Request(link, headers=send_headers)).read().decode('utf-8')).xpath("/html/head/title")
    if title is None:
        raise 'target miss'
    return title[0].text

猜你喜欢

转载自www.cnblogs.com/santiego/p/10328428.html

Python2获取网页标题

Python爬虫案例2：获取抽屉网页所有的新闻标题并保存到csv

Jsoup获取网页标题

python2网页采集案例

Python2　获取docx/doc文件内容

python2爬取虎扑NBA的新闻标题和内容(入门勿喷)

python2

Python2的安装

python2 编码

Python2学习

python2教程

学习python2

【python2】【error】

python2 assert

python2利用urllib2抓取中文网页乱码的问题

Python2 urllib2爬取网页一简单爬取

python 获取标题

用python2和python3伪装浏览器爬取网页

（2）获取网页源代码——Python

document.title获取当前网页的标题

python2 打印菱形

python2基础练习

python2编码问题

python2 Windows安装

python2 3 区别

python2精确除法

字符编码（python2）

python2的cgi程序

python2基础学习

python2、3共存

今日推荐

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

周排行

010-题目：利用条件运算符的嵌套来完成此题：学习成绩>=90分的同学用A表示，60-89分之间的用B表示，60分以下的用C表示。

接口测试-工作心得记录八（使用locust库书写接口并发）

物理分页和逻辑分页

Hive建表语句详解--CREATE TABLE

爬虫学习----学习get和post请求

PDF生成类库

POJ 2139

前端路由基本原理

I/O多路转接之epoll

.NET开源项目 QuarkDoc 一款自带极简主义属性的文档管理系统

每日归档

更多

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)