查找html网站的源代码

其他 2018-08-05 08:47:10 阅读次数: 0

如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。

假设第一步已经完成了，第二步应该如何解析HTML呢？

HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。

好在Python提供了HTMLParser来非常方便地解析HTML，只需简单几行代码：

import requests
r=requests.get("https://zhidao.baidu.com/question/874064402884001652.html")
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,"html.parser")
print(soup.prettify())

猜你喜欢

转载自blog.csdn.net/z2876563/article/details/80015998

查找html网站的源代码

查看源代码的网站

源代码网站

开源代码网站

编辑HTML源代码

65个源代码网站

开源代码网站总结

开源网站开源代码网站

查找书籍源代码 C语言

如何快速查找论文的源代码

查找论文及其开源代码

Android 源代码在线查看网站地址

30套JSP网站源代码合集

C/C++源代码的网站

对网站的开源代码进行审计

WordPress在自己的网站里添加源代码

c/c++源代码网站

源代码托管网站BitBucket

使用python爬取网站源代码

禁止右键的网站如何查看源代码

JavaScript获取HTML页面源代码

HTML5 logo源代码

【html----花瓣特效(附源代码)】

网站转换APP源代码/WebAPP源代码/网站生成APP源代码/Flutter项目/带控制端

解决查看网页源代码html代码样式乱了

如何查找Java文件源代码和Jar包

红黑树的旋转、查找和删除（附源代码）

c++常用源代码以及常用库查找

如何查找一篇论文的源代码

ctags 和 cscope查找源代码中的函数

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)