使用爬虫抓取网页内容 - 代码天地

使用爬虫抓取网页内容

其他 2020-09-21 12:21:43 阅读次数: 0

logo

对于爬虫我们首先想到的是 python，但是对于前端来说我们通常是 node 来写爬虫，去抓取网站的数据而已。

爬虫的基本流程

在这里插入图片描述

1、发起请求
使用http库向目标站点发起请求，即发送一个Request，第三方请求库如 request，axios 等。
Request包含：请求头、请求体等

2、获取响应内容
如果服务器能正常响应，则会得到一个Response
Response包含：html，json，图片，视频等

3、解析内容
解析html数据：正则表达式，第三方解析库如cheerio，PhantomJS，JSDom.等
解析json数据：json模块
解析二进制数据:以buffer的方式写入文件。

#4、保存数据
数据库

接下来以爬去腾讯网文章数据为例，首先要知道网站的请求地址是 https://www.qq.com/，根据这个地址我们发送一个请求，得到网站的源代码：

const request = require('request');
const url = 'https://www.qq.com/'
const fs = require('fs')
const cheerio = require('cheerio')
const iconv = require('iconv-lite')

request({
    
    url, encoding: null}, (err, response, body) => {
    
    
  let result = iconv.decode(body, 'gb2312');
  console.log(result)
})

在得到网站源代码的过程中我们发现网站不是 utf8 编码格式的，而是 gb2312 的形式，所以我们借助 iconv-lite 模块解析。

得到了响应的内容之后，我们需要提取 html 中的内容，这次我想抓取网站的新闻标题部分。

const request = require('request')
const url = 'https://www.qq.com/'
const fs = require('fs')
const cheerio = require('cheerio')
const iconv = require('iconv-lite')

request({
    
    url, encoding: null}, (err, response, body) => {
    
    
  let result = iconv.decode(body, 'gb2312');
  let list = []
  let $ = cheerio.load(result)
  $('.yw-list li').each((i, ele) => {
    
    
    let text = $(ele).text().replace(/\s/g, '')
    list.push(text)
  })
  console.log(list)
  fs.writeFileSync('qq.json', JSON.stringify(list))
})

提取部分有用的内容之后，通常是保存到数据库中，或者写入到文件系统中。

猜你喜欢

转载自blog.csdn.net/wu_xianqiang/article/details/108481625

使用爬虫抓取网页内容

使用requests抓取网页内容

网页爬虫WebCrawler（1）-Http网页内容抓取

使用Jsoup登录网站抓取网页内容

使用socket实现网页内容抓取

python 爬虫如何用selenium抓取网页内容

抓取网页内容

Python抓取网页内容

网页动态内容抓取

Java抓取网页爬虫

爬虫抓取网页图片

python爬虫爬取异步加载网页信息（python抓取网页中无法通过网页标签属性抓取的内容）

android 开发--抓取网页解析网页内容的若干方法(网络爬虫)（正则表达式）

Python爬虫：使用lxml解析网页内容

如何使用 Python 爬虫抓取动态网页数据

Python：使用爬虫抓取网页中的视频并下载（完整源码）

利用htmlparser抓取网页内容

爬虫-简单抓取网页图片

爬虫学习----静态网页抓取

Python爬虫抓取页面内容

[Python3.x]网络爬虫（一）：利用urllib通过指定的URL抓取网页内容

Python3学习(34)--简单网页内容抓取（爬虫入门一）

【整理】python爬虫（1）抓取网页，分析网页内容，模拟登录网站的逻辑、流程和注意事项

Python爬虫小白入门（九）Python 爬虫 – 使用requests抓取网页

网页结构、使用urlopen()爬取网页内容、常用正则表达式简介、使用正则表达式匹配抓取网页内容、使用BeautifulSoup匹配抓取网页内容

jsoup网页内容抓取分析(2)

用nodejs抓取并存储网页内容

Jsoup网页内容抓取分析(1)

C#抓取网页HTML内容

shell实践--简单抓取网页内容

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)