基于node实现的简单爬虫

废话不多说了,直接开始

1:npm init 初始化生成package.json文件

2.安装两个需要的模块https(发起网络请求的)和cheerio(用来做数据解析的)语法类似于jquery 

npm install https cheerio --save

3.新建立一个index.js文件

var https = require('https')
var cheerio = require('cheerio')// 因为是爬取的json数据,不需要解析,如果爬取网页,就会用到这个模块
// node自带的模块,不需要安装
var fs = require('fs')
var url = 'https://www.zhipin.com/common/data/city.json'
// 发起网络请求
https.get(url, function (res) {
    // 生命一个空字符串进行接受数据
    var html = ''
    res.on('data', function (data) {
        html += data
        console.log('爬取中')
    })
    res.on('end', function () {
        console.log('爬取结束')
        // 回调函数(用来解析数据)
        callback(html)
    })
}).on('error', function () {
    console.log('获取失败')
})
function callback(data) {
    // 吧数据写到本地json文件里面,
    fs.writeFile('./lzh.json', data)
}

猜你喜欢

转载自blog.csdn.net/lzh5997/article/details/80531268