先打一个简单的通用框子
//根据爬取网页的协议 引入对应的协议, http||https var http = require('http'); //引入cheerio 简单点讲就是node中的jquery jquery写法获取所得页面dom元素 var cheerio = require('cheerio'); //目标网址 这里是图片网址 var url = 'http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%CD%BC%C6%AC&fr=ala&ala=1&alatpl=others&pos=0'; //文件读写 var fs = require('fs'); //采用http模块向服务器发起一次get请求 http.get(url, function(res) { //get到x网址,成功执行回调函数 var html = ''; //用来存储请求网页的整个html内容 res.setEncoding('utf-8'); //防止中文乱码 //监听data事件,每次取一块数据 res.on('data', function(chunk) { html += chunk; }); //监听end事件,如果整个网页内容的html都获取完毕,就执行回调函数 res.on('end', function() { console.log(html) }); }).on('error', function(err) { //http模块的on data,on end ,on error事件 console.log(err); });