Node.js 薄荷网爬取

Node.js：是一个基于前端的服务器，主要的特点：单线程，异步I/O（对这个没有了解，开发起来真的会踩很多坑），事件驱动

前言：本人主要是一个以使用.Net平台下的语言，进行开发的一个菜鸡，之前面试这家公司的时候，面试官问我一个问题给你一个页面里面有十页的分页数据，你能使用什么技术将这些数据全部抓取出来。对于当时刚毕业的我听到这个问题，心里一下想到python（对它没有任何的了解，我以为python只是用来做数据挖掘的，对着门语言完全没了解过贸然吹牛感觉会被打脸），然后我尴尬的说了句在网页控制台里使用jquery或者js，抓当前页的数据（只是在控制台里展示出来，还不能入库），面试官听到这个回答，我只看到了他嘴角上扬了一下，但是最后居然还是奇迹般的通过了面试，进入了这家公司直到现在，非常感恩这次机会，算是让我正式步入了IT这个行业，成为一名专业的编程人员吧。

之后我尝试过使用c#的WebBrowser对象，Python的HTMLSession包来抓这个薄荷网的数据，最后在对比的时候还是觉得Node.js（异步搞清楚之后）好使，在Node.js里那些已经被大神们封装好的包，直接拿来使用就行，几乎只需要一点点的HTML层级结构知识，一点jQuery选择器知识差不多就能将整个网页的数据进行爬取了。

薄荷网地址：http://www.boohee.com/food/，这个网站的热量查询板块非常适合拿来练手（还是程序员自己人坑自己人呀！哈哈哈哈哈，还是给人家打一波广告吧，虽然没什么流量，哈哈哈哈） ^{薄荷减肥健身掌控人生专业的在线体重管理平台强大的食品营养数据库}

源码

GitHub：https://github.com/loyking/NodeJs.git

下载包语法：

npm install packagename

需要导入的包： var http = require("http"), //http协议请求

url = require("url"), //url地址
sql = require("mssql"), //数据库操作
express = require("express"), //框架
superagent = require("superagent"), //网络请求（注意：没有连接网络，则请求不了网页）
eventproxy = require("eventproxy"), //异步回调
cheerio = require("cheerio"), //node.js中的jquery库
uuid = require("uuid/v4"), //v1：产生时间戳的uuid 使用的数据库为SQL server2017版，表中定义的主键类型为uniqueidentifier，在nodejs中对应的则是uuid
async = require("async") //异步

目标：将热量查询板块 =》薄荷食物库 =》每个分类中的食物名称、热量、评价.....等等相关数据进行爬取（画的有点丑）