一、引言

昨天接到Mentor给的任务，让我写一个爬虫，根据给定的论文中中文作者的英文名字（实际上就是拼音），去GitHub和LinkedIn上爬去作者的邮箱，说是公司要用。对于一个爬虫小白的我来说，也算是一个艰巨的挑战了，毕竟这将是我写的第一个爬虫程序。大脑一片空白毫无思路可言。然后就开始了我的漫漫搜索之路，网上关于爬虫的文章确实不少，也找到不少干货，不够对于我这样的爬虫小白来说，确实比较难懂。不过最后还是找到了一篇可以让我入门的文章https://www.jianshu.com/p/628a0747c492，在这里我找到了GitHub的API接口。

教科书般的API接口信息
Github作为一个出色的代码托管平台，也为开发者们提供了结构非常清晰的API接口信息，浏览器安装json插件后阅读更佳。
详细的开发者文档
想了解相关参数设置和可爬取的数据，可阅读Github Developer Guide

就这样我写出了我的第一个爬虫程序。废话不多说，赶紧上思路。

二、思路

爬取目标：

用户的基本信息，邮箱，地址，GitHub主页地址。

逻辑思路：

先根据GitHub提供的search接口，根据用户的名字（fullname）搜索到用户信息，其中大多是和用户相关的URL地址。
过滤存储用户个人信息的URL地址。
得到存储用户个人信息的URL地址，将所需要的用户字段爬去下来。
过滤需要的用户信息字段，并返回。

具体实现：

单步讲解：

首先代码是使用Node.js的express框架写的。
查看GitHub的开发者文档，查看爬去用户信息的方法及参数设置。开发者文档如下所示。

其中对我们有用的就是查询条件中的Fullname。使用方法如下所示,首先构造访问的URL，然后将URL和Headers封装。需要提醒的一点是，headers中一定要将你的github上生成的token放上，并且一定要包含User-Agent字段，否则你的请求会被拒绝，返回403Forbidden。具体处理办法请见

 
   function 
   gethomepage( 
   username, 
   req, 
   res) { 
  
   return 
   new 
   Promise( 
   function ( 
   resolve, 
   reject) { 
  
   //根据名字，搜索基本信息 
  
   var 
   options = { 
  
   url: 
   'https://api.github.com/search/users?q=fullname:' + 
   username, 
  
   headers: { 
  
   'User-Agent' 
   : 
   'Mozilla/5.0', 
  
   'Authorization' 
   : 
   'token 78e380f2e6d1a4b8239d9c3baea026b6d248fe14', 
  
   'Content-Type' 
   : 
   'application/json', 
  
   'method' 
   : 
   'GET', 
  
   'Accept' 
   : 
   'application/json' 
  
    } 
  
    } 
  
   var 
   info = 
   ""; 
  
   request( 
   options, 
   function ( 
   err, 
   response, 
   body) { 
  
   if (! 
   err && 
   response. 
   statusCode == 
   200) { 
  
   info = 
   JSON. 
   parse( 
   body); 
  
   resolve( 
   info); 
  
    } 
  
    }) 
  
    }) 
  
    }

过滤存储用户个人信息的URL地址。

 
   var 
   info = 
   await 
   gethomepage( 
   arguments, 
   req, 
   res); 
  
 
   //把url解析出来 
  
 
   var 
   nickname = 
   " "; 
  
 
   var 
   html_url = 
   ""; 
  
 
   var 
   homeurl = 
   ""; 
  
 
   //将爬取出来的信息迭代出来 
  
 
   for ( 
   var 
   item 
   of 
   info. 
   items) { 
  
 
   nickname = 
   item[ 
   'login']; 
  
 
   html_url = 
   item[ 
   'html_url']; 
  
 
   homeurl = 
   item[ 
   'url']; 
  

    } 
  

将请求的结果存储在Info中，然后在第二步的逻辑中调用请求到的info，过滤出用户想要的字段，并将过滤数据返回。

 
   request( 
   options, 
   function ( 
   err, 
   response, 
   body) { 
  
   if (! 
   err && 
   response. 
   statusCode == 
   200) { 
  
   var 
   info1 = 
   JSON. 
   parse( 
   body); 
  
   res. 
   json({ 
  
   name: 
   info1. 
   name, 
  
   nickname: 
   info1. 
   login, 
  
   html_url: 
   info1. 
   html_url, 
  
   location: 
   info1. 
   location, 
  
   email: 
   info1. 
   email 
  
    }); 
  
    } 
  
   else { 
  
   res. 
   send( 
  
    { 
  
   error: 
   err. 
   message, 
  
   result: 
   "have no this person infomation" 
  
    } 
  
    ); 
  
    } 
  
    })

使用命令行参数指定需要查询的用户名字

 
   var 
   arguments = 
   process. 
   argv. 
   splice( 
   2); 
  
 
   console. 
   log( 
   "您要搜索的对象为：" + 
   arguments); 
  
 
   var 
   info = 
   await 
   gethomepage( 
   arguments, 
   req, 
   res); 
  

运行方式

完善后成功爬取数据的代码如下：

 
   var 
   express = 
   require( 
   'express'); 
  
   var 
   app = 
   express(); 
  
   var 
   request = 
   require( 
   'request'); 
  
   var 
   cheerio = 
   require( 
   'cheerio'); 
  
   app. 
   get( 
   '/', 
   async 
   function ( 
   req, 
   res) { 
  
   //var info = await gethomepage("Longhui Wei", req, res); 
  
   var 
   arguments = 
   process. 
   argv. 
   splice( 
   2); 
  
   console. 
   log( 
   "您要搜索的对象为：" + 
   arguments); 
  
   var 
   info = 
   await 
   gethomepage( 
   arguments, 
   req, 
   res); 
  
   //把url解析出来 
  
   var 
   nickname = 
   " "; 
  
   var 
   html_url = 
   ""; 
  
   var 
   homeurl = 
   ""; 
  
   //将爬取出来的信息迭代出来 
  
   for ( 
   var 
   item 
   of 
   info. 
   items) { 
  
   nickname = 
   item[ 
   'login']; 
  
   html_url = 
   item[ 
   'html_url']; 
  
   homeurl = 
   item[ 
   'url']; 
  
    } 
  
   var 
   options = { 
  
   url: 
   homeurl, 
  
   headers: { 
  
   'User-Agent' 
   : 
   'Mozilla/5.0', 
  
   'Authorization' 
   : 
   'token yourTokenvalue', 
  
   'Content-Type' 
   : 
   'application/json', 
  
   'method' 
   : 
   'GET', 
  
   'Accept' 
   : 
   'application/json' 
  
    } 
  
    } 
  
   request( 
   options, 
   function ( 
   err, 
   response, 
   body) { 
  
   if (! 
   err && 
   response. 
   statusCode == 
   200) { 
  
   var 
   info1 = 
   JSON. 
   parse( 
   body); 
  
   res. 
   json({ 
  
   name: 
   info1. 
   name, 
  
   nickname: 
   info1. 
   login, 
  
   html_url: 
   info1. 
   html_url, 
  
   location: 
   info1. 
   location, 
  
   email: 
   info1. 
   email 
  
    }); 
  
    } 
  
   else { 
  
   res. 
   send( 
  
    { 
  
   error: 
   err. 
   message, 
  
   result: 
   "have no this person infomation" 
  
    } 
  
    ); 
  
    } 
  
    }) 
  
    }); 
  
   function 
   gethomepage( 
   username, 
   req, 
   res) { 
  
   return 
   new 
   Promise( 
   function ( 
   resolve, 
   reject) { 
  
   //根据名字，搜索基本信息 
  
   var 
   options = { 
  
   url: 
   'https://api.github.com/search/users?q=fullname:' + 
   username, 
  
   headers: { 
  
   'User-Agent' 
   : 
   'Mozilla/5.0', 
  
   'Authorization' 
   : 
   'token yourTokenValue', 
  
   'Content-Type' 
   : 
   'application/json', 
  
   'method' 
   : 
   'GET', 
  
   'Accept' 
   : 
   'application/json' 
  
    } 
  
    } 
  
   var 
   info = 
   ""; 
  
   request( 
   options, 
   function ( 
   err, 
   response, 
   body) { 
  
   if (! 
   err && 
   response. 
   statusCode == 
   200) { 
  
   info = 
   JSON. 
   parse( 
   body); 
  
   resolve( 
   info); 
  
    } 
  
    }) 
  
    }) 
  
    } 
  
   var 
   server = 
   app. 
   listen( 
   3001, 
   function () { 
  
   console. 
   log( 
   'listening at 3001'); 
  
    });

问题总结：

一、用户验证Token的问题。https://developer.github.com/v3/auth/

二、返回403 Forbidden https://developer.github.com/v3/#user-agent-required

三、参考文档 https://developer.github.com/v3

详细接口信息 API接口
请详细阅读 Github Developer Guide

未完待续。。。。。。。。。。。。。。。。。。

node.js爬取Github指定用户的个人信息，比如email，location，主页URL等