.net构建轻微博实时热搜新闻站

小编最近无聊做了一个网址导航站,突发奇想加了个微博实时热搜模块,没想到效果还不错,这里给大家简单分享一下

首先说下思路:首先采用控制台程序来作为我们的爬虫工具,然后利用windows计划任务让它定时跑起来,有些童鞋要问为何要用windows计划任务呢,控制台里面做个定时不就好了么,小编是个很懒的程序员,有现成的就不去多花时间哈哈~

好,下面说下爬虫:

这里要注意:ScrapySharp不是拿他来爬取的 这里安装他是为了方便解析html文档,爬取程序是Selenum.WebDriver+PhantomJS

以下是代码片段:

var _driver = new PhantomJSDriver();

_driver.Navigate().GoToUrl(mpn.Link);

var html = _driver.PageSource; //执行 js后拿到的html文档

 _driver.Quit();

var doc = new HtmlDocument();
doc.LoadHtml(html);//获取到html后丢给ScrapySharp处理

这里之所以用Selenum.WebDriver+PhantomJS是因为微博把内容全都放到JS里面去加载,如果采用一般的网页抓取是没办法获取到抓取内容的。

然后后面就是分析目标结构:

结构很简单,获取链接文字,标签和热度值

最终效果

好这里就跟大家介绍完了,最后码字辛苦,希望大家支持下我的新站点: 我的网址导航 https://www.so180.cn

猜你喜欢

转载自blog.csdn.net/lanya123/article/details/81322617