62-天亮大数据系列教程之练手小项目-中门级爬虫项目

目录
一、项目背景与目标
二、需求分析
三、主要思路与考点

详情

  • 一、项目背景与目标

    • 项目背景
      • 在大数据浪潮汹涌澎湃发展的数据时代,如何能够拥有更多的数据成为占领制战略制高点的关键因素。很多大型互联网公司坐拥千万级、亿级用户,其海量数据可以轻而易举获取。然很多数以千万计的中小微型企业,自身并没有大数据量的数据来源,往往只能通过类似于谷歌、百度的方式,去互联网上通过数据采集技术将信息所关注的信息抓取下来,共后续的分析挖掘使用。
      • 数据采集技术从根源上助推大数据技术的发展,从早期的雅虎!、谷歌等,到现在的百度、今日头条等等,均是此项技术的开拓者、使用者,并创造了巨大的商业价值。时至今日,几乎每个互联网公司都会使用数据采集技术,从互联网上有的放矢的获取自己关心的数据。其应用之广,可以用“无空不入"来形容。
      • 数据采集工程师,也称为网络爬虫工程师,是当下互联网招聘中最常见的岗位之一,薪资待遇高于一般研发岗位。
    • 项目目标
      • 用时不超过一周,主要是通过查看之前教学资料和视频,百度搜索等方式搞定,加强实战应用开发能力和自学能力。
      • 最终达到对于常用的小模块开发,可以在1-5天内迅速解决战斗,并形成自身的类库积累。
      • 掌握爬虫开发流程、核心代码开发,达到爬虫小项目的自主独立开发能力。
  • 二、需求分析

    • 数据源说明
      • 新闻数据是众多数据需求种类中最多见的一种,用于热点发现、趋势分析、个性化推荐等常见数据应用中。
      • 中国青年网是国内用户群体最广泛、体量最大、权威度最高,集新闻编撰、发布、传播为一体的新闻数据中心。
        故国内大多数的新闻数据采集器,均会采集此站点作为重要的新闻数据来源。
  • 数据源确定

    • 入口种子地址:http://news.youth.cn/gn/
      该URL地址为中国青年网之国内新闻滚动板块,涵盖国内最新、最全的焦点新闻列表,以此为入口
    • 采集要求
      • 数据字段要求
        • 新闻标题、标题链接、发布时间、数据插入数据库的时间
      • 首次采集
        • 因为新闻数据量巨大,机器和带宽有限,故只采集前5页即可,并存储到mysql数据库中。
      • 增量采集
        • 当首次采集的5页完成后,定时周期性每隔1分钟增量采集一次,将新出现的新闻条目采集下来,并存储到mysql数据库即可。
        • 采集日志输出要求
          • 日志当中,要能一直输出当前共采集多少条新闻、当天共采集多少条新闻
  • 三、主要思路与考点

    • 主要思路
      • 通过javase+maven+UrlConnection+httpclient网页采集组件+jsoup网页解析组件+正则表达式+mysql综合实现该项目
      • 数据采集器的开发流程: 主要包括提交任务的用户接口层、任务调度层、网络爬取层、数据解析层、数据持久化层,共5个主要层,再循环至任务调度层的过程。
      • 模块间解耦设计,模块间通过类或方法来衔接串联,最终形成完整的系统。
  • 主要考点

    • 项目分析与开发过程熟悉
    • JavaSe程序设计基础
    • 面向对象程序设计
    • maven项目构建和开发
    • UrlConnection学习和使用
    • httpclient学习和使用
    • 正则表达式
    • jsoup学习和使用
    • mysql数据库操作


天亮教育是一家从事大数据云计算、人工智能、教育培训、产品开发、咨询服务、人才优选为一体的综合型互联网科技公司。
公司由一批BAT等一线互联网IT精英人士创建,
以"快乐工作,认真生活,打造高端职业技能教育的一面旗帜"为愿景,胸怀"让天下没有难找的工作"使命,
坚持"客户第一、诚信、激情、拥抱变化"的价值观,
全心全意为学员赋能提效,践行技术改变命运的初心。

更多学习讨论, 请加入
官方-天亮大数据交流-366784928
群二维码:
这里写图片描述
天亮教育公开课-从小白到大佬修成记-全系列视频地址:http://bbs.myhope365.com/forum.php?mod=viewthread&tid=1422&extra=page%3D1

欢迎关注天亮教育公众号,大数据技术资料与课程、招生就业动态、教育资讯动态、创业历程分享一站式分享,官方微信公众号二维码:
在这里插入图片描述

天亮教育大数据官方群318971238,
天亮教育web前端官方群318971238,
爬虫、nlp技术qq群320349384
hadoop & spark & hive技术群297585251
教育培训官网:http://myhope365.com
项目研发业务尚云科技官网:http://shangyuninfo.com/
官方天亮论坛:http://bbs.myhope365.com/

扫描二维码关注公众号,回复: 5394375 查看本文章

猜你喜欢

转载自blog.csdn.net/erliang20088/article/details/88085295