深入浅出学习大数据:大数据发展战略趋势以及挑战!

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/qq_43958467/article/details/100156501

今天向大家介绍大数据发展战略趋势以及挑战,全面了解大数据的来龙去脉。希望大家持续学习,每天关注,我会连续更新文章,让大家系统学习和认识大数据。

一、大数据产业的战略地位及应用

1.大数据产业的战略地位

(1)国家级别的战略产业

美国政府认为数据资源是继陆空海三大资源外的另一种重要的国家战略资源,已将大数据战略上升到国家层面,从2012年到现在为止提出了诸多促进大数据产业发展的宣言和计划。英国在顶着经济低迷的巨大压力下还将大数据作为重点发展的科技领域,加强数据采集和分析,以求在数据革命中抢占先机。同样日本政府也提出了大力发展IT业的发展计划,不断地对信息产业提出战略规划。世界各国也逐渐意识到大数据时代的到来,纷纷建立大数据产业。大数据产业已经发展成为了国家级别的战略产业。

(2)推动技术和知识创新模式的变革

大数据时代的到来引发了探索知识模式的改变。大数据时代的海量数据给科研模式带来了一种新的发展方向,存在于事物之间的因果关系已经不再是科研人员进行深度研究的必要步骤和关键,现在只需从大数据中得出有意义的相互关系,也许我们从这些相互关系中不能准确知晓事物发生的原因,但是我们可以预测这件事将会发生,这个价值已经足够大。在企业界,一些精明的领导者们可以洞察出对大数据的应用其实就是为了管理方式的变革。在学术界,著名的第四范式的科学研究阶段提出,即在人类经历了经验、理论、计算三个科学研究范式后进入第四范式——数据探索。

(3)推动经济结构转型

大数据产业的兴起加快了产业升级和经济结构转型的进程。随着大数据时代的到来,部分产业界已经逐渐把重点转向把传统产业和大数据产业相结合的发展模式。对于传统工业,采用大数据处理方法进行新需求的探索和新材料的研发,既可降低研发成本,又能提高新产品研发的准确性;对于传统农业,利用大数据处理方法,可以培育新品种。大数据将会带来新一浪潮的生产力增长和消费者需求。计算机行业也从开始只关注运算速度转移到提高大数据的处理分析能力上来,变成真正的信息行业。大数据时代的发展迫使软硬件的不断更新从而能够推进信息行业不断发展,这为信息产业提供了又一大的发展机遇。

2.大数据产业的应用领域

大数据产业可以为各个领域进行服务。

在农业中应用。通过连接多个农业数据集网站进行数据搜集和专业的数据分析,美国农业部可以确定农作物最适宜的湿度、温度、土壤、光照时间来准确判断它们是否需要浇水、打药或者施肥。

在军事领域中应用。据调查,美国反恐组织会对打网游的大数据进行分析获得情报,由于恐怖分子之间不能通过正常的手段进行沟通,网游中存在另一个世界,有真实的场景,所以恐怖分子可以利用虚拟的网游世界来传递信息和情报。

在电视播放领域的应用。通过分析每天观众的播放行为(前进、暂停、播放)和评论,来预测观众对下期节目的期待,从而获得高收视率。其中2013年2月份的美剧《纸牌屋》就是利用网友评论的大数据分析最终取得了9.9的好评,在继第一季利用大数据取得较大利益之后,《纸牌屋》第二季在2014年2月14号开播,迅速吸引了来自世界各地的观众的点播,《纸牌屋》其制作商Netflix的股票更是一路飙升,创造了巨大的利益。

“智慧城市”已经成为现代城市发展的方向,智慧城市的建设离不开大数据产业中强大的技术支撑。智慧城市不仅是云计算的深度应用,而且是大数据的综合应用,更是大数据产业的重点发展项目。

二、大数据产业的发展趋势

从大数据产业的技术层面上来讲主要有以下几个发展趋势:

(1)以Hadoop Map Reduce为主的处理方式将与现有的批处理、流处理、图处理等其他数据处理方式并存,混合数据计算模式将成为主要处理手段。目前Hadoop已经成为一种比较流行的数据处理方式,要将Hadoop Map Reduce不断改进,增强其数据处理功能和兼容性;

(2)更大规模的数据处理与分析,对数据实时分析的需求越来越大;

(3)基于数据分析的方法多种多样,数据分析检测系统将极大地被需要;

(4)数据保密技术和方法越来越完善。大数据时代,数据以惊人的速度传播,数据泄露的几率也在不断增大,数据安全问题越来越被关注。

从大数据产业生态系统来看,目前我国大数据产业主要是处于基础设备服务阶段,主要是进行数据存储和灾备的简单数据业务,未来大数据产业将会向以数据分析产品和规模数据服务系统的方向发展。在大数据产业发展到一定规模,数据分析能力有极大提高时,将会为企业界、政府提供规模系统数据服务平台,最终形成完整的大数据产业链。

三、大数据产业发展面临的挑战及对策

1.大数据产业面临的挑战

(1)技术人才方面的挑战大数据时代的数据不仅仅是多,而且数据类型多种多样,大都是非结构或半结构化的数据,传统的数据处理技术及设备已经不能满足大数据发展的要求。对数据分析能力提出了挑战。而且数据的实时变化,要保证数据的有效性就必须加快数据分析和应用的能力。大数据时代,数据数量大但价值密度小。同时,大数据所体现出来的信息不一定是真实可靠的,人为因素的故意干涉会导致数据失真。大数据的发展使得数据的获取变得越来越容易,个人隐私以及安全问题变得日益棘手。面对大数据产生的各种问题,关键在于技术。这对技术提出了更高的要求,其根本是对人才的需求。目前号称21世纪最性感的职业的“数据科学家”在此之前还没有成为一种真正的职业,由此可见需求之急、量之大。

(2)信息壁垒的挑战大数据产业的发展要依托海量的数据,这些数据不仅需要自己搜集,同时要从别处获取。各个行业的企业之间的部分信息也应该共享,提高资源利用率。尤其要打破政府部门的信息壁垒,政府部门是大数据应用的潜力较大的部门,掌握着大量的数据。从企业来讲,主要是没有大数据的意识,认为数据是属于自己的,不愿意共享,徒有数据却不知如何把数据变成财富。在政府层面,我国政府大部分机关仍对数据封锁不放,外界看不到更利用不了有用信息。所以打破信息壁垒是数据产业发展的必要过程。

2.大数据产业发展的对策

(1) 加强企校研三者之间的合作大学是人才的摇篮,大数据产业不仅需要专业的技术人才,而且需要具有经济分析能力和管理能力的人才。可以在大学建立大数据研究院,将大数据技术直接引入到大学的科学研究当中。加强学校、企业和各研究院之间的合作,充分利用三者的资源达到共赢最终促进大数据产业的发展。

(2)配套发展相关教育培训产业除了与高校合作获取人才,也可以直接建立与大数据产业相关的教育培训产业,所谓“对症下药”。这样便于对企业现有员工知识和技能的不断更新和提升,以顺应时代和科技的快速发展。也可以直接从外部招生,针对大数据产业相关技能进行专业培训,缩短大学培养人才的周期来满足数据产业对人才的需求。

(3)加强国际学术交流加强国际间的学术交流与沟通是加快数据产业技术创新和发展的基础。通过举办国际学术交流活动,加强技术交流。

(4)出台扶持政策发展大数据产业最关键且有效的途径是政府在大数据的应用方面应率先做出行动,将政府信息公开化。我国目前还没有出台专门针对大数据产业的相关政策,缺乏大数据国家战略。同时政府应该打破信息壁垒,为大数据产业的发展做出表率。政府不仅应该加强在政策上的引导和支持,为这一新兴产业提供良好的外部发展环境,同时也要加强资金扶持力度,为大数据产业的发展提供必要的物质保障。

今天介绍了大数据发展战略趋势以及挑战,后面会继续带你深入了解学习大数据。

想要在大数据这个领域汲取养分,让自己壮大成长。分享方向,行动以前先分享下一个大数据交流分享资源群870097548,欢迎想学习,想转行的,进阶中你加入学习。
 
一、入门准备
1、linux操作基础

Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程
Linux的常用命令:常用命令的介绍、常用命令的使用和练习(文件操作、用户管理与权限、免密登陆配置与网络管理)
Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用;
Linux启动流程,运行级别详解,chkconfig详解
VI、VIM编辑器:VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键
Linux磁盘管理,lvm逻辑卷,nfs详解
Linux系统文件权限管理:文件权限介绍、文件权限的操作
Linux的RPM软件包管理:RPM包的介绍、RPM安装、卸载等操作
yum命令,yum源搭建
Linux网络:Linux网络的介绍、Linux网络的配置和维护 防火墙配置
Shell编程:Shell的介绍、Shell脚本的编写
Linux上常见软件的安装:安装JDK、安装Tomcat、安装mysql,web项目部署
13)linux高级文本处理命令cut、sed、awklinux

14)定时任务crontab

2、大型网站高并发处理

第四层负载均衡

a) Lvs负载均衡 i. 负载算法,NAT模式,直接路由模式(DR),隧道模式(TUN)
b) F5负载均衡器介绍

第七层负载均衡
a) Nginx b) Apache

Tomcat、jvm优化提高并发量

缓存优化
a) Java缓存框架 i. Oscache,ehcache
b) 缓存数据库 i. Redis,Memcached

Lvs+nginx+tomcat+redis|memcache构建二层负载均衡千万并发处理

Haproxy

Fastdfs小文件独立存储管理

Redis缓存系统 a) Redis基本使用 b) Redis sentinel高可用 c) Redis好友推荐算法

3、Lucene基础

Lucene介绍

Lucene 倒排索引原理

建索引 IndexWriter

搜索 IndexSearcher

Query

Sort和 过滤 (filter)

索引优化和高亮

4、solr基础

什么是solr
为什么工程中要使用solr
Solr的原理
如何在tomcat中运行solr
如何利用solr进行索引与搜索
solr的各种查询
solr的Filter
solr的排序
solr的高亮
solr的某个域统计
solr的范围统计
solrcloud集群搭建
5、布式协调服务zookeeper

zookeeper简介及应用场景
zookeeper集群安装部署
zookeeper的数据节点与命令行操作
zookeeper的java客户端基本操作及事件监听
zookeeper核心机制及数据节点
zookeeper应用案例–分布式共享资源锁
zookeeper应用案例–服务器上下线动态感知
zookeeper的数据一致性原理及leader选举机制
6、java高级特性增强

Java多线程基本知识
Java同步关键词详解
java并发包线程池及在开源软件中的应用
Java并发包消息队里及在开源软件中的应用
Java JMS技术
Java动态代理反射

二、离线计算系统
1、hadoop快速入门
hadoop背景介绍
分布式系统概述
离线数据分析流程介绍
集群搭建
集群使用初步

2、HDFS增强
HDFS的概念和特性
HDFS的shell(命令行客户端)操作
HDFS的工作机制
NAMENODE的工作机制
java的api操作
案例1:开发shell采集脚本

3、MAPREDUCE详解
自定义hadoop的RPC框架
Mapreduce编程规范及示例编写
Mapreduce程序运行模式及debug方法
mapreduce程序运行模式的内在机理
mapreduce运算框架的主体工作流程
自定义对象的序列化方法
MapReduce编程案例

4、MAPREDUCE增强
Mapreduce排序
自定义partitioner
Mapreduce的combiner
mapreduce工作机制详解

5、MAPREDUCE实战
maptask并行度机制-文件切片
maptask并行度设置
倒排索引
共同好友

6、federation介绍和hive使用
Hadoop的HA机制
HA集群的安装部署
集群运维测试之Datanode动态上下线
集群运维测试之Namenode状态切换管理
集群运维测试之数据块的balance
HA下HDFS-API变化
hive简介
hive架构
hive安装部署
hvie初使用

7、hive增强和flume介绍
HQL-DDL基本语法
HQL-DML基本语法
HIVE的join
HIVE 参数配置
HIVE 自定义函数和Transform
HIVE 执行HQL的实例分析
HIVE最佳实践注意点
HIVE优化策略
HIVE实战案例
Flume介绍
Flume的安装部署
案例:采集目录到HDFS
案例:采集文件到HDFS

三、数据迁移工具Sqoop

介绍 和 配置Sqoop
Sqoop shell使用
Sqoop-import a) DBMS-hdfs b) DBMS-hive c) DBMS-hbase
Sqoop-export
四、Flume分布式日志框架

flume简介-基础知识
flume安装与测试
flume部署方式
flume source相关配置及测试
flume sink相关配置及测试
flume selector 相关配置与案例分析
flume Sink Processors相关配置和案例分析
flume Interceptors相关配置和案例分析
flume AVRO Client开发
flume 和kafka 的整合
五、内存数据库redis
redis特点、与其他数据库的比较
如何安装redis
如何使用命令行客户端
redis的字符串类型
redis的散列类型
redis的列表类型
redis的集合类型
如何使用java访问redis【a.python访问redis,scala访问redis】
redis的事务(transaction)
redis的管道(pipeline)
redis持久化(AOF+RDB)
redis优化
redis的主从复制
redis的sentinel高可用
twemproxy,codis实战
redis3.x集群安装配置
六、Storm上下游及架构集成

kafka是什么

kafka体系结构

kafka配置详解

kafka的安装

kafka的存储策略

kafka分区特点

kafka的发布与订阅

zookeeper协调管理

java编程操作kafka

scala编程操作kafka

flume 和kafka 的整合

Kafka 和storm 的整合

七、Storm从入门到精通

Storm的基本概念

Storm的应用场景

Storm和Hadoop的对比

Storm集群的安装的linux环境准备

zookeeper集群搭建

Storm集群搭建

Storm配置文件配置项讲解

集群搭建常见问题解决

Storm常用组件和编程API:Topology、 Spout、Bolt

Storm分组策略(stream groupings)

使用Strom开发一个WordCount例子

Storm程序本地模式debug、Storm程序远程debug

Storm事物处理

Storm消息可靠性及容错原理

Storm结合消息队列Kafka:消息队列基本概念(Producer、Consumer、Topic、Broker等)、消息队列Kafka使用场景、Storm结合Kafka编程API

Storm Trident概念

Trident state 原理

Trident开发实例

Storm DRPC(分布式远程调用)介绍

Storm DRPC实战讲解

Storm和Hadoop 2.x的整合:Storm on Yarn

八、scala编程

scala解释器、变量、常用数据类型等
scala的条件表达式、输入输出、循环等控制结构
scala的函数、默认参数、变长参数等
scala的数组、变长数组、多维数组等
scala的映射、元组等操作
scala的类,包括bean属性、辅助构造器、主构造器等
scala的对象、单例对象、伴生对象、扩展类、apply方法等
scala的包、引入、继承等概念
scala的特质
scala的操作符
scala的高阶函数
scala的集合
scala数据库连接
九、内存计算体系Spark

Spark介绍
Spark应用场景
Spark和Hadoop MR、Storm的比较和优势
RDD
Transformation
Action
Spark计算PageRank
Lineage
Spark模型简介
Spark缓存策略和容错处理
宽依赖与窄依赖
Spark配置讲解
Spark集群搭建
集群搭建常见问题解决
Spark原理核心组件和常用RDD
数据本地性
任务调度
DAGScheduler
TaskScheduler
Spark源码解读
性能调优
Spark和Hadoop2.x整合:Spark on Yarn原理
十、SparkStreaming应用实战
Spark-Streaming简介
Spark-Streaming编程
实战:StageFulWordCount
Flume结合Spark Streaming
Kafka结合Spark Streaming
窗口函数
ELK技术栈介绍
ElasticSearch安装和使用
Storm架构分析
Storm编程模型、Tuple源码、并发度分析
Storm WordCount案例及常用Api分析

十一、机器学习算法
1、python及numpy库
机器学习简介
机器学习与python
python语言–快速入门
python语言–数据类型详解
python语言–流程控制语句
python语言–函数使用
python语言–模块和包
phthon语言–面向对象
python机器学习算法库–numpy
机器学习必备数学知识–概率论

2、常用算法实现
knn分类算法–算法原理
knn分类算法–代码实现
knn分类算法–手写字识别案例
lineage回归分类算法–算法原理
lineage回归分类算法–算法实现及demo
朴素贝叶斯分类算法–算法原理
朴素贝叶斯分类算法–算法实现
朴素贝叶斯分类算法–垃圾邮件识别应用案例
kmeans聚类算法–算法原理
kmeans聚类算法–算法实现
kmeans聚类算法–地理位置聚类应用
决策树分类算法–算法原理
决策树分类算法–算法实现

猜你喜欢

转载自blog.csdn.net/qq_43958467/article/details/100156501