大数据考研复试面试题

1.您对“大数据”一词有什么了解?

答: 指无法在一定时间范围内用常规软件工具进行处理大量数据的集合,关系数据库无法处理大数据,所以需要新处理模式,使用特殊的工具和方法对大量数据执行操作。

目的:采集这些庞大的数据,用大数据技术进行分析处理,获取到数据中隐含的信息。

适用范围:路线规划,兴趣分析,广告推送等。

2.大数据的五个V是什么?

答:大数据的五个V如下:

卷(Volume)巨量,数据量大,且以持续、急剧地膨胀,即以PB为单位的数据量。

速度(Velocity)快变,也称为实时性,时效性,一是数据到达速度很快,二是响应速度快。

多样性(Variety)多样性是指不同的数据类型,即各种数据格式,例如文本,音频,视频等。

价值(Value)价值是指将数据转化为价值。通过将访问的大数据转化为价值,企业可以产生收入。具有经济,产业和科学价值。

准确性(Veracity)–准确性是指可用数据的不确定性。由于大量数据带来不完整和不一致,因此会出现准确性。

3.告诉我们大数据和Hadoop之间的关系。

答: 大数据和Hadoop几乎是同义词。随着大数据的兴起,专门用于大数据操作的Hadoop框架也开始流行。专业人士可以使用该框架来分析大数据并做出决策,挖掘出数据的价值。

4.大数据分析如何有助于增加业务收入?

答:通过预测分析,大数据分析为企业提供了定制的建议。此外,大数据分析使企业能够根据客户的需求和偏好推出新产品。这些因素使企业获得更多收入,因此很多公司正在使用大数据分析。国内使用大数据推送的有淘宝,抖音等。

5.解释部署大数据解决方案应遵循的步骤。

(1)资料撷取

从各种来源提取数据,数据源可以是客户关系管理系统,企业资源计划系统,关系型数据库或任何其他日志文件,文档,社交媒体源等。可以通过批处理作业或实时流来摄取数据。然后将提取的数据存储在分布式文件系统中。

(2)数据存储

提取数据后,下一步是存储提取的数据。数据可以存储在HDFS(关系型数据库)或NoSQL数据库(即非关系型数据库)中。HDFS存储适用于顺序访问,而HBase适合随机读取/写入访问。

(3)数据处理

部署大数据解决方案的最后一步是数据处理。数据通过Spark,MapReduce,Pig等处理框架之一进行处理。

6.大数据和人工智能的关系是什么?

大数据和人工智能是相辅相成、相互融合的关系。

可以认为大数据是人工智能的基础,大数据更强调数据的采集和处理,而人工智能更强调深度学习,像人脑一样能够去学习新知识,这是二者的主要差别。

人工智能,智能算法可以优化大数据的算法,找出对应领域最适合的算法。

人工智能在最近几年得到快速发展主要得益于大数据基础计算能力的提高和数据量的发展,如今的智能革命最核心的两个要素就是人工智能和大数据。

7.大数据与云计算之间的关系:

云计算是平台,大数据是应用。

云计算分布式技术解决大数据的速度问题。

大数据通过云计算能力给机器学习提供资料。

云计算作为底层平台整合计算、存储和网络等资源,大数据在云计算平台的支撑下,调度下层资源,进行数据源加载,计算和最终结果输出等动作。

8.大数据发展的瓶颈?

没有成熟的方法采集和处理大数据。----分布式文件系统数据库解决存储难题

数据涉及到隐私,法律法规还没有完善。

大量不同类别的数据不知道怎么存储。

数据的独占性:有价值的数据别人不一定会分享

9.大数据的趋势

  1. 数据资源化:资源化是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。

  1. 与云计算的深度结合:大数据离不开云处理,云处理为大数据提供了平台。

  1. 科学理论的突破:随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。

10.Hadoop

10.1.Hadoop 是什么

(1)Hadoop是一个由Apache所开发的分布式系统基础架构

(2)主要解决海量数据的存储和海量数据的分析计算问题

(3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈

10.2. Hadoop 优势

(1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

(2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

(3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

(4)高容错性:能够自动将失败的任务重新分配。

10.3.组成

1、HDFS(分布式文件存储系统):数据以块的形式,分布在集群的不同节点。在使用HDFS时,无需关心数据是存储在哪个节点上、或者是从哪个节点从获取的,只需像使用本地文件系统一样管理和存储文件系统中的数据。

2、MapReduce(分布式计算框架):分布式计算框架将复杂的数据集分发给不同的节点去操作,每个节点会周期性的返回它所完成的工作和最新的状态。

3、YARN(资源调度器):相当于电脑的任务管理器,对资源进行管理和调度

4、HBASE(分布式数据库):HBase是非关系型数据库(Nosql),在某些业务场景下,数据存储查询在Hbase的使用效率更高。

5、HIVE(数据仓库):HIVE是基于Hadoop的一个数据仓库工具,可以用SQL的语言转化成MapReduce任务对hdfs数据的查询分析。HIVE的好处在于,使用者无需写MapReduce任务,只需要掌握SQL即可完成查询分析工作。

6、Spark(大数据计算引擎):Spark是专为大规模数据处理而设计的快速通用的计算引擎

7、Mahout(机器学习挖掘库):Mahout是一个可扩展的机器学习和数据挖掘库

8、Sqoop:Sqoop可以将关系型数据库导入Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中

猜你喜欢

转载自blog.csdn.net/m0_61370972/article/details/129566618