您应该知道的101个大数据术语

由于每天都会产生大量的数据，因此了解大数据的复杂性变得至关重要。如果您打算进入大数据星球，则应该熟悉大数据术语。这些术语将帮助您深入了解大数据世界。因此，让我们从术语大数据本身开始-

由于业务专业人员，项目，从业人员和供应商以不同的方式来理解“大数据”，因此很难准确定义。因此，一般而言，大数据是：

大/大数据集（大数据集是指太大而无法在单台计算机上存储或处理的数据集），并且，
用于授予大型数据集的计算技术和策略的分类。

A

1. Algorithm (算法）

在计算机科学和数学中，算法是关于如何解决复杂问题以及如何执行数据分析的有效分类规范。它包含多个步骤，可对数据进行操作以解决特定问题。

2. Artificial Intelligence (AI)

人工智能是计算机系统的开发，可以执行通常具有人类智能的任务，例如语音识别，视觉感知，决策和语言翻译等。

3. Automatic Identification and Data Capture (AIDC)

自动识别和数据捕获（AIDC），指的是一种通过计算算法自动识别和收集数据对象，然后将其存储在计算机中的方法。例如，射频识别，条形码，生物识别，光学字符识别，磁条都包括用于识别捕获的数据对象的算法。

4. Avro

Avro是为Hadoop项目开发的数据序列化框架和远程过程调用。它使用JSON定义协议和数据类型，然后以二进制形式序列化数据。Avro同时提供：

持久数据的序列化格式
Hadoop节点之间以及从客户程序到Hadoop服务之间通信的有线格式。

B

5. Behavioral Analytics

行为分析是业务分析的最新技术，它提供了对客户在电子商务平台，Web /移动应用程序，在线游戏等上的行为的获取。它使营销人员能够在正确的时间向正确的客户提供正确的推荐。

6. Business Intelligence

商业智能是可以分析，管理和交付与业务相关的信息的一组工具和方法。它包括与分析中相同的报告/查询工具和仪表板。BI技术提供业务操作的先前，当前和将来的视图。

7. Big Data Scientist

大数据科学家是一个可以获取结构化和非结构化数据点，并利用其强大的统计，数学和编程技能来组织它们的人。他运用所有分析能力（上下文理解，行业知识和对现有假设的理解）来发现业务发展的隐藏解决方案。

8. Biometrics

生物识别技术是詹姆斯·邦德什（James Bondish）技术与分析技术相结合，可以通过一种或多种身体特征来识别人。例如，生物识别技术用于面部识别，指纹识别，虹膜识别等。

C

9. Cascading

级联是软件抽象层，可为Apache Hadoop和Apache Flink提供更高级别的抽象。它是一个开放源代码框架，可在Apache许可下获得。它用于允许开发人员在基于JVM的语言（例如Java，Clojure，Scala，Rubi等）中轻松快速地执行复杂数据的处理。

10. Call Detail Record (CDR) Analysis 通话明细记录（CDR）分析

CDR包含元数据，即有关电信公司收集的有关电话的数据的数据，例如呼叫的长度和时间。CDR分析为企业提供了有关在何时，何地以及如何进行计费和报告呼叫的确切详细信息。CDR的元数据提供有关以下内容的信息。想系统学习大数据的话，可以加入大数据技术学习扣扣君羊：522189307

拨打电话的时间（日期和时间）
通话持续了多长时间（以分钟为单位）
谁打电话给谁（来源和目的地的联系电话）
通话类型（入站，出站或免费电话）
通话费用多少（按每分钟费率计算）

11. Cassandra

Cassandra是分布式和开源的NoSQL数据库管理系统。它旨在通过商品服务器管理大量分布式数据，因为它可以提供高可用性的服务而不会出现故障点。它最初是由Facebook开发的，然后在Apache的基础上以键值形式构建。

12. Cell Phone Data 手机数据

手机数据已成为大数据源之一，因为它会生成大量数据，并且其中许多可用于分析应用程序。

13. Cloud Computing 云计算

云计算是必不可少的大数据术语之一。它是一个新的范式计算系统，它提供可视化的计算资源，以运行在用于存储数据的标准远程服务器上，并提供IaaS，PaaS和SaaS。云计算提供IT资源，例如基础架构，软件，平台，数据库，存储等作为服务。它的一些服务包括灵活的扩展，快速的弹性，资源池，按需自助服务。

14. Cluster Analysis 聚类分析

聚类分析是与公共组（集群）中彼此相似的对象分组过程相关的大数据术语。这样做是为了了解它们之间的异同。探索性数据挖掘是一项重要任务，也是在各种领域（例如图像分析，模式识别，机器学习，计算机图形学，数据压缩等）中分析统计数据的常用策略。

15. Chukwa

Apache Chukwa是一个开源的大型日志收集系统，用于监视大型分布式系统。它是与Hadoop相关的常见大数据术语之一。它建立在Hadoop分布式文件系统（HDFS）和Map / Reduce框架的顶部。它继承了Hadoop的健壮性和可扩展性。Chukwa包含一个功能强大且灵活的工具包数据库，用于监视，显示和分析结果，以便可以以最佳方式使用收集的数据。

16. Columnar Database / Column-Oriented Database 列式数据库/面向列的数据库

一个按列而不是按行存储数据的数据库称为面向列的数据库。

17. Comparative Analytic-oriented Database

比较分析是一种特殊的数据挖掘技术，它使用统计策略（例如过滤，决策树分析，模式分析等）比较大型数据集，多个流程或其他对象。

18. Complex Event Processing (CEP) 复杂事件处理（CEP）

复杂事件处理（CEP）是分析和识别数据，然后将其组合以推断出能够建议复杂情况解决方案的事件的过程。CEP的主要任务是识别/跟踪有意义的事件并尽快对其做出反应。

D

19. Data Analyst 数据分析师

数据分析师负责收集，处理和执行数据的统计分析。数据分析师发现了如何使用这些数据来帮助组织做出更好的业务决策的方式。它是定义大数据职业的大数据术语之一。数据分析师与最终业务用户一起定义业务所需的分析报告的类型。

20. Data Aggregation 数据汇总

数据聚合是指从多个来源收集数据，以便将所有数据放到一个共同的庙中，以进行报告和/或分析。

21. Dashboard 仪表板

它是算法执行的分析的图形表示。该图形报告显示不同的颜色警报，以显示活动状态。绿灯表示正常操作，黄灯表示由于操作而受到冲击，红灯表示操作已停止。不同灯光的这种警觉性有助于跟踪操作状态并在需要时查找详细信息。

22. Data Scientist 数据科学家

数据科学家也是定义大数据职业的大数据术语。数据科学家是数据科学的从业者。他精通数学，统计学，计算机科学和/或数据可视化，可以为复杂的问题建立数据模型和算法来解决它们。

23. Data Architecture and Design 数据架构与设计

在IT行业中，数据体系结构由模型，策略标准或规则组成，这些模型，策略标准或规则控制聚合哪些数据以及如何在数据系统中安排，存储，集成和使用这些数据。它分为三个阶段

业务实体的概念表示
业务实体之间关系的逻辑表示
功能支持系统的物理构建

24. Database administrator (DBA) 数据库管理员（DBA）

DBA是与角色相关的大数据术语，其中包括容量规划，配置，数据库设计，性能监视，迁移，故障排除，安全性，备份和数据恢复。DBA负责维护和支持数据库内容和结构的正确性。

25. Database Management System (DBMS) 数据库管理系统（DBMS）

数据库管理系统是一种收集数据并以有组织的布局提供对它的访问的软件。它创建和管理数据库。DBMS为程序员和用户提供了一个组织良好的过程来创建，更新，检索和管理数据。

26. Data Model and Data Modelling 数据模型和数据建模

数据模型是数据库设计的起始阶段，通常由属性，实体类型，完整性规则，对象的关系和定义组成。

数据建模是通过使用某些正式技术为信息系统创建数据模型的过程。数据建模用于定义和分析支持业务流程的数据需求。

27. Data Cleansing 数据清理

数据清理是修改数据以删除不正确的拼写，重复的条目，添加丢失的数据并提供一致性的过程。这是必需的，因为不正确的数据可能导致错误的分析和错误的结论。

28. Document Management 文件管理

通常称为文档管理系统的文档管理是一种软件，该软件用于通过扫描仪跟踪，存储和管理电子文档和纸张的电子图像。这是您开始大数据职业应该知道的基本大数据术语之一。

29. Data Visualization 数据可视化

数据可视化是以图形或图形格式表示的数据表示形式，旨在传达信息或获取含义。它使用户/决策制定者可以直观地看到分析，从而使他们能够理解新概念。此数据有助于–

从数据中获得洞察力和意义
更有效地沟通数据和信息

30. Data Warehouse 数据仓库

数据仓库是用于分析和报告目的的存储数据的系统。它被认为是商业智能的主要组成部分。仓库中存储的数据是从销售或市场营销等操作系统上载的。

31. Drill 练习

该演练是针对Hadoop的开源，分布式，低延迟SQL查询引擎。它是为半结构化或嵌套数据构建的，可以处理固定模式。该演习在某些方面类似于Google的Dremel，并由Apache处理。

E

32. Extract, Transform, and Load (ETL) 提取，转换和加载（ETL）

ETL是三种数据库功能提取，转换和加载的缩写。这三个功能组合在一起成为一个工具，可以将它们从一个数据库放置到另一个数据库。

提取

这是从数据库读取数据的过程。

转变

这是将提取的数据转换为所需格式，以便可以将其放入另一个数据库的过程。

加载

这是将数据写入目标数据库的过程

F

33. Fuzzy Logic 模糊逻辑

模糊逻辑是一种基于真实度而不是通常的真/假（1或0）布尔代数的计算方法。

34. Flume

Flume被定义为一种可靠的，分布式的，可用的服务，用于在HDFS中聚集，收集和传输大量数据。它本质上很健壮。Flume体系结构本质上是灵活的，基于数据流。

G

35. Graph Database 图数据库

图数据库是边和节点的组/集合。节点代表实体，即企业或个人，而边缘代表节点之间的关系或连接。

您必须记住图形数据库专家给出的声明–

“如果可以将其白板，则可以绘制图形。”

36. Grid Computing 网格计算

网格计算是计算机资源的集合，用于使用来自各个域或多个分布式系统的资源来执行计算功能以达到特定目标。网格旨在解决重大问题，以保持过程的灵活性。网格计算通常用于科学/市场研究，结构分析，网络服务（例如，后台基础结构或ATM银行）等。

37. Gamification 游戏化

游戏化是指设计游戏以提高非游戏业务客户参与度的原则。不同的公司使用不同的游戏原则来增强对服务或产品的兴趣，或者简单地说，游戏化可以用来加深客户与品牌的关系。

H

38. Hadoop User Experience (HUE) Hadoop用户体验（HUE）

Hadoop用户体验（HUE）是一个开放源代码界面，可简化Apache Hadoop的使用。它是一个基于Web的应用程序。它具有MapReduce的工作设计师，HDFS的文件浏览器，用于创建工作流和协调器的Oozie应用程序，Impala，shell，Hive UI和一组Hadoop API。

39. High-Performance Analytical Application (HANA) 高性能分析应用程序（HANA）

高性能分析应用程序是一种软件/硬件方案，用于SAP的大量事务和实时数据分析内存计算平台。

40. HAMA

Hama基本上是一种基于大批量同步并行策略的大数据分析分布式计算框架，可用于高级和复杂的计算，例如图形，网络算法和矩阵。它是Apache软件基金会的顶级项目。

41. Hadoop Distributed File System (HDFS) Hadoop分布式文件系统（HDFS）

Hadoop分布式文件系统（HDFS）是Hadoop应用程序使用的主要数据存储层。它采用DataNode和NameNode架构来实现基于Java的分布式文件系统，该文件系统可通过高度可扩展的Hadoop集群提供对数据的高性能访问。它被设计为高度容错的。

42. HBase

Apache HBase是Hadoop数据库，它是一个开源，可伸缩，版本控制，分布式和大数据存储。HBase的一些功能是

模块化和线性可扩展性
易于使用的Java API
可配置和自动共享表
可扩展的JIRB外壳

43. Hive

Hive是一个基于Hadoop的开源数据仓库软件项目，用于提供数据汇总，分析和查询。用户可以使用称为HiveQL的类似SQL的语言编写查询。Hadoop是一个在分布式计算环境中处理大型数据集的框架。

I

44. Impala

Impala是一个开源MPP（大规模并行处理）SQL查询引擎，在计算机集群中用于运行Apache Hadoop。Impala为Hadoop提供了并行数据库策略，因此用户可以对存储在Apache HBase和HDFS中的数据应用低延迟SQL查询，而无需进行任何数据转换。

K

45. Key Value Stores / Key Value Databases 关键值存储/关键值数据库

键值存储或键值数据库是数据存储的一种范式，被设计用于存储，管理和检索数据结构。记录以编程语言的数据类型存储，并具有唯一标识记录的键属性。这就是为什么不需要固定数据模型的原因。

L

46. Load balancing 负载平衡

负载平衡是一种工具，它可以在计算机网络上的两台或多台计算机之间分配工作量，以使所有用户都希望更快地获得服务，从而在短时间内完成工作。这是计算机服务器群集的主要原因，它可以与软件或硬件一起使用，也可以与两者结合使用。

47. Linked Data 关联数据

链接数据是指可以在网络上共享或发布并与机器和用户协作的互连数据集。它是高度结构化的，与大数据不同。它用于构建语义Web，在语义Web中，Web上以标准格式提供了大量数据。

48. Location Analytics 位置分析

位置分析是从地理位置或业务数据位置中获取见解的过程。它是分析和解释数据所描绘的信息的视觉效果，它使用户可以将位置相关的信息与数据集联系起来。

49. Log File 日志文件

日志文件是一种特殊的文件类型，它使用户可以记录发生的事件或用户或任何正在运行的软件之间的操作系统或对话的记录。

M

50. Metadata 元数据

元数据是关于数据的数据。标识资产的是管理，描述性和结构性数据。

51. MongoDB

MongoDB是一个开源的NoSQL面向文档的数据库程序。它使用JSON文档以一种称为MongoDB BSON格式的敏捷方案保存数据结构。它可以非常快速，轻松地将数据集成到应用程序中。

52. Multi-Dimensional Database (MDB) 多维数据库（MDB）

多维数据库（MDB）是针对OLAP（在线分析处理）应用程序和数据仓库进行优化的一种数据库。使用关系数据库的输入可以轻松创建MDB。MDB是处理数据库中数据的能力，因此可以快速开发结果。

53. Multi-Value Database 多值数据库

多值数据库是一种能够理解三维数据的多维NoSQL数据库。这些数据库足以直接处理XML和HTML字符串。

商业多值数据库的一些示例是OpenQM，Rocket D3数据库管理系统，jBASE，系统间缓存，OpenInsight和InfinityDB。

54. Machine-Generated Data 机器生成的数据

机器生成的数据是机器（计算机，应用程序，进程或其他不人道的机制）生成的信息。机器生成的数据称为无定形数据，因为人类很少会修改/更改该数据。

55. Machine Learning 机器学习

机器学习是计算机科学领域，它利用统计策略来提供“学习”计算机上数据的功能。机器学习用于挖掘大数据中隐藏的机会。

56. MapReduce

MapReduce是一种处理技术，可通过集群上的并行分布式算法处理大型数据集。MapReduce作业有两种类型。“地图”功能用于将查询分为多个部分，然后在节点级别处理数据。“减少”功能收集“地图”功能的结果，然后找到查询的答案。当与HDFS结合使用时，MapReduce用于处理大数据。HDFS和MapReduce的这种耦合称为Hadoop。

57. Mahout

Apache Mahout是一个开源数据挖掘库。它使用数据挖掘算法进行回归测试，执行，聚类，统计建模，然后使用MapReduce模型实施它们。

N

58. Network Analysis 网络分析

网络分析是图形/图表理论的应用，该理论用于对网络术语中的节点之间的关系进行分类，理解和查看。这是分析连接并检查其在任何领域的能力的有效方法，例如预测，市场分析和医疗保健等。

59. NewSQL

NewSQL是一类现代的关系数据库管理系统，可为OLTP读/写工作负载提供与NoSQL系统相同的可伸缩性能。它是定义明确的数据库系统，易于学习。

60. NoSQL

被广泛称为“不仅仅是SQL”，它是一个用于数据库管理的系统。该数据库管理系统独立于关系数据库管理系统。NoSQL数据库不是建立在表上的，它也不使用SQL来处理数据。

O

61. Object Databases 对象数据库

以对象形式存储数据的数据库称为对象数据库。这些对象的使用方式与OOP中使用的对象相同。对象数据库不同于图形数据库和关系数据库。这些数据库大多数时候提供一种查询语言，有助于查找带有声明的对象。

62. Object-based Image Analysis 基于对象的图像分析

这是基于对象的图像的分析，它是由选定的相关像素（称为图像对象或简称为对象）获取的数据执行的。它不同于使用单个像素的数据进行的数字分析。

63. Online Analytical Processing (OLAP) 在线分析处理（OLAP）

在此过程中，使用三个运算符（向下钻取，合并以及切片和切块）对多维数据进行分析。

向下钻取是提供给用户查看底层详细信息的功能
合并是可用的汇总
切片和切块是为用户提供的选择子集并从各种上下文中查看它们的功能

64. Online transactional processing (OLTP) 在线事务处理（OLTP）

它是流程中使用的大数据术语，使用户可以访问大量的交易数据。这样做的方式是使用户能够从访问的数据中得出含义。

65. Open Data Center Alliance (ODCA) 开放数据中心联盟（ODCA）

OCDA是全球IT组织的组合。该财团的主要目标是增加云计算的发展。

66. Operational Data Store (ODS) 业务数据存储（ODS）

它被定义为收集和存储从各种来源获取的数据的位置。它允许用户在将数据发送给数据仓库报告之前对数据执行许多其他操作。

67. Oozie

这是用于处理系统的大数据术语，允许用户定义一组作业。这些作业以不同的语言编写，例如Pig，MapReduce和Hive。Oozie允许用户将这些作业相互链接。

P

68. Parallel Data Analysis 并行数据分析

将分析问题分解为较小的分区，然后在每个分区上同时运行分析算法的过程称为并行数据分析。这种类型的数据分析可以在不同的系统或同一系统上运行。

69. Parallel Method Invocation (PMI) 并行方法调用（PMI）

该系统允许程序代码同时调用或调用多个方法/函数。

70. Parallel Processing 并行处理

系统具有同时执行多个任务的能力。

71. Parallel Query 并行查询

可以将并行查询定义为可以在多个系统线程上执行以提高性能的查询。

72. Pattern Recognition 模式识别

在机器学习过程中对识别出的模式进行分类或标记的过程称为模式识别。

73. Pentaho

Pentaho是一个软件组织，提供开源商业智能产品，这些产品被称为Pentaho Business Analytics。Pentaho提供OLAP服务，数据集成，仪表板，报告，ETL和数据挖掘功能。

74. Petabyte 兆字节

等于1,024 TB或100万千兆字节的数据度量单位称为PB。

Q

75. Query 查询

查询是一种获取某种信息以得出问题答案的方法。

76. Query Analysis 查询分析

执行搜索查询分析的过程称为查询分析。完成查询分析以优化查询以获得最佳结果。

R

77. R

它是一种编程语言，也是图形和统计计算的环境。这是一种非常可扩展的语言，提供了许多图形和统计技术，例如非线性和线性建模，时间序列分析，经典统计检验，聚类，分类等。

78. Re-identification 重新识别

数据重新标识是将匿名数据与可用辅助数据或信息进行匹配的过程。这种做法有助于找出此数据所属的个人。

79. Real-time Data 实时数据

可以立即（即以毫秒为单位）创建，存储，处理，分析和可视化的数据称为实时数据。

80. Reference Data 参考数据

大数据术语定义了用于描述对象及其属性的数据。参考数据描述的对象实际上可以是虚拟的或物理的。

81. Recommendation Engine 推荐引擎

它是一种算法，可以分析客户在电子商务网站上进行的各种操作和购买。然后，该分析数据用于向客户推荐一些补充产品。

82. Risk Analysis 风险分析

它是跟踪行为，项目或决策风险的过程或过程。通过对数据集应用不同的统计技术来完成风险分析。

83. Routing Analysis 路由分析

查找最佳路由是一个过程或过程。通过使用各种变量进行运输可以提高效率并降低燃料成本。

S

84. SaaS 软件即服务

它是用于软件即服务的大数据术语。它允许供应商托管应用程序，然后使该应用程序可通过Internet使用。SaaS服务由SaaS提供商在云中提供。

85. Semi-Structured Data 半结构化数据

未通过常规方法应用而以传统方式表示的数据称为半结构化数据。该数据既不是完全结构化的也不是非结构化的，但是包含一些标签，数据表和结构化元素。很少有半结构化数据的示例是XML文档，电子邮件，表格和图形。

86. Server 服务器

服务器是一台虚拟或物理计算机，它接收与软件应用程序有关的请求，并因此通过网络发送这些请求。

87. Spatial Analysis 空间分析

空间数据（即拓扑和地理数据）的分析称为空间分析。这种分析有助于识别和了解有关特定区域或位置的所有信息。

88. Structured Query Language (SQL) 结构化查询语言（SQL）

SQL是一种标准的编程语言，用于检索和管理关系数据库中的数据。该语言对于创建和查询关系数据库非常有用。

89. Sqoop

它是一种连接工具，用于将数据从非Hadoop数据存储移动到Hadoop数据存储。该工具指示Sqoop从Teradata，Oracle或任何其他关系数据库中检索数据，并在Hadoop中指定目标位置以移动检索到的数据。

90. Storm

Apache Storm是用于数据处理的分布式，开放源，实时计算系统。它是必不可少的大数据术语之一，负责实时可靠地处理非结构化数据。

T

91. Text Analytics 文本分析

文本分析基本上是在基于文本的来源上应用语言学，机器学习和统计技术的过程。文本分析用于通过应用这些技术从文本数据中得出见解或含义。

92. Thrift

它是一个用于开发跨语言服务的软件框架。它将代码生成引擎与软件堆栈集成在一起，以开发可以在不同编程语言（例如Ruby，Java，PHP，C ++，Python，C＃等）之间无缝且高效地工作的服务。

U

93. Unstructured Data 非结构化数据

无法定义结构的数据称为非结构化数据。处理和管理非结构化数据变得困难。非结构化数据的常见示例是在电子邮件消息中输入的文本以及带有文本，图像和视频的数据源。

V

94. Value 价值

大数据术语基本上定义了可用数据的价值。收集和存储的数据可能对社会，客户和组织有价值。这是重要的大数据术语之一，因为大数据是针对大企业的，企业将获得一些价值，即从大数据中受益。

95. Volume 卷

大数据项与数据的总可用量有关。数据的范围可以从兆字节到布朗字节。

W

96. WebHDFS Apache Hadoop

WebHDFS是访问HDFS的协议，以利用行业RESTful机制。它包含本机库，因此可以访问HDFS。它利用Hadoop集群并行性帮助用户从外部连接到HDFS。它还从策略上提供了对所有Hadoop组件的Web服务访问。

97. Weather Data 天气数据

有助于追踪大气的数据趋势和模式被称为天气数据。该数据基本上由数字和因素组成。现在，实时数据可供组织以不同方式使用。例如物流公司使用天气数据来优化货物运输。

X

98. XML Databases XML数据库

支持以XML格式存储数据的数据库称为XML数据库。这些数据库通常与特定于文档的数据库连接。可以导出，序列化查询XML数据库的数据。

Y

99. Yottabyte

它是与数据测量有关的大数据术语。1千字节等于1000 ZB，即250万亿张DVD中存储的数据。

Z

100. ZooKeeper

它是一个Apache软件项目和Hadoop子项目，为分布式系统提供开放的代码名称生成。它还支持大型分布式系统的合并组织。

101. Zettabyte

它是与数据测量有关的大数据术语。1兆字节等于10亿兆字节或1000艾字节。

附：存储容量单位换算表：

1 Bit(比特) = Binary Digit

8 Bits = 1 Byte(字节)

1,000 Bytes = 1 Kilobyte

1,000 Kilobytes = 1 Megabyte

1,000 Megabytes = 1 Gigabyte

1,000 Gigabytes = 1 Terabyte

1,000 Terabytes = 1 Petabyte

1,000 Petabytes = 1 Exabyte

1,000 Exabytes = 1 Zettabyte

1,000 Zettabytes = 1 Yottabyte

1,000 Yottabytes = 1 Brontobyte

1,000 Brontobytes = 1 Geopbyte

翻译自Whizlabs。

大数据基础入门教程

发布了194 篇原创文章 · 获赞 3 · 访问量 3万+

私信关注

您应该知道的101个大数据术语

A

B

C

D

E

F

G

H

I

K

L

M

N

O

P

Q

R

S

T

U

V

W

X

Y

Z

猜你喜欢