Le principe de base du grand système de technologie de données && base de données NoSQL

1, le motif généré NoSQL

  base de données relationnelle est difficile à traiter l'augmentation des données de masse, réparties latéralement étendu des bases de données relativement faible, construit de non-relationnelles (appelé NoSQL), son but est de construire un simple, distribuée, évolutive, efficace et facile à utiliser le nouveau système de base de données.

2, caractéristiques NoSQL

NoSQL fournit généralement le stockage de données distribuées, gestion unifiée et l'entretien des tables de données, et distribuées rapidement et écrire une simple requête de capacités.

  • Un logiciel NoSQL populaire pour répondre affaires a besoin d'étudiants
  • En second lieu, le logiciel bien connu est open source NoSQL

3, scénarios d'application typique NoSQL

  • données massives de journal, les données d'entreprise, ou suivi de la gestion des données et requêtes
  • spécial simplifié ou modèles de données complexes
  • Comme un entrepôt de données, l'extraction de données, les systèmes back-end système OLAP ou support de données

Data Warehouse : données orientées sujet, intégrées, non modifiable par rapport au temps ensemble de la gestion de l' entreprise et la prise de décision.

les sources de données de l'entrepôt de données peuvent être collectées à partir de la pluralité de données de fonctionnement et les données de pré-traitement, telles que les opérations de lavage, d'extraction et de conversion, la conversion des données en un motif uniforme. Les données traitées seront organisées en fonction des besoins de prise de décision, forment l'ensemble orienté objet, intégré, stable des données, le contenu des données reflète les changements historiques dans l'entreprise et les opérations

Data Mining: du processus de découverte centralisée de grandes quantités de données nouveau modèle utile.

OLAP : traitement analytique en ligne, OLAP peut être considéré comme un système basé sur des applications d'entrepôt de données, les décideurs et le grand pour l' analyse des données du personnel, recherche et analyse des quantités massives de données pour un thème d'affaires spécifique

OLTP : traitement des transactions en ligne, à savoir l'utilisation des implémentations de bases de données relationnelles traditionnelles basées sur les transactions système d'entreprise.

Base de données : une collecte de données, pour stocker et organiser les données selon les informations de configuration de données de conteneur de logiciel ou d'un entrepôt

4, la différence entre la base de données relationnelles et NoSQL

  • bases de données relationnelles sont mieux en mesure de maintenir l'intégrité et la cohérence des données de transaction, ainsi que pour soutenir les opérations complexes sur les données
  • Gestion simple de base de données non relationnelle et d'interrogation des données dans un environnement distribué

5, grand système de technologie de données

5.1 caractéristiques

Il contient plusieurs caractéristiques principales: une grande capacité, diversifiée, à grande vitesse, des données précieuses, en pleine ligne

  • Diversité: le service de données peut nécessiter une grande variété de types de systèmes de traitement de données en même temps de différentes entreprises, différents formats de données, les différentes zones. Peut également être semi-structurées (par exemple, les journaux) sont traités (par exemple, des vidéos et des photos, etc.) et des données non structurées

5.2 Acquisition

Grand processus d'acquisition de données: les données brutes sont chargées dans le processus de grands systèmes de gestion de données distribuées. Il y a deux façons de collecte:

  • collection en ligne: surveiller directement les changements de sources de données, les nouvelles données en temps réel ou quasi acquisition en temps réel générés et affichés dans le grand système de données. Le processus de chargement: mode push ou pull, qui est, l'initiative des services de distribution de données pour afficher les données et obtenir les données
  • Hors ligne collection: un grand système de données périodiquement façon de télécharger des données à partir d'une source de données.

5.3 mémoire

Il utilise une architecture distribuée, et offre un accès à travers le réseau.

  • DAS: stockage à connexion directe, des dispositifs de stockage se fait par un câble directement au serveur
  • NAS: stockage d'accès au réseau, un dispositif de stockage connecté au réseau, généralement un réseau standard TCP / IP. données d'accès client réseau Protocole (NFS) de fichiers stockés
  • SAN: Storage Area Network, un des dispositifs de stockage en réseau distincts, souvent en utilisant un connecteur de fibre optique.
  • Cloud Storage: le stockage comme hors de service.

avantages de stockage Cloud:

  • Les utilisateurs ne plus besoin d'acheter du matériel de stockage et de logiciels de gestion, mais grâce à l'utilisation de l'interface réseau loué services de stockage
  • Les utilisateurs ne doivent plus effectuer l'opération et la maintenance des systèmes de stockage, mais en payant au fournisseur de services de stockage en nuage pour la sauvegarde des données et la maintenance du système

Les types courants de stockage en nuage

  • magasins d'objets: les données dans un récipient, en utilisant une application cliente HTTP ou comme interface de couche reposant pour accéder à chaque bloc de données et les métadonnées
  • Stockage de fichiers: modèle cloud service basé sur NAS pour atteindre, vous pouvez louer, Réseau sans entretien du système de fichiers
  • Bloc de Stockage (volume de stockage): monter une lettre de lecteur virtuel peut être mis en œuvre dans la fonction hôte de nuage (par exemple, un volume de stockage virtuel est mis en correspondance dans les fenêtres disque D hôte), et la mise en miroir de l'hôte et le stockage des nuages ​​d'instantané et d'autres fonctions
  • stockage paire valeur clé: la mise en œuvre directe de la clé forme de base de données NoSQL sur la plate-forme cloud, installation gratuite, sans entretien, les utilisateurs peuvent utiliser directement
  • stockage de base de données: mise en œuvre directe sur une plate-forme cloud base de données relationnelle
  • stockage instantané et stockage mis en miroir: les images de machines virtuelles et les instances sur la plate-forme de nuage pour stocker des instantanés. Habituellement, la mise en œuvre de stockage à base de blocs
  • magasins de file d'attente du message: un message asynchrone est un moyen important de communication dans un système distribué. En général, l'expéditeur du message envoie un message à un conteneur de stockage sécurisé, le message et attendre le récepteur.

5.4 大数据的管理和使用

原因:将数据汇总到一处,很难实现且效率低下。

遵循“计算本地化”策略,所谓计算本地化,首先需要将数据存储在多个网络节点之上,各个节点既是存储节点也是处理节点 。

查询和处理数据时,将查询指令或处理数据所需的程序分发都各个节点,每个节点只处理或分析一部分数据,最好是本节点的数据。程序随数据移动的并行处理的方式,在较短时间内完成了处理任务

NoSQL系统会自行实现分布式存储,例如MongoDB系统;HBase系统基于HDFS分布式文件系统构建,并将所有文件操作交给HDFS,自身只负责数据库表的操作

大数据的存储和管理实现了文件方式的大数据管理,但对大数据的使用存在困难,无法直接看出数据结构和关系,没有库表的概念

NoSQL等工具会对大数据实现表格化管理、快速查询支持,以及提供数据库系统的集群的监控、扩展等维护管理功能。

NoSQL在大数据业务中的基本功能就是实现:分布式数据组织、管理和分布式数据查询,有两种方式。

  • 第一种是半结构化存储的大数据文件映射为表,即对文件进行纵向分割,对每个列定义其名称和属性,将这些名称属性作为元数据管理起来,即实现表格化管理。由于是分块存储,映射成表后,也可以实现分布式查询
  • 第二种是要求数据按照自身所规定的格式进行存储,可能需要通过数据导入等方式将原始数据按照新的格式重新存储一遍

分布式环境下大数据可以的操作:预处理、数据统计分析、数据挖掘

  预处理工具:Hadoop的MapReduce模块、Spark

  大数据挖掘和机器学习引擎:hadoop的Mahout、Spark的Mlib、谷歌的TensorFlow

6、数据可视化

从形式上可以大致分为统计图形和主题图两类

7、大数据安全和治理

7.1 身份管理和访问控制

  • 身份管理:对用户身份(凭证)的管理和身份认证。
  • 访问控制:指按照用户的身份或属性来限制和管理用户对资源的访问权限

大数据场景下,数据存储在集群环境中,且集群节点随数据增长而添加。除了要解决客户端访问集群时的认证授权问题,还要解决集群间各节点的认证授权问题,以防止攻击者冒充某个服务节点。NoSQL数据库提供了基于用户名口令的认证与授权方式,实现客户端到服务器的认证授权,Hadoop等大数据系统提供了Kerberos认证的身份管理和权限管理,一方面提供对客户端的身份认证,另一方面提供节点或组件之间的身份认证

7.2 大数据加密

主要包括传输加密和存储加密

  • 数据存储加密,常见的策略是将加密的数据上传到存储平台,使用时下载到本地再解密
  • 传输加密,不仅要解决加密算法的问题,也要解决秘钥传输和身份认证等一系列问题,通过SSL协议和数据分块后进行透明加密等方式解决这些问题

Hadoop目前采用SSL协议和数据分块后进行透明加密等方式

隐私保护和准标识符保护

Je suppose que tu aimes

Origine www.cnblogs.com/wendyw/p/12623978.html
conseillé
Classement