MapReduce pour la déduplication de données

Lien original:

https://www.toutiao.com/i6764933201203823107/

Concept: « La déduplication des données » avant tout à apprendre et à effectuer des données significatives en utilisant le dépistage parallèle de la pensée. Le nombre de types de données statistiques sur les grands ensembles de données, telles que l' informatique l' accès à ces tâches apparemment complexes sont impliqués à partir des données site de journal déduplication.

Le but ultime est de rendre la déduplication des données données brutes apparaît plus d'une fois dans les données apparaît une seule fois dans le fichier de sortie. Une fois le processus MapReduce, la sortie de carte <key, value> lecture aléatoire par le processus rassemblés en <clé, valeur-list> pour réduire. Nous pensons naturellement de tous enregistrer les mêmes données doivent réduire une machine, peu importe combien de fois les données apparaissent aussi longtemps que la sortie une fois le résultat final sur elle. Le béton est les données d'entrée à réduire comme la clé, alors que la valeur liste n'est pas nécessaire (peut être réglé sur null). Lors de la réception de réduire un <clé, valeur-list> pour copier l'entrée de touche directement à la sortie de la clé, et la valeur réglée à une valeur nulle, la sortie <key, value>.

Si nos sources de données sont les suivantes:

 

Objectif: écrire des programmes MapReduce, selon le commerce de gros-id, qui sont des produits de base dans les statistiques des utilisateurs.

Préparons pour générer des données analogiques, écrire du code Java

Créez un projet, l'emballage et la structure de classe comme suit

 

Génère un nombre aléatoire

 

Générer une date aléatoire

 

Ecrire IO

 

Ecrire génération de code

 

génération de données

 

projet Maven

 

fichier de configuration Pom

 

 

 

Créer une déduplication de données de classe

 

Carte et écrire Réduire

 

 

projet d'emballage

 

Démarrer Hadoop

 

Télécharger les données

 

Les données téléchargées vers les HDFS

 

Exécuter package jar

pot de fil /data/removal/removal-client.jar com.xlglvc.xxx.mapredece.removal.Removal /removalinput/data.txt / removaloutput

 

Nous considérons les résultats

 

 

Exercice: Nous pouvons écrire un MapReduce, il y a un certain nombre de données statistiques?

 

Je suppose que tu aimes

Origine www.cnblogs.com/bqwzy/p/12528462.html
conseillé
Classement