11 | Spark calcule la valeur moyenne de chaque ligne du fichier de données

Condition : Calculer la moyenne des valeurs dans le fichier de données

arrière-plan:

  • Vous disposez d'un fichier de données contenant une série de valeurs, une par ligne, séparées par des virgules.
  • Vous souhaitez utiliser le framework informatique distribué Apache Spark pour lire les valeurs d'un fichier de données et calculer leur moyenne.

Exigences fonctionnelles :

  1. Initialisez une application Spark avec la configuration et le contexte Spark.
  2. Lisez les valeurs du fichier de données et représentez chaque ligne de texte sous forme de RDD.
  3. Extrayez les valeurs des lignes de texte pour les calculs numériques.
  4. Calculez la moyenne de toutes les valeurs.
  5. Imprimez la moyenne calculée.
  6. Fermez le contexte Spark pour libérer des ressources.

entrer:

  • Fichier de données contenant des valeurs séparées par des virgules.

sortir:

  • La valeur moyenne imprimée par la console.
package com.bigdata;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import java.text.DecimalFormat;

public class CalculateMeanForEachLineWithSpark {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf()
                .setAppName("CalculateMeanForEachLineWithSpark")
                .se

Je suppose que tu aimes

Origine blog.csdn.net/weixin_44510615/article/details/132642784
conseillé
Classement