Condition : Calculer la moyenne des valeurs dans le fichier de données
arrière-plan:
- Vous disposez d'un fichier de données contenant une série de valeurs, une par ligne, séparées par des virgules.
- Vous souhaitez utiliser le framework informatique distribué Apache Spark pour lire les valeurs d'un fichier de données et calculer leur moyenne.
Exigences fonctionnelles :
- Initialisez une application Spark avec la configuration et le contexte Spark.
- Lisez les valeurs du fichier de données et représentez chaque ligne de texte sous forme de RDD.
- Extrayez les valeurs des lignes de texte pour les calculs numériques.
- Calculez la moyenne de toutes les valeurs.
- Imprimez la moyenne calculée.
- Fermez le contexte Spark pour libérer des ressources.
entrer:
- Fichier de données contenant des valeurs séparées par des virgules.
sortir:
- La valeur moyenne imprimée par la console.
package com.bigdata;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import java.text.DecimalFormat;
public class CalculateMeanForEachLineWithSpark {
public static void main(String[] args) {
SparkConf conf = new SparkConf()
.setAppName("CalculateMeanForEachLineWithSpark")
.se