掌握Spark机器学习库-08.7-决策树算法实现分类 - 代码天地

掌握Spark机器学习库-08.7-决策树算法实现分类

其他 2018-10-15 10:53:49 阅读次数: 0

数据集

iris.data

数据集概览

代码

package org.apache.spark.examples.examplesforml

import org.apache.spark.SparkConf
import org.apache.spark.ml.classification.{DecisionTreeClassifier, NaiveBayes}
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.sql.SparkSession

import scala.util.Random

object DeTree {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local").setAppName("iris")
    val spark = SparkSession.builder().config(conf).getOrCreate()
    spark.sparkContext.setLogLevel("WARN") ///日志级别

    val file = spark.read.format("csv").load("D:\\8-6决策树\\iris.data")
    //file.show()

    import spark.implicits._
    val random = new Random()
    val data = file.map(row =>{
      val label =  row.getString(4) match {
        case "Iris-setosa" => 0
        case "Iris-versicolor" => 1
        case "Iris-virginica" => 2
      }

      (row.getString(0).toDouble,
        row.getString(1).toDouble,
        row.getString(2).toDouble,
        row.getString(3).toDouble,
        label,
        random.nextDouble())
    }).toDF("_c0","_c1","_c2","_c3","label","rand").sort("rand")//.where("label = 1 or label = 0")

    val assembler = new VectorAssembler().setInputCols(Array("_c0","_c1","_c2","_c3")).setOutputCol("features")

    val dataset = assembler.transform(data)
    val Array(train,test) = dataset.randomSplit(Array(0.8,0.2))

    val dt = new DecisionTreeClassifier().setFeaturesCol("features").setLabelCol("label")
    val model = dt.fit(train)
    val result = model.transform(test)
    result.show()

    val evaluator = new MulticlassClassificationEvaluator()
      .setLabelCol("label")
      .setPredictionCol("prediction")
      .setMetricName("accuracy")
    val accuracy = evaluator.evaluate(result)
    println(s"""accuracy is $accuracy""")
  }
}

输出结果：

猜你喜欢

转载自www.cnblogs.com/moonlightml/p/9789707.html

掌握Spark机器学习库-08.7-决策树算法实现分类

机器学习分类算法---决策树

机器学习（十一）分类算法之决策树算法

机器学习--分类算法--决策树算法理论

机器学习入门（七）：分类算法——决策树算法

Python机器学习(1)——决策树分类算法

【机器学习基础】决策树分类算法

《机器学习核心技术》分类算法 - 决策树

机器学习基础之《分类算法（6）—决策树》

机器学习-04-分类算法-01决策树

【机器学习+python（8）】分类决策树的介绍与实现

【机器学习】CART分类决策树+代码实现

【机器学习】分类决策树基本介绍+代码实现

机器学习笔记——分类决策树的Sklearn实现

机器学习分类器---决策树

机器学习分类篇-决策树

机器学习：分类、回归、决策树

机器学习---决策树分类代码

Python实现机器学习算法：决策树算法

决策树算法实现分类案例

机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树

【机器学习】【决策树】算法之python实现

【机器学习】决策树（上）——从原理到算法实现

机器学习算法及实战——决策树代码实现（三）

机器学习算法及代码实现--决策树

机器学习（七）决策树算法研究与实现

机器学习之--决策树递归算法实现

机器学习算法之决策树原理与实现

机器学习算法总结--决策树

机器学习之决策树算法

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)