spark ml包 - 代码天地

spark ml包

其他 2021-10-08 13:03:37 阅读次数: 0

ml包包括三个主要的抽象类：转换器（Transformer）、评估器（Estimator）和管道（Pipeline）
pyspark ML中管道的概念用来表示从转换到评估（具有一系列不同阶段）的端到端的过程，这个过程可以对输入的一些原始数据（以DataFrame形式）执行必要的数据加工（转换），最后评估模型。

一个管道可以被认为是由一系列不同阶段组成的。在Pipeline对象上执行fit方法时，所有阶段按照stage参数中指定的顺序执行；stage参数是转换器和评估器对象的列表。管道对象的fit方法执行每个转换器的transform方法和所有评估器的fit方法。

通常，前一阶段的输出会成为下一阶段的输入：当从转换器或评估器抽象类型派生时，需要实现getOutputCol()方法，该方法返回创建对象时指定的outputCol参数的值。

(1)DataFrame：数据源，可以容纳多种数据类型。

(2)Transformer：是可以将一个DataFrame变换成另一个DataFrame的算法。例如，一个训练好的模型是一个Transformer，通过transform方法，将原始DataFrame转化为一个包含预测值的DataFrame。

(3)Estimator：是一个算法，接受一个DataFrame，产生一个Transformer。例如，一个学习算法（如PCA,SVM）是一个Estimator，通过fit方法，训练DataFrame并产生模型Transformer。

猜你喜欢

转载自blog.csdn.net/qq_16792139/article/details/120062243

spark-ML基础

spark-ml和jpmml-sparkml生成pmml模型过程种遇到的问题

spark.ml机器学习模块

Spark-ML 线性回归 LinearRegression

spark.ml支持算法总结

Spark.ML之PipeLine学习笔记

SparkML -- LightGBM On Spark

机器学习特征值转换(使用spark.ml)

SparkML -- LightGBM On Spark 导出pmml示例

SparkML -- LightGBM On Spark 回归LightGBMRegressor示例

scala-MLlib官方文档---spark.ml package--clustering+model selection and hyperparameter tuning

scala-MLlib官方文档---spark.ml package--Extracting、transforming and selecting features

scala-MLlib官方文档---spark.ml package--Classification and regression

scala-MLlib官方文档---spark.ml package--basic Statistics+Data source

scala-MLlib官方文档---spark.ml package--ML Pipelines+Collaborative Filtering+Frequent Pattern Mining

SparkML-初探-文本分类

sparkml_实战全流程_LogisticRegression(三)

sparkml_实战全流程_LogisticRegression(二)

sparkml_实战全流程_LogisticRegression(一)

SparkML -- LightGBM On Spark 重要性LightGBMRanker示例

SparkML -- LightGBM On Spark 二分类LightGBMClassifier示例

【Spark】(task5)SparkML基础（分类 | 聚类模型）

【Spark】(task4)SparkML基础（数据编码）

【Spark】(task8)SparkML中的pipeline通道建立

spark ml包

scala-sparkML学习笔记：serializable custom transformer with spark-scala

scala-sparkML学习笔记：Execption in thread "main" java.lang.AbstractMethodError: ml.dmlc.xgboost4j.scala

SparkMl之pipeline

spark ml

使用spark ML创建机器学习流水线,ml包和mllib包的区别

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)