BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析 - 代码天地

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

其他 2019-06-26 12:13:17 阅读次数: 0

BR-MLP是基于大数据BR-ODP的分布式数据挖掘平台,基于Hadoop和Spark技术，支持海量数据挖掘。提供数据源、数据预处理、特征工程、统计分析、机器学习……组件。

数据挖掘平台

1.数据源
提供数据集载入方案和方案中数据保存到平台中的功能，

2.数据预处理
对数据进行清洗、类型转化、值填充等，使数据内容和结构更规整，以便后续组件处理，其包含:去除重复、随机采样、分层采样……

3特征工程
对预处理好的规整数据进行更深入的处理，主要有尺度变换、异常平滑、特征抽取和降维等。

特征离散、特征抽取……是其显著特征

4统计分析
对数据统计分析，了解数据的整体或详情、分布、相关性和适配度检验等，使我们在做数据预处理和特征工程时，心中有数，知道哪些因素对我们最终的结果影响比较大等。

5分类与回归
构建分类或回归模型，创建的模型应用于后续的业务数据（应用数据）的预测/分类、回归等。BR-MLP包括决策树分类、决策树回、朴素贝叶斯、随机森林分类……等12个算法。

6聚类
提供无监督的聚类机器学习方法，包括文本主题聚类等，可单独使用，进行自动分类，也可以和分类算法结合使用，先用聚类得到类别，再将得到的类别作为分类建模中的标签，构建分类模型。

7协同过滤
BR-MLP支持协同过滤，可用于分辨某特定顾客可能感兴趣的东西，这些结论来自于对其他相似顾客对哪些产品感兴趣的分析。协同过滤以其出色的速度和健壮性，在全球互联网领域炙手可热。

8关联分析
用于分析事物之间的关联性，包括人与人之间的关联性，物与物之间的关联性，最经典的是尿布与啤酒的案例，在购物篮分析中很常用。

9深度学习
通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

10模型应用
选择已经建好的算法模型，将选出的模型应用于业务层面。

11可视化
将分类/回归、聚类模型应用结果进行图形化展现。

转载于:https://blog.51cto.com/14191705/2410850

猜你喜欢

转载自blog.csdn.net/weixin_33978016/article/details/93033240

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

安装Spark+hadoop，spark、hadoop分布式集群搭建...(亲自搭建过！！)

Hadoop已经是分布式数据处理的实际解决方案了

基于zookeeper分布式锁的解决方案

分布式事务-基于X/A协议的解决方案

基于MQ的分布式事务解决方案

基于消息队列的分布式事务解决方案

基于activemq的分布式事务解决方案

基于Seata的分布式事务解决方案

分布式事务解决方案——基于Atomikos的实现

基于大数据分布式流处理技术的实时反欺诈解决方案

数据库：分布式事务的解决方案

记录分布式数据库解决方案

分布式及分布式事务解决方案

分布式事务的解决方案

分布式锁解决方案

分布式事务解决方案

分布式事物解决方案

分布式事务-解决方案

分布式事务及解决方案

分布式id解决方案

分布式锁的解决方案

分布式事务与解决方案

分布式事务，解决方案

分布式Session解决方案

分布式解决方案概论

分布式Session的解决方案

OceanBase X Flink 基于原生分布式数据库构建实时计算解决方案

配置Hadoop 伪分布式 _NameNode格式化问题_解决方案

Centos下基于Hadoop安装Spark（分布式）

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)