Spark读取ElasticSearch数据库三种配置方式及其注意事项 - 代码天地

Spark读取ElasticSearch数据库三种配置方式及其注意事项

其他 2019-05-22 21:04:43 阅读次数: 0

******重点中的重点，这是首先要注意的问题：

就是导入的org.elasticsearch.elasticsearch-spark-20_2.11 Jar包的版本一定要和要读取的ES数据库的版本保持一致，

如果比数据库版本低，会直接报错，如果高于数据库的版本，数据的解析会出现问题。

首先配置SparkConf

1         SparkConf conf = new SparkConf()
2                 .setAppName("ElasticSearch-spark")
3                 .setMaster("local[1]")
4                 .set("es.es.index.auto.create", "true")
5 
6                 .set("es.nodes","127.0.0.1")
7                 .set("es.port","9200")
8                 .set("es.nodes.wan.only", "true");

第一种读取方式：

1         SparkSession sparkSession = SparkSession.builder().config(conf).getOrCreate();
2         JavaSparkContext jsc = new JavaSparkContext(sparkSession.sparkContext());//adapter
3         JavaRDD<Map<String, Object>> searchRdd = esRDD(jsc, "index" ).values();
4         for (Map<String, Object> item : searchRdd.collect()) {
5             item.forEach((key, value)->{
6                 System.out.println("search key:" + key + ", search value:" + value);
7             });
8         }

第二种读取方式：

1         JavaSparkContext sc = new JavaSparkContext(conf);
2         JavaPairRDD<String, Map<String, Object>> esRDD = JavaEsSpark.esRDD(sc, "index");
3         System.out.println(esRDD.count());
4         System.out.println(esRDD.collect().toString());
5         for(Tuple2 tuple:esRDD.collect()){
6             System.out.print(tuple._1()+"----------");
7             System.out.println(tuple._2());
8         }

第三种读取方式：

1         SparkSession spark = SparkSession.builder().config(conf).getOrCreate();
2         Dataset<Row> a  = spark
3                 .read()
4                 .format("es")
5                 .load("index")
6                 ;
7         System.out.println(a.schema());
8         a.show();

以上三种方式都可以返回ES中的数据，可针对需求自行选择。

记于2019年5月22日20点41分

猜你喜欢

转载自www.cnblogs.com/langeraa/p/10908418.html

Spark读取ElasticSearch数据库三种配置方式及其注意事项

spark中使用数据库的注意事项

laravel5数据库配置及其注意事项

Java中从键盘录入的三种方式及注意事项

vue创建全局组件的三种方式以及注意事项

关于oracle数据库读取数据的三种方式

Oracle数据库注意事项

数据库优化注意事项

数据库设计注意事项

数据库注意事项

数据库使用注意事项

PHP连接数据库 (Mysql) 的三种方式及其区别

Mysql修改密码的三种及注意事项

JAVA基础——枚举，枚举实现的三种方式，常用枚举类方法，枚举注意事项

Spark 三种方式查询数据

spring配置datasource三种方式数据库连接

三种不配置tnsnames.ora的另类sqlplus连接数据库方式 .

ThinkJDBC源码解析(二) 数据库连接配置的三种方式实现

TensorFlow：数据读取的三种方式

Laravel数据库操作的三种方式

三种方式修改数据库的引擎

数据库连接池的三种方式

QT读写Sqlite数据库的三种方式

jdbc连接数据库三种方式

PHP查询数据库的三种方式详解

Oracle数据库三种备份方式介绍

数据库中的三种删除方式

JDBC连通数据库的三种方式

PHP连接数据库的三种方式

laravel 操作mysql数据库的三种方式

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)