elasticsearch reindex 重建索引
reindex功能是es的一个非常方便实用的功能,在工作中备份数据比较方便。比如:
- 要对现场的数据进行操作,怕搞乱了,可以先用reindex备份一下
- 当前表的mapping设置不合理,但是又不能修改,reindex到一个mapping合理的索引里
- 将几个索引的数据合并到一个索引里
注意:
reindex不会复制index的设置,所以得先设置好目标索引的setting和mapping,然后再index。
源index的文档id和目标index的文档id一样时,默认会覆盖,当然可手动配置冲突时行为
1. 简单的reindex
source里是源index,dest里是目标索引
POST _reindex
{
"source": {
"index": "pigg_test"
},
"dest": {
"index": "pigg_test2"
}
}
2. 只创建目标索引中缺少的文档
POST _reindex
{
"source": {
"index": "pigg_test"
},
"dest": {
"index": "pigg_test2",
"op_type": "create"
}
}
3. 设置批次大小
reindex底层是scroll,默认批次是1000条,可以设置多点
POST _reindex
{
"source": {
"index": "pigg_test",
"size": 5000
},
"dest": {
"index": "pigg_test2"
}
}
4. 遇到冲突继续
POST _reindex
{
"conflicts": "proceed",
"source": {
"index": "pigg_test"
},
"dest":
"index": "pigg_test2",
"op_type": "create"
}
}
5. 只reindex符合条件的数据
POST _reindex
{
"source": {
"index": "pigg_test",
"query": {
"term": {
"name.keyword": {
"value": "冬哥"
}
}
}
},
"dest": {
"index": "pigg_test2"
}
}
6. 只同步源index里部分字段
POST _reindex
{
"source": {
"index": "pigg_test",
"_source": ["name", "age"]
},
"dest": {
"index": "pigg_test2"
}
}
7. 屏蔽掉不想同步的字段
POST _reindex
{
"source": {
"index": "pigg_test",
"_source": {
"excludes": ["name"]
}
},
"dest": {
"index": "pigg_test2"
}
}
8. 用script脚本在同步时做数据处理
es支持的script非常强大,这个不详细讲,仅仅举个简单的例子
POST _reindex
{
"source": {
"index": "pigg_test"
},
"dest": {
"index": "pigg_test2"
},
"script": {
"source": "ctx._source.age += 2",
"lang": "painless"
}
}
9. 字段重新命名
同样是用script,讲name属性重命名为newName
POST _reindex
{
"source": {
"index": "pigg_test"
},
"dest": {
"index": "pigg_test2"
},
"script": {
"source": "ctx._source.newName = ctx._source.remove(\"name\")",
"lang": "painless"
}
}