HBase Scan 中文字符串 - 代码天地

HBase Scan 中文字符串

其他 2019-04-22 14:41:06 阅读次数: 0

Author：Pirate Leo

myBlog: http://blog.csdn.net/pirateleo/

myEmail: [email protected]

转载请注明出处，谢谢。

文中可能涉及到的API：

Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/

HBase: http://hbase.apache.org/apidocs/index.html?overview-summary.html

Begin！

在设置scan的startRowKey与endRowKey时，经常需要在某个条件字符串后面补充出一个范围。（再比如SingleColumnValueFilter也会用到）

比如：我的条件字符串是“abc”，scan时我需要将下述内容都囊括到我scan的范围内。

abc123

扫描二维码关注公众号，回复： 5971357 查看本文章

abcdabc

abccca

....

这时候我startRowKey使用“abc”即可，上述字符串按字典序都比“abc”要大，“abc”串c之后的值是0嘛~

而endRowKey最初我使用了“abc~”，因为我查ASCII码表时‘~’是倒数第二个，值为127，足够大，肯定大于上述串中的1、d、c等字符。

这样做，在处理英文数据时就足够了，系统运行正常。

但当我处理中文数据时，中文一般都是以UTF-8格式处理的，一个汉字表示出来类似“0xe6，0xc2，0xe1”。0xe6大于127。所以使用‘~’遇到中文必然悲催。

我的解决方法：

使用UltraEdit，进入十六进制编辑模式，将值改为FF。然后回到文本模式，将刚才的字符复制下来。这个字符应该是一个不可显示的字符，看着好像两个空格的长度。

然后在设置endRowKey时

new String(name + " "); //这里只是示例，引号间就是刚才复制的那个字符。将这个字符串作为endRowKey，果然所有的中文字符就囊括在内了。
---------------------
作者：胡同里的民工
来源：CSDN
原文：https://blog.csdn.net/PirateLeo/article/details/7957109
版权声明：本文为博主原创文章，转载请附上博文链接！

猜你喜欢

转载自blog.csdn.net/longyangaaoo/article/details/89378011

HBase Scan 中文字符串

HBase处理中文字符串

HBase的Scan

hbase并行scan

HBase Scan类用法

HBase Scan,Get用法

HBase Scan流程分析

hbase scan超时问题

Hbase Scan的重要参数

Hbase API 查询（scan）

HBase-Scan

hbase学习记录之scan

HBase shell scan 模糊查询

HBase scan RPC次数计算

HBase最佳实践 – Scan用法

HBase最佳实践之Scan

Hbase 客户端Scan

hbase scan 部分用法

HBase最佳实践Scan系列一Scan用法详解

hbase的Scan和Get的blockCacheHitRatio区别

MR中Hbase的Scan使用技巧

HBase Scan & Filter原理/流程详解

HBase scan setBatch和setCaching的区别

Hbase shell scan 过滤器

Hbase Filter+Scan 查询效率优化

Hbase Scan查询左右区间开闭问题

hbase(0.94) get、scan源码分析

关于HBase 中Scan扫描的优化（重要）

HBase的rowkey排序和scan输出顺序

HBase scan优化之设置 timerange

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)