Hive函数大全（特全）

文章目录

一、数学函数

1. 取整函数: round
2. 指定精度取整函数: round
3. 向下取整函数: floor
4. 向上取整函数: ceil
5. 向上取整函数: ceiling
6. 取随机数函数: rand
7. 自然指数函数: exp
8.自然对数函数: ln
9. 以10为底对数函数: log10
10. 以2为底对数函数: log2
11. 对数函数: log
12. 幂运算函数: pow
13. 开平方函数: sqrt
14. 二进制函数: bin
15. 十六进制函数: hex
16. 反转十六进制函数: unhex
17. 进制转换函数: conv
18. 绝对值函数: abs
19. 正取余函数: pmod
20. 正弦函数: sin
21. 反正弦函数: asin
22. 余弦函数: cos
23. 反余弦函数: acos
24.正切函数:tan
25.反正切函数:atan
26.弧度值转换角度值:degrees
27.角度值转换成弧度值:radians
28. positive函数: positive
29. negative函数: negative
30.判断正负函数:sign
31.数学e函数:e
32.数学pi函数:pi
33.阶乘函数:factorial
34.立方根函数:cbrt
35.左移函数:shiftleft
36.右移函数:shiftright
37.无符号按位右移函数:shiftrightunsigned
38.求最大值函数:greatest
39.求最小值函数:least
40.银行家舍入法函数:bround
41.银行家精确舍入法函数:bround

二、日期函数

1. UNIX时间戳转日期函数:from_unixtime
2. 获取当前UNIX时间戳函数:unix_timestamp
3. 日期转UNIX时间戳函数:unix_timestamp
4. 指定格式日期转UNIX时间戳函数:unix_timestamp
5. 日期时间转日期函数:to_date
6. 日期转年函数: year
7. 日期转月函数: month
8. 日期转天函数: day
9. 日期转小时函数: hour
10. 日期转分钟函数: minute
11. 日期转秒函数: second
12. 日期转周函数:weekofyear
13. 日期比较函数: datediff
14. 日期增加函数: date_add
15. 日期减少函数: date_sub
16. 转化成指定的时区下时间戳函数: from_utc_timestamp
17. 转化成UTC下的时间戳函数: to_utc_timestamp
18.当前时间日期函数:current_date
18.当前时间日期函数:current_timestamp
19.月份增加函数:add_months
20.最后一天的日期函数:last_day
21.下一个星期X所对应的日期函数:next_day
22.时间的最开始年份或月份函数:trunc
23.相差的月份函数:months_between
24.指定格式返回时间函数:date_format
25.当前星期函数:dayofweek
26.季节函数:quarter

三、条件函数

1. If函数: if
2. 空查找函数: nvl
3. 非空查找函数: COALESCE
4. 条件判断函数：CASE
5. 条件判断函数：CASE
6. 空值判断函数：isnull
7. 非空值判断函数：isnotnull

四、字符函数

1. 首字符ascii函数：ascii
2. 转换成64位的字符串：base64
3. 字符串连接函数：concat
4. 字符串连接函数：context_ngrams
5. 带分隔符字符串连接函数：concat_ws
6. 指定的字符集将二进制值bin解码成字符串：decode
7. 指定的字符集charset将字符串编码成二进制值：encode
8. 集合查找函数:find_in_set
9. 将数值X转换成"#,###,###.##"格式字符串：format_number
10. json解析函数：get_json_object
11. 文件数据与字符串str匹配： in_file
12. 查找字符串str中子字符串substr出现的位置：instr
13. 字符串长度函数：length
14.第一次出现的位置：locate
15. 字符串转小写函数：lower,lcase
16. 左补足函数：lpad
17. 左边去空格函数：ltrim
18.返回出现次数TOP K的的子序列：ngrams
19. URL解析函数：parse_url
20. printf风格格式输出字符串：printf
21. 正则表达式解析函数：regexp_extract
22. 正则表达式替换函数：regexp_replace
23. 重复字符串函数：repeat
24. 字符串反转函数：reverse
25. 右补足函数：rpad
26. 右边去空格函数：rtrim
27. 字符串str将被转换成单词数组：sentences
28. 空格字符串函数：space
29. 分割字符串函数: split
30. 字符串str按照指定分隔符转换成Map: split
31. 字符串截取函数：substr,substring
32. 字符串截取函数：substr,substring
33. 截取第count分隔符之前的字符串：substring_index
34. 字符串替换成to中的字符串：substring_index
35. 去空格函数：trim
36. 将64位的字符串转换二进制值：trim
37. 字符串转大写函数：upper,ucase
38.首字母大写函数：initcap
39. 两个字符串之间的差异大小： levenshtein
40.字符串转换成soundex字符串：soundex

五、聚合函数

1. 个数统计函数: count
2. 总和统计函数: sum
3. 平均值统计函数: avg
4. 最小值统计函数: min
5. 最大值统计函数: max
6. 非空集合总体变量函数:var_pop
7. 非空集合样本变量函数:var_samp
8. 总体标准偏离函数:stddev_pop
9. 样本标准偏离函数:stddev_samp
10.协方差函数:covar_pop
11. 样本协方差函数:covar_samp
12.相关系数函数:corr
13．中位数函数:percentile
14. 中位数函数:percentile
15. 近似中位数函数:percentile_approx
16. 近似中位数函数:percentile_approx
17. 直方图:histogram_numeric

六、表生成函数

1. explode
2. explode
3. explode
4. posexplode
5. posexplode
6. posexplode
7. parse_url_tuple
8. parse_url_tuple

七、类型转换函数

1. 转换成二进制: binary
2. expr转换成type类型: cast

八、集合函数

1. Map类型长度函数: size(Map

一、数学函数

1. 取整函数: round

语法: round(double a)

返回值: double

说明:返回double类型的整数值部分（遵循四舍五入）

举例：
hive> select round(10.235);
OK
10.0

2. 指定精度取整函数: round

语法: round(double a, int d)

返回值: DOUBLE

说明:返回指定精度d的double类型

举例：
hive> select round(3.141592,4);
OK
3.1416

3. 向下取整函数: floor

语法: floor(double a)

返回值: BIGINT

说明:返回等于或者小于该double变量的最大的整数

举例：

hive> select floor(3.1415926);
OK
3

hive> select floor(-10.2);
OK
-11

4. 向上取整函数: ceil

语法: ceil(double a)

返回值: BIGINT

说明:返回等于或者大于该double变量的最小的整数

举例：
hive> select ceil(10.1);
OK
11

5. 向上取整函数: ceiling

语法: ceiling(double a)

返回值: BIGINT

说明:与ceil功能相同

举例：
hive> select ceiling(3.1415926);
OK
4

6. 取随机数函数: rand

语法: rand(),rand(int seed)

返回值: double

说明:返回一个double型0到1范围内的随机数。如果指定种子seed，则会等到一个稳定的随机数序列

举例：
hive> select rand();
OK
0.5577432776034763

hive> select rand();
OK
0.6638336467363424

hive> select rand(100);
OK
0.7220096548596434

7. 自然指数函数: exp

语法: exp(double a)

返回值: double

说明:返回自然对数e的a次方,a可为小数

举例：
hive> select exp(3);
OK
20.085536923187668

8.自然对数函数: ln

语法: ln(double a)

返回值: double

说明:返回a的自然对数，a可为小数

举例：
hive> select ln(7.38905609893065);
OK
2.0

9. 以10为底对数函数: log10

语法: log10(double a)

返回值: double

说明:返回以10为底的a的对数，a可为小数

举例：
hive> select log10(100);
OK
2.0

10. 以2为底对数函数: log2

语法: log2(double a)

返回值: double

说明:返回以2为底的a的对数，a可为小数

举例：
hive> select log2(8);
OK
3.0

11. 对数函数: log

语法: log(double base, double a)

返回值: double

说明:返回以base为底的a的对数，base 与 a都是double类型

举例：
hive> select log(4,256);
OK
4.0

12. 幂运算函数: pow

语法: pow(double a, double p), power(double a, double p)

返回值: double

说明:返回a的p次幂

举例：
hive> select pow(2,4);
OK
16.0

13. 开平方函数: sqrt

语法: sqrt(double a)

返回值: double

说明:返回a的平方根

举例：
hive> select sqrt(16);
OK
4.0

14. 二进制函数: bin

语法: bin(BIGINT a)

返回值: string

说明:返回a的二进制代码表示,，a为BIGINT类型

举例：
hive> select bin(7);
OK
111

15. 十六进制函数: hex

语法: hex(BIGINT a),hex(string a)

返回值: string

说明:如果变量是int类型，那么返回a的十六进制表示；如果变量是string类型，则返回该字符串的十六进制表示

举例：
hive> select hex(17);
OK
11

hive> select hex(‘abc’);
OK
616263

16. 反转十六进制函数: unhex

语法: unhex(string a)

返回值: string

说明:返回该十六进制字符串所代码的字符串,hex的逆方法

举例：
hive> select unhex(‘616263’);
OK
abc

17. 进制转换函数: conv

语法: conv(BIGINT num, int from_base, int to_base),conv(STRING num, int from_base, int to_base)

返回值: string

说明:将bigint/string数值num从from_base进制转化到to_base进制

举例：
hive> select conv(17,10,16);
OK
11

hive> select conv(17,10,2);
OK
10001

18. 绝对值函数: abs

语法: abs(double a),abs(int a)

返回值: double or int

说明:返回数值a的绝对值

举例：
hive> select abs(-3.9);
OK
3.9

19. 正取余函数: pmod

语法: pmod(int a, int b),pmod(double a, double b)

返回值: int or double

说明:返回正的a除以b的余数

举例：
hive> select pmod(9,4);
OK
1

hive> select pmod(-9,4);
OK
3

20. 正弦函数: sin

语法: sin(double a)

返回值: double

说明:返回a的正弦值

举例：
hive> select sin(0.8);
OK
0.7173560908995228

21. 反正弦函数: asin

语法: asin(double a)

返回值: double

说明:返回a的反正弦值

举例：
hive> select asin(0.7173560908995228);
OK
0.8

22. 余弦函数: cos

语法: cos(double a)

返回值: double

说明:返回a的余弦值

举例：
hive> select cos(0.9);
OK
0.6216099682706644

23. 反余弦函数: acos

语法: acos(double a)

返回值: double

说明:返回a的反余弦值

举例：
hive> select acos(0.6216099682706644);
OK
0.9

24.正切函数:tan

语法: tan(double a)

返回值: double

说明:返回a的正切值

举例:
hive> select tan(0.8);
OK
1.0296385570503641

25.反正切函数:atan

语法: atan(double a)

返回值: double

说明:返回a的反正切值

举例:
hive> select atan(1.0296385570503641);
OK
0.8

26.弧度值转换角度值:degrees

语法: degrees(double a)

返回值: double

说明:返回a的角度值

举例:
hive> select degrees(1);
OK
57.29577951308232

27.角度值转换成弧度值:radians

语法: radians(double a)

返回值: double

说明:返回a的弧度值

举例:
hive> select radians(57.29577951308232);
OK
1.0

28. positive函数: positive

语法: positive(int a), positive(double a)

返回值: int or double

说明:返回a

举例：
hive> select positive(-10);
OK
-10

29. negative函数: negative

语法: negative(int a), negative(double a)

返回值: int or double

说明:返回-a,a的相反数

举例：
hive> select negative(-5);
OK
5

30.判断正负函数:sign

语法: sign(double a)

返回值: double

说明:如果a是正数则返回1.0，是负数则返回-1.0，否则返回0.0

举例：
hive> select sign(-4);
OK
-1.0

31.数学e函数:e

语法: e()

返回值: double

说明:数学常数e

举例：
hive> select e();
OK
2.718281828459045

32.数学pi函数:pi

语法: pi()

返回值: double

说明:数学常数e

举例：
hive> select pi();
OK
3.141592653589793

33.阶乘函数:factorial

语法: factorial(int a)

返回值: BIGINT

说明:求a的阶乘

举例：Hive 1.2.0,版本原因无法测试

34.立方根函数:cbrt

语法: cbrt(double a)

返回值: double

说明:求a的立方根

举例：Hive 1.2.0,版本原因无法测试

35.左移函数:shiftleft

语法:shiftleft(BIGINT a, int b)

返回值: INT BIGINT

说明:按位左移

举例：Hive 1.2.0,版本原因无法测试

36.右移函数:shiftright

语法:shiftright(BIGINT a, int b)

返回值: INT BIGINT

说明:按位右移

举例：Hive 1.2.0,版本原因无法测试

37.无符号按位右移函数:shiftrightunsigned

语法:shiftrightunsigned(BIGINT a, int b)

返回值: INT BIGINT

说明:无符号按位右移（<<<）

举例：Hive 1.2.0,版本原因无法测试

38.求最大值函数:greatest

语法:greatest(T v1, T v2, …)

返回值:T

说明:求最大值

举例：
hive> select greatest(1,2,3);
OK
3

39.求最小值函数:least

语法:least(T v1, T v2, …)

返回值:T

说明:求最小值

举例：
hive> select least(1,2,3);
OK
1

40.银行家舍入法函数:bround

语法:bround(double a)

返回值:double

说明:银行家舍入法（1-4：舍，6-9：进，5->前位数是偶：舍，5->前位数是奇：进）

举例： Hive 1.3.0, 2.0.0,版本原因无法测试

41.银行家精确舍入法函数:bround

语法:bround(double a，int d)

返回值:double

说明:银行家舍入法,保留d位小数

举例： Hive 1.3.0, 2.0.0,版本原因无法测试

二、日期函数

1. UNIX时间戳转日期函数:from_unixtime

语法: from_unixtime(bigint unixtime[, string format])

返回值: string

说明:转化UNIX时间戳（从1970-01-01 00:00:00 UTC到指定时间的秒数）到当前时区的时间格式——format格式（format可为“yyyy-MM-dd hh:mm:ss”,“yyyy-MM-dd hh”,“yyyy-MM-dd hh:mm”等等）

举例：
hive> select from_unixtime(1250111000,“yyyy-MM-dd”);
OK
2009-08-13

2. 获取当前UNIX时间戳函数:unix_timestamp

语法: unix_timestamp()

返回值: bigint

说明:获得当前时区的UNIX时间戳

举例：
hive> select unix_timestamp();
OK
1594648263

3. 日期转UNIX时间戳函数:unix_timestamp

语法: unix_timestamp(string date)

返回值: bigint

说明:将格式为yyyy-MM-dd HH:mm:ss的时间字符串转换成时间戳。如果转化失败，则返回0。

举例：
hive> select unix_timestamp(‘2000-1-1 8:8:8’);
OK
946685288

4. 指定格式日期转UNIX时间戳函数:unix_timestamp

语法: unix_timestamp(string date, string pattern)

返回值: bigint

说明:将指定时间字符串格式字符串转换成Unix时间戳。如果转化失败，则返回0。

举例：
hive> select unix_timestamp(‘2009-03-20’, ‘yyyy-MM-dd’);
OK
1237478400

5. 日期时间转日期函数:to_date

语法: to_date(string timestamp)

返回值: string

说明:返回日期时间字段中的日期部分。

举例：
hive> select to_date(‘1970-01-01 23:00:00’);
OK
1970-01-01

6. 日期转年函数: year

语法: year(string date)

返回值: int

说明:返回日期中的年。

举例：
hive> select year(“1970-01-01 00:00:00”);
OK
1970

7. 日期转月函数: month

语法: month (string date)

返回值: int

说明:返回日期中的月份。

举例：
hive> select month(“1970-11-01”);
OK
11

8. 日期转天函数: day

语法: day (string date)

返回值: int

说明:返回日期中的天。

举例：
hive> select day(“1970-11-01”);
OK
1

9. 日期转小时函数: hour

语法: hour (string date)

返回值: int

说明:返回日期中的小时。

举例：
hive> select hour(‘2009-07-30 12:58:59’);
OK
12

10. 日期转分钟函数: minute

语法: minute (string date)

返回值: int

说明:返回日期中的分钟。

举例：
hive> select minute(‘2011-12-08 10:03:01’);
OK
3

11. 日期转秒函数: second

语法: second (string date)

返回值: int

说明:返回日期中的秒。

举例：
hive> select second(‘2011-12-08 10:03:01’);
OK
1

12. 日期转周函数:weekofyear

语法: weekofyear (string date)

返回值: int

说明:返回时间字符串位于一年中的第几个周内.

举例：

hive>
hive> select weekofyear(‘2011-12-08 10:03:01’);
OK
49

13. 日期比较函数: datediff

语法: datediff(string enddate, string startdate)

返回值: int

说明:返回结束日期减去开始日期的天数。

举例：
hive> select datediff(‘2012-12-08’,‘2012-05-09’);
OK
213

14. 日期增加函数: date_add

语法: date_add(string startdate, int days)

返回值: string

说明:返回开始日期startdate增加days天后的日期。

举例：
hive> select date_add(‘2012-12-08’,10);
OK
2012-12-18

15. 日期减少函数: date_sub

语法: date_sub (string startdate, int days)

返回值: string

说明:返回开始日期startdate减少days天后的日期。

举例：
hive> select date_sub(‘2012-12-08’,10);
OK
2012-11-28

16. 转化成指定的时区下时间戳函数: from_utc_timestamp

语法: from_utc_timestamp(timestamp, string timezone)

返回值:timestamp

说明:如果给定的时间戳并非UTC，则将其转化成指定的时区下时间戳

举例：
hive> select from_utc_timestamp(‘1970-01-01 08:00:00’,‘PST’);
OK
1970-01-01 00:00:00

17. 转化成UTC下的时间戳函数: to_utc_timestamp

语法:to_utc_timestamp(timestamp, string timezone)

返回值:timestamp

说明:如果给定的时间戳指定的时区下时间戳，则将其转化成UTC下的时间戳

举例：
hive> select to_utc_timestamp(‘1970-01-01 00:00:00’,‘PST’);
OK
1970-01-01 08:00:00

18.当前时间日期函数:current_date

语法:current_date()

返回值:date

说明:返回当前时间日期

举例：
hive> select current_date;
OK
2020-07-13

18.当前时间日期函数:current_timestamp

语法:current_timestamp()

返回值:timestamp

说明:返回当前时间戳

举例：
hive> select current_timestamp();
OK
2020-07-13 22:52:11.309

19.月份增加函数:add_months

语法:add_months(string start_date, int num_months)

返回值:string

说明:返回当前时间下再增加num_months个月的日期

举例：
hive> select add_months(‘1996-10-21’,10);
OK
1997-08-21

20.最后一天的日期函数:last_day

语法:last_day(string date)

返回值:string

说明:返回这个月的最后一天的日期，忽略时分秒部分（HH:mm:ss）

举例：
hive> select last_day(current_date());
OK
2020-07-31

21.下一个星期X所对应的日期函数:next_day

语法:next_day(string start_date, string day_of_week)

返回值:string

说明:返回当前时间的下一个星期X所对应的日期如：next_day(‘2015-01-14’, ‘TU’) = 2015-01-20 以2015-01-14为开始时间，其下一个星期二所对应的日期为2015-01-20

举例：
hive> select next_day(current_date(),‘su’);
OK
2020-07-19

22.时间的最开始年份或月份函数:trunc

语法:trunc(string date, string format)

返回值:string

说明:返回时间的最开始年份或月份如trunc(“2016-06-26”,“MM”)=2016-06-01 trunc(“2016-06-26”,“YY”)=2016-01-01 注意所支持的格式为MONTH/MON/MM, YEAR/YYYY/YY

举例：
hive> select trunc(current_date(),‘MM’);
OK
2020-07-01

23.相差的月份函数:months_between

语法:months_between(date1, date2)

返回值:double

说明:返回date1与date2之间相差的月份，如date1>date2，则返回正，如果date1<date2,则返回负，否则返回0.0 如：months_between(‘1997-02-28 10:30:00’, ‘1996-10-30’) = 3.94959677 1997-02-28 10:30:00与1996-10-30相差3.94959677个月

举例：
hive> select months_between(current_date(),‘2020-5-13’);
OK
2.0

24.指定格式返回时间函数:date_format

语法:date_format(date/timestamp/string ts, string fmt)

返回值:string

说明:按指定格式返回时间date 如：date_format(“2016-06-22”,“MM-dd”)=06-22

举例：
hive> select date_format(current_date(),‘MM.dd’);
OK
07.13

25.当前星期函数:dayofweek

语法:dayofweek(date)

返回值:int

说明:返回日期那天的周几

举例：
hive> select dayofweek(current_date());
OK
2

26.季节函数:quarter

语法:quarter(date/timestamp/string)

返回值:int

说明:返回当前时间属性哪个季度如quarter(‘2015-04-08’) = 2

举例：Hive 1.3.0，版本原因不能测试

三、条件函数

1. If函数: if

语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull)

返回值: T

说明: 当条件testCondition为TRUE时，返回valueTrue；否则返回valueFalseOrNull（valueTrue，valueFalseOrNull为泛型）

举例：
hive> select if(1=1,100,200);
OK
100

2. 空查找函数: nvl

语法: nvl(T value, T default_value)
返回值: T

说明:如果value值为NULL就返回default_value,否则返回value
举例：
hive> select nvl(null,5);
OK
5

3. 非空查找函数: COALESCE

语法: COALESCE(T v1, T v2,…)

返回值: T

说明: 返回参数中的第一个非空值；如果所有值都为NULL，那么返回NULL

举例：
hive> select COALESCE (NULL,44,55);
OK
44

4. 条件判断函数：CASE

语法: CASE a WHEN b THEN c [WHEN d THEN e]* [ELSE f] END

返回值: T

说明：如果a等于b，那么返回c；如果a等于d，那么返回e；否则返回f

举例：
hive> select CASE 4 WHEN 5 THEN 5 WHEN 4 THEN 4 ELSE 3 END;
OK
4

5. 条件判断函数：CASE

语法: CASE WHEN a THEN b [WHEN c THEN d]* [ELSE e] END

返回值: T

说明：如果a为TRUE,则返回b；如果c为TRUE，则返回d；否则返回e

举例：
hive> select CASE WHEN 5>0 THEN 5 WHEN 4>0 THEN 4 ELSE 0 END;
OK
5

6. 空值判断函数：isnull

语法: isnull( a )
返回值:boolean

说明：如果a为null就返回true，否则返回false
举例：
hive> select isnull(5);
OK
false

7. 非空值判断函数：isnotnull

语法: isnotnull ( a )

返回值:boolean

说明：如果a为非null就返回true，否则返回false

举例：
hive> select isnotnull(5);
OK
true

四、字符函数

1. 首字符ascii函数：ascii

语法: ascii(string str)

返回值: int

说明：返回字符串str第一个字符的ascii码

举例：
hive> select ascii(‘abcde’);
OK
97

2. 转换成64位的字符串：base64

语法: base64(binary bin)

返回值: string

说明：将二进制bin转换成64位的字符串

3. 字符串连接函数：concat

语法: concat(string A, string B…)

返回值: string

说明：返回输入字符串连接后的结果，支持任意个输入字符串

举例：
hive> select concat(‘abc’,‘def’);
OK
abcdef

4. 字符串连接函数：context_ngrams

语法: context_ngrams(array<array>, array, int K, int pf)

返回值: array<struct<string,double>>

说明：与ngram类似，但context_ngram()允许你预算指定上下文(数组)来去查找子序列，具体看StatisticsAndDataMining(这里的解释更易懂)

5. 带分隔符字符串连接函数：concat_ws

语法: concat_ws(string SEP, string A, string B…) | concat_ws(string SEP, array)

返回值: string

说明：返回输入字符串连接后的结果，SEP表示各个字符串间的分隔符 | 拼接Array中的元素并用指定分隔符进行分隔

举例：
hive> select concat_ws(’,’,‘abc’,‘def’,‘gh’);
OK
abc,def,gh

6. 指定的字符集将二进制值bin解码成字符串：decode

语法: decode(binary bin, string charset)
返回值: string

说明：使用指定的字符集charset将二进制值bin解码成字符串，支持的字符集有：‘US-ASCII’, ‘ISO-8859-1’, ‘UTF-8’, ‘UTF-16BE’, ‘UTF-16LE’, ‘UTF-16’，如果任意输入参数为NULL都将返回NULL

7. 指定的字符集charset将字符串编码成二进制值：encode

语法:encode(string src, string charset)
返回值: binary
说明：使用指定的字符集charset将字符串编码成二进制值，支持的字符集有：‘US-ASCII’, ‘ISO-8859-1’, ‘UTF-8’, ‘UTF-16BE’, ‘UTF-16LE’, ‘UTF-16’，如果任一输入参数为NULL都将返回NULL

8. 集合查找函数:find_in_set

语法: find_in_set(string str, string strList)

返回值: int

说明:返回str在strlist第一次出现的位置，strlist是用逗号分割的字符串。如果没有找该str字符，则返回0，如果任一参数为NULL将返回NULL回

举例：
hive> select find_in_set(‘ab’,‘ef,ab,de’);
OK
2

9. 将数值X转换成"#,###,###.##"格式字符串：format_number

语法: format_number(number x, int d)

返回值: string

说明：将数值X转换成"#,###,###.##"格式字符串，并保留d位小数，如果d为0，将进行四舍五入且不保留小数

举例：
hive> select format_number(123345.65545,2);
OK
123,345.66

10. json解析函数：get_json_object

语法: get_json_object(string json_string, string path)

返回值: string

说明：解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效，那么返回NULL。注意此路径上JSON字符串只能由数字字母下划线组成且不能有大写字母和特殊字符，且key不能由数字开头，这是由于Hive对列名的限制

举例：
hive> select get_json_object(’{“store”:
> {“fruit”:[{“weight”:8,“type”:“apple”},{“weight”:9,“type”:“pear”}],
> “bicycle”:{“price”:19.95,“color”:“red”}
> },
> “email”:“amy@only_for_json_udf_test.net”,
> “owner”:“amy”
> }
> ‘,’$.owner’);
OK
amy

11. 文件数据与字符串str匹配： in_file

语法: in_file(string str, string filename)

返回值: boolean

说明：如果文件名为filename的文件中有一行数据与字符串str匹配成功就返回true

12. 查找字符串str中子字符串substr出现的位置：instr

语法: instr(string str, string substr)
返回值:int

说明：查找字符串str中子字符串substr出现的位置，如果查找失败将返回0，如果任一参数为Null将返回null，注意位置为从1开始的

举例：
hive> select instr(‘dvfgefggdgaa’,‘aa’);
OK
11

13. 字符串长度函数：length

语法: length(string A)

返回值: int

说明：返回字符串A的长度

举例：
hive> select length(‘abcedfg’);
OK
7

14.第一次出现的位置：locate

语法:locate(string substr, string str[, int pos])
返回值: int

说明：查找字符串str中的pos位置后字符串substr第一次出现的位置

举例：
hive> select locate(‘aa’,‘aabbedfaad’,2);
OK
8

15. 字符串转小写函数：lower,lcase

语法: lower(string A) lcase(string A)

返回值: string

说明：返回字符串A的小写格式

举例：
hive> select lower(‘abSEd’);
OK
absed

16. 左补足函数：lpad

语法: lpad(string str, int len, string pad)

返回值: string

说明：将str进行用pad进行左补足到len位,从左边开始对字符串str使用字符串pad填充，最终len长度为止，如果字符串str本身长度比len大的话，将去掉多余的部分

举例：
hive> select lpad(‘abc’,10,‘td’);
OK
tdtdtdtabc

注意：与GP，ORACLE不同，pad不能默认

17. 左边去空格函数：ltrim

语法: ltrim(string A)

返回值: string

说明：去掉字符串A前面的空格
举例：
hive> select ltrim(’ abc fg ');
OK
abc fg

18.返回出现次数TOP K的的子序列：ngrams

语法: ngrams(array<array>, int N, int K, int pf)

返回值: array<struct<string,double>>

说明：返回出现次数TOP K的的子序列,n表示子序列的长度，具体看StatisticsAndDataMining (这里的解释更易懂)

19. URL解析函数：parse_url

语法: parse_url(string urlString, string partToExtract [, stringkeyToExtract])

返回值: string

说明：返回从URL中抽取指定部分的内容，参数url是URL字符串，而参数partToExtract是要抽取的部分，这个参数包含(HOST, PATH, QUERY, REF, PROTOCOL, AUTHORITY, FILE, and USERINFO,例如：parse_url(‘http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1’, ‘HOST’) =‘facebook.com’，如果参数partToExtract值为QUERY则必须指定第三个参数key 如：parse_url(‘http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1’, ‘QUERY’, ‘k1’) =‘v1’

举例：
hive> select parse_url(‘http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1’, ‘HOST’);
OK
facebook.com

hive> select parse_url(‘http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1’, ‘QUERY’,‘k1’);
OK
v1

20. printf风格格式输出字符串：printf

语法:printf(String format, Obj… args)
返回值:string

说明：按照printf风格格式输出字符串
举例：
hive> select printf(‘abfhg’);
OK
abfhg

21. 正则表达式解析函数：regexp_extract

语法: regexp_extract(string subject, string pattern, int index)

返回值: string

说明：将字符串subject按照pattern正则表达式的规则拆分，返回index指定的字符。注意些预定义字符的使用，如第二个参数如果使用’\s’将被匹配到s,’\s’才是匹配空格

举例：
hive> select regexp_extract(‘foothebar’, ‘foo(.*?)(bar)’, 2);
OK
bar

hive> select regexp_extract(‘foothebar’, ‘foo(.*?)(bar)’, 0);
OK
foothebar

hive> select regexp_extract(‘hello,world’,’^((\w+),(\w+))$’,2);
OK
hello

hive> select regexp_extract(‘hello,world’,’(\w+),(\w+)’,2);
OK
world

注意，在有些情况下要使用转义字符，下面的等号要用双竖线转义，这是java正则表达式的规则。

22. 正则表达式替换函数：regexp_replace

语法: regexp_replace(string A, string B, string C)

返回值: string

说明：按照Java正则表达式PATTERN将字符串INTIAL_STRING中符合条件的部分成REPLACEMENT所指定的字符串，如里REPLACEMENT这空的话，抽符合正则的部分将被去掉如：regexp_replace(“foobar”, “oo|ar”, “”) = ‘fb.’ 注意些预定义字符的使用，如第二个参数如果使用’\s’将被匹配到s,’\s’才是匹配空格

举例：
hive> select regexp_replace(‘hello,world’,‘o|l’,‘e’);
OK
heeee,wered

23. 重复字符串函数：repeat

语法: repeat(string str, int n)

返回值: string

说明：返回重复n次后的str字符串

举例：
hive> select repeat(‘abc’,5);
OK
abcabcabcabcabc

24. 字符串反转函数：reverse

语法: reverse(string A)

返回值: string

说明：返回字符串A的反转结果

举例：
hive> select reverse(‘abc’);
OK
cba

25. 右补足函数：rpad

语法: rpad(string str, int len, string pad)

返回值: string

说明：从右边开始对字符串str使用字符串pad填充，最终len长度为止，如果字符串str本身长度比len大的话，将去掉多余的部分

举例：
hive> select rpad(‘abc’,10,‘td’);
OK
abctdtdtdt

26. 右边去空格函数：rtrim

语法: rtrim(string A)

返回值: string

说明：去除字符串右边的空格

举例：
hive> select rtrim(’ abc ');
OK
abc

27. 字符串str将被转换成单词数组：sentences

语法: sentences(string str, string lang, string locale)

返回值:array<array>

说明：字符串str将被转换成单词数组，如：sentences(‘Hello there! How are you?’) =( (“Hello”, “there”), (“How”, “are”, “you”) )

举例：
hive> select sentences(‘Hello there! How are you?’);
OK
[[“Hello”,“there”],[“How”,“are”,“you”]]

28. 空格字符串函数：space

语法: space(int n)

返回值: string

说明：返回n个空格

举例：
hive> select length(space(10));
OK
10

29. 分割字符串函数: split

语法: split(string str, string pat)

返回值: array

说明:按照pat字符串分割str，会返回分割后的字符串数组

举例：
hive> select split(‘abc|cde,def kyy’,’[\|, ]’);
OK
[“abc”,“cde”,“def”,“kyy”]

hive> select split(‘abtcdtef’,‘t’);
OK
[“ab”,“cd”,“ef”]

30. 字符串str按照指定分隔符转换成Map: split

语法: str_to_map(text[, delimiter1, delimiter2])

返回值: map<string,string>

说明:将字符串str按照指定分隔符转换成Map，第一个参数是需要转换字符串，第二个参数是键值对之间的分隔符，默认为逗号;第三个参数是键值之间的分隔符，默认为"="

31. 字符串截取函数：substr,substring

语法: substr(string A, int start),substring(string A, int start)

返回值: string

说明：返回字符串A从start位置到结尾的字符串

举例：
hive> select substr(‘abcde’,3);
OK
cde

hive> select substr(‘abcde’,-1); //(和ORACLE相同）
OK
e

32. 字符串截取函数：substr,substring

语法: substr(string A, int start, int len),substring(string A, int start, int len)

返回值: string

说明：返回字符串A从start位置开始，长度为len的字符串

举例：
hive> select substr(‘abcde’,3,2);
OK
cd

33. 截取第count分隔符之前的字符串：substring_index

语法:substring_index(string A, string delim, int count)

返回值: string

说明：截取第count分隔符之前的字符串，如count为正则从左边开始截取，如果为负则从右边开始截取

举例： Hive 1.3.0

34. 字符串替换成to中的字符串：substring_index

返回值: string

说明：将input出现在from中的字符串替换成to中的字符串如：translate(“MOBIN”,“BIN”,“M”)=“MOM”

举例：
hive> select translate(“MOBIN”,“BIN”,“M”);
OK
MOM

35. 去空格函数：trim

语法: trim(string A)

返回值: string

说明：去除字符串两边的空格

举例：
hive> select trim(’ abc dce’);
OK
abc dce

36. 将64位的字符串转换二进制值：trim

语法:unbase64(string str)

返回值:binary

说明：将64位的字符串转换二进制值

37. 字符串转大写函数：upper,ucase

语法: upper(string A) ucase(string A)

返回值: string

说明：将字符串A中的字母转换成大写字母

举例：
hive> select upper(‘abSEd’);
OK
ABSED

38.首字母大写函数：initcap

语法: initcap(string A)

返回值: string

说明：将字符串A转换第一个字母大写其余字母的字符串

举例：
hive> select initcap(‘abcd def’);
OK
Abcd Def

39. 两个字符串之间的差异大小： levenshtein

语法: levenshtein(string A, string B)

返回值: int

说明：计算两个字符串之间的差异大小如：levenshtein(‘kitten’, ‘sitting’) = 3

举例：
hive> select levenshtein(‘kitten’, ‘sitting’);
OK
3

40.字符串转换成soundex字符串：soundex

语法: soundex(string A)

返回值: string

说明：将普通字符串转换成soundex字符串

举例： Hive 1.2.0

五、聚合函数

1. 个数统计函数: count

语法:count(*), count(expr), count(DISTINCT expr[, expr…])

返回值: BIGINT

说明: count(*)统计检索出的行的个数，包括NULL值的行；count(expr)返回指定字段的非空值的个数；count(DISTINCTexpr[, expr_.])统计提供非NULL且去重后的expr表达式值的行数

2. 总和统计函数: sum

语法: sum(col), sum(DISTINCT col)

返回值: double

说明: sum(col)统计结果集中col的相加的结果；sum(DISTINCT col)统计结果中col不同值相加的结果

3. 平均值统计函数: avg

语法: avg(col), avg(DISTINCT col)

返回值: double

说明: avg(col)统计结果集中col的平均值；avg(DISTINCT col)统计结果中col不同值相加的平均值

4. 最小值统计函数: min

语法: min(col)

返回值: double

说明:统计结果集中col字段的最小值

5. 最大值统计函数: max

语法: maxcol)

返回值: double

说明:统计结果集中col字段的最大值

6. 非空集合总体变量函数:var_pop

语法: variance(col), var_pop(col)

返回值: double

说明:统计结果集中col非空集合的总体变量（忽略null），（求指定列数值的方差）

7. 非空集合样本变量函数:var_samp

语法: var_samp (col)

返回值: double

说明:统计结果集中col非空集合的样本变量（忽略null）（求指定列数值的样本方差）

8. 总体标准偏离函数:stddev_pop

语法: stddev_pop(col)

返回值: double

说明:该函数计算总体标准偏离，并返回总体变量的平方根，其返回值与VAR_POP函数的平方根相同（求指定列数值的标准偏差）

9. 样本标准偏离函数:stddev_samp

语法: stddev_samp (col)

返回值: double

说明:该函数计算样本标准偏离，（求指定列数值的样本标准偏差）

10.协方差函数:covar_pop

语法: covar_pop(col1, col2)

返回值: double

说明:求指定列数值的协方差

11. 样本协方差函数:covar_samp

语法: covar_samp(col1, col2)

返回值: double

说明:求指定列数值的样本协方差

12.相关系数函数:corr

语法:corr(col1, col2)

返回值: double

说明:返回两列数值的相关系数

13．中位数函数:percentile

语法: percentile(BIGINT col, p)

返回值: double

说明:求准确的第pth个百分位数，p必须介于0和1之间，但是col字段目前只支持整数，不支持浮点数类型

14. 中位数函数:percentile

语法: percentile(BIGINT col, array(p1 [, p2]…))

返回值: array

说明:功能和上述类似，之后后面可以输入多个百分位数，返回类型也为array，其中为对应的百分位数。

举例：

select percentile(score,<0.2,0.4>) from lxw_dual；取0.2，0.4位置的数据

15. 近似中位数函数:percentile_approx

语法: percentile_approx(DOUBLE col, p [, B])

返回值: double

说明:求近似的第pth个百分位数，p必须介于0和1之间，返回类型为double，但是col字段支持浮点类型。参数B控制内存消耗的近似精度，B越大，结果的准确度越高。默认为10,000。当col字段中的distinct值的个数小于B时，结果为准确的百分位数

16. 近似中位数函数:percentile_approx

语法: percentile_approx(DOUBLE col, array(p1 [, p2]…) [, B])

返回值: array

说明:功能和上述类似，之后后面可以输入多个百分位数，返回类型也为array，其中为对应的百分位数。

17. 直方图:histogram_numeric

语法: histogram_numeric(col, b)

返回值: array<struct {‘x’,‘y’}>

说明:以b为基准计算col的直方图信息。

举例：

hive> select histogram_numeric(100,5) 、
OK
[{“x”:100.0,“y”:1.0}]

六、表生成函数

1. explode

语法: explode(array a)

返回类型: Array Type

说明：对于a中的每个元素，将生成一行且包含该元素

2. explode

语法: explode(ARRAY)

返回类型:N rows

说明：每行对应数组中的一个元素

3. explode

语法: explode(MAP)

返回类型:N rows

说明：每行对应每个map键-值，其中一个字段是map的键，另一个字段是map的值

4. posexplode

语法:posexplode(ARRAY)

返回类型:N rows

说明：与explode类似，不同的是还返回各元素在数组中的位置

5. posexplode

语法:stack(INT n, v_1, v_2, …, v_k)

返回类型:N rows

说明：把M列转换成N行，每行有M/N个字段，其中n必须是个常数

6. posexplode

语法:json_tuple(jsonStr, k1, k2, …)

返回类型:tuple

说明：从一个JSON字符串中获取多个键并作为一个元组返回，与get_json_object不同的是此函数能一次获取多个键值

7. parse_url_tuple

语法:parse_url_tuple(url, p1, p2, …)

返回类型:tuple

说明：返回从URL中抽取指定N部分的内容，参数url是URL字符串，而参数p1,p2,…是要抽取的部分，这个参数包含HOST, PATH, QUERY, REF, PROTOCOL, AUTHORITY, FILE, USERINFO, QUERY:

8. parse_url_tuple

语法:inline(ARRAY<STRUCT[,STRUCT]>)

说明：将结构体数组提取出来并插入到表中

七、类型转换函数

1. 转换成二进制: binary

语法: binary(string|binary)

返回类型: binary

说明：将输入的值转换成二进制

2. expr转换成type类型: cast

语法: cast(expr as )

返回类型: Expected “=” to follow “type”

cast(expr as

说明：将expr转换成type类型如：cast(“1” as BIGINT) 将字符串1转换成了BIGINT类型，如果转换失败将返回NULL

八、集合函数

1. Map类型长度函数: size(Map<K.V>)

语法: size(Map<K.V>)

返回值: int

说明:返回map类型的长度

举例：
hive> select size(map(‘100’,‘tom’,‘101’,‘mary’));
OK
2

2. array类型长度函数: size(Array)

语法: size(Array)

返回值: int

说明:求数组的长度

举例：
hive> select size(array(‘100’,‘101’,‘102’,‘103’));
OK
4

3. key函数

语法: map_keys(Map<K.V>)

返回值: array

说明:返回map中的所有key

4. value函数

语法: map_keys(Map<K.V>)

返回值:array

说明:返回map中的所有value

5. 包含value函数

语法: array_contains(Array, value)

返回值:boolean

说明:如该数组Array包含value返回true。，否则返回false

6. 排序函数

语法:sort_array(Array)

返回值:array

说明:按自然顺序对数组进行排序并返回

下面附上对照表:
round(double d)–返回double型d的近似值（四舍五入），返回bigint型；

round(double d,int n)–返回保留double型d的n位小数double型近似值（四舍五入）；

floor(double d)–返回<=d的最大bigint值；

ceil(double d)–返回>=d的最小bigint 值；

ceiling(double d)–返回>=d的最小bigint 值；

rand() --每行返回一个double型随机数；

rand(int seed) --每行返回一个double型随机数，整数seed是随机因子；

exp(double d)–返回e的 d幂次方，返回double型；

ln(double d)–以自然数为底d的对数，返回double型；

log10(double d)–以10为底d的对数，返回double型；

log2(double d)–以2为底d的对数，返回double型；

log(double base,double d)–以base为底d的对数，返回double型；

pow(double d,double p)–d的p次幂，返回double型；

power(double d,double p)–d的p次幂，返回double型；

sqrt(double d)–d的平方根，返回double型；

bin(bigint i)–二进制i的string类型；

hex(bigint i)–十六进制i的string类型；

hex(string str)–计算十六进制表达的str值；

unhex(string i)–hex(string str)的逆方法；

conv(bigint num,int from_base,int to_base)–将bigint类型的num从from_base进制转换成to_base进制，返回string类型；

conv(string num,int from_base,int to_base)–将string类型的num从from_base进制转换成to_base进制，返回string类型；

abs(double d)–计算double型d 的绝对值，返回double型；

pmod(int i1,int i2)–int型i1对 int型 i2取模，结果为int型；

pmod(double d1,double d2)–double型i1对double型 i2取模，结果为double型；

sin(double d)–返回d的正弦值，结果为double型；

asin(double d)–返回d的反正弦值，结果为double型；

cos(double d)–返回d 的余弦值，结果为double型；

acos(double d)–返回d的反余弦值，结果为double型；

tan(double d)–返回d的正切值，结果为double型；

atan(double d)–返回d的反正切值，结果为double型；

degrees(double d)–将弧度值d转换成角度值，结果为double型；

radians(double d)–将角度值d转换成弧度值，结果为double型；

positive(int i)–等价有效表达式是+i,返回i，结果为int型；

positive(double d)–等价有效表达式是+d，返回d,结果为double型；

negative(int i)–等价有效表达式是-i，返回i的负数，结果为int型；

negative(double d)–等价有效表达式是-i，返回d的负数，结果为double型；

sign(double d)–如果d是正数的话，则返回float型1.0，如果d是负数的话，则返回-1.0，否则返回0.0；

e()–数学常熟e,超越数；

PI()–数学常数Pi，圆周率；

hive函数之聚合函数

count(*)–计算总行数，包括null值；

count(expr)–计算expr表达式的值，非null的行数；

count(distinct expr[,expr_.])–计算expr表达式的值排重后非null的行数；

sum(col)–指定行的值的和；

sum(distinct col)–排重后值的和；

avg(col)–指定行的值的平均值；

avg(distinct col)–排重后的值的平均值；

min(col)–指定行的值的最小值；

max(col)–指定行的值的最大值；

variance(col)–返回col 中一组数值的方差；

var_pop(col)—返回col 中一组数值的方差；

var_samp(col)–返回col 中一组数值的样本方差；

stddev_pop(col)–返回col 中一组数值的标准偏差；

stddev_samp(col)–返回col 中一组数值的样本偏差；

covar_pop(col1,col2)–返回一组数值的协方差；

covar_samp(col1,col2)–返回一组数值的样本协方差；

corr(col1,col2)–返回两组数值的相关系数；

percentile(bigint int_expr,p)–int_expr在p（范围是[0,1]）处对应的百分比，其中p是double型；

percentile(bigint int_expr,array(p1[,p2…]))–int_expr在p（范围是[0,1]）处对应的百分比，其中p是double型数组；

percentile(double col,p[,NB])–col在p（范围是[0,1]）处对应的百分比，其中p是double型,NB是用于估计的直方图中的仓库数量（默认10000）；

percentile_approx(double col,array(p1[,p2…])[,NB])–col在p（范围是[0,1]）处对应的百分比，其中p是double型数组,NB是用于估计的直方图中的仓库数量（默认10000）；

histogram_numeric(col,NB)–返回NB数量的直方图仓库数组，返回结果array<struct{‘x’,‘y’}>中的值x是中心，y是仓库的高；

collect_set(col)–返回集合col元素排重后的数组；

set hive.map.aggr=true; --通过设置属性hive.map.aggr值为true来提高聚合性能；

hive函数之表生成函数

当时用表生成函数时，hive要求使用别名；

explode(ARRAY array)–返回0到多行结果，每行都对应输入的array数组中的一个元素；

explode(MAP map)–返回0到多行结果，每行对应每个map键-值对，其中一个字段是map键，另一个字段是对应的map值；

explode(ARRAY a)–对于a的每个元素，explode()会生成一行记录包含这个元素；

inline(ARRAY<STRUCT[,STRUCT]>)–将结构体数组提取出来并插入到表中；

json_tuple(STRING jsonStr,p1p2,…,pn)–本函数可以接受多个标签名称，对于输入的json字符串进行处理，这个与get_json_object类似，不过更高效，通过一次调用就可以获得多个键值；

parse_url_tuple(url,partname1,partname2,…,partnameN)–从url中解析出n部分信息，其输入参数是url，以及多个要抽取部分的名称。所有输入的参数类型都是string，部分名称大小写是敏感的，不应该包含空格：HOST,PATH,QUERY,REF,PROTOCOL,AUTHORITY,FILE,USERINFO,QUERY:<KEY_NAME>；

stact(int n,col1,col2,…,colM)–把M列换成N行，每行有M/N个字段，n为常数；

hive函数之其他内置函数

ascii(string s)–返回字符串s中首个ASCII字符的整数型；

base64(binary bin)–基于二进制值bin转换成基于64位的字符串；

binary(srting s)–将输入的值转换成二进制值；

binary(BINARY b)–将输入的值转换成二进制值；

cast( as )–将expr转换成type类型的，例如cast(‘1’ as bigint)会将字符串转换成bigint数值类型，如果转换失败，则返回null；

concat(binary s1,binary s2,…)–将二进制字节码按次序拼接成一个字符串；

concat(string s1,string s2,…)–将字符串s1,s2等拼接成一个字符串，例如concat(‘ab’,‘cd’)的结果是 ‘abcd’；

concat_ws(string separator,string s1,string s2,…)–与concat类似，不过是使用指定的分隔符进行拼接的；

context_ngrams(array<array>,array,int K,int pf)–与ngrams类似，但是从每个外层数组的第二个单词数组来查找前K个字尾；

decode(binary bin,string charset)–使用指定的字符集charset将二进制bin解码成字符串（支持的字符集有：‘US_ASCII’,‘IOS-8859-1’,‘UTF-8’,‘UTF-16BE’,‘UTF-16FE’,‘UTF-16’），如果任一项输入参数为null，则结果为null；

encode(string src,string charset)–使用指定的字符集charset将字符串src编码成二进制值（支持的字符集有：‘US_ASCII’,‘IOS-8859-1’,‘UTF-8’,‘UTF-16BE’,‘UTF-16FE’,‘UTF-16’），如果任一项输入参数为null，则结果为null；

find_in_set(string s,string commaSeparatedString)–返回在以逗号分隔的字符串中s出现的位置，如果没找到则返回null；

format_number(number x,int d)–将数值x转换成‘#,###,###.##’格式字符串，并保留d位小数。如果d为0，那么输出值就没有小数点后面的值；

get_json_object(string json_string,string path)–从给定路径上的json字符串中抽取json对象，并返回这个对象的json字符串形式。如果输入的json是非法的，则返回null；

in–例如test in(val1,val2,…),其表示如果test值等于后面列表中任一值的话，则返回true；

in_file(string s,string filename)–如果文件名为filename的文件中有完整一行数据和字符串s完全匹配的话，则返回true；

instr(string str,string substr)–查找字符串str中子字符串substr第一次出现的位置；

length(string s)–计算字符串s的长度；

locate(string substr,string str[,int pos])–查找字符串str中pos位置后字符串substr第一次出现的位置；

lower(string s)–将字符串中所有字母转换成小写字母；

lcase(string s)–和lower()一样；

lpad(string s,int len,string pad)–从左边开始对字符串s使用字符串pad进行填充，最终达到len长度为止。如果字符串s本身长度比len大的话，那么多余部分会被去除；

ltrim(string s)–将字符串s前面出现的空格全部去除掉；

ngram(array<array>,int N,int K,int pf)–估计文件中前K个字尾。pf是精度系数；

parse_url(string url,string partname[,string key])–从url中抽取指定部分的内容。参数url表示一个url字符串，参数partname表示要抽取的部分名称，其是大小写敏感的，可选的值有：HOST,PATH,QUERY,REF,PROTOCOL,AUTHORITY,FILE,USERINFO,QUERY:；如果partname是QUERY的话，那么还需要指定第三个参数key；

printf(string format,Obj…args)–按照printf风格格式化输出输入的字符串；

regexp_extract(string subject,string regexp_pattern,string index)–抽取字符串subject中符合正则表达式regexp_pattern的第 index个部分的子字符串；

regexp_relpace(string s,string regex,string replacement)–按照java正则表达式regex将字符串s中符合条件的部分替换成replacement所指定的字符串a，如果replacement部分是空的话，那么符合正则的部分将会被去除掉。如regexp_relpace(‘hive’,’[ie]’,‘z’)的结果是’hzvz’；

repeat(string s,int n)–重复输入n次字符串s；

reverse(string s)–反转字符串；

rpad(string s,int len,string pad)–从右面开始对字符串s使用字符串pad进行填充，最终达到len长度为止，如果字符串s本身长度比len大的话，那么多余部分将会被去除；

rtrim(string s)–将字符串s右面出现的空格全部去除掉；

sentences(string s,string lang,string locale)–将输入字符串s转换成句子数组，每个句子又由一个单词数组构成，单词lang和locale是可选的，如果没有使用，则使用默认本地化信息；

size(MAP<K.V>)–返回map中元素的个数；

size(ARRAY)–返回数组array的元素个数；

space(int n)–返回n个空格；

split(string s,string pattern)–按照正则表达式pattern分割字符串s,并将分割后的部分以字符串数组的方式返回；

str_to_map(string s,string delim1,string delim2)–将字符串s按照指定分隔符转化成map，第一个参数是输入的字符串，第二个参数是键值对之间的分隔符，第三个参数是键和值之间的分隔符；

substr(string s,string start_index,string length)–对于字符串s，从start位置开始截取length长度的字符串，作为子字符串，例如substr(‘abcdefgh’,3,5)的结果是’cdefg’；

substring(string s,string start_index,string length)–对于字符串s，从start位置开始截取length长度的字符串，作为子字符串，例如substr(‘abcdefgh’,3,5)的结果是’cdefg’；

substr(binary s,string start_index,string length)–对于二进制字节值s，从start位置开始截取length长度的字符串，作为子字符串；

substring(binary s,string start_index,string length)–对于二进制字节值s，从start位置开始截取length长度的字符串，作为子字符串；

trim(string a)–将字符串a前后出现的空格全部去掉；

unbase64(string str)–将基于64位的字符串str转换成二进制值；

upper(string a)–将字符串中所有的字母转换成大写字母；

ucase(string a)–将字符串中所有的字母转换成大写字母；

from_unixtime(bigint unixtime[,string format])–将时间戳秒数转换成UTC时间，并用字符串表示，可以通过format规定的时间格式，指定输出的时间格式；

unix_timestamp()–获取当前本地时区下的当前时间戳，例如：1534132825；

unix_timestamp(string date)–输入的时间字符串格式必须是yyyy-MM-dd HH:mm:ss,如果不符合则返回0，如果符合则将此时间字符串转换成Unix时间戳，例如unix_timestamp(‘2009-03-20 11:30:01’)=1237519801；

unix_timestamp(string date,string pattern)–将指定时间字符串格式转换成Unix时间戳，如果格式不对，则返回0，例如unix_timestamp(‘2009-03-20’,‘yyyy-MM-dd’)=1237478400；

to_date(string timestamp)–返回时间字符串的日期部分，例如：to_date(“1970-01-01 00:00:00”)=“1970-01-01”；

year(string date)–返回时间字符串中的年份并使用int类型表示。例如：year(“1970-01-01 00:00:00”)=“1970”；

month(string date)–返回时间字符串中的月份并使用int类型表示。例如：month(“1970-01-01 00:00:00”)=“1”；

day(string date)–返回时间字符串中的天并使用int类型表示。例如：day(“1970-01-01 00:00:00”)=“1”；

dayofmonth(string date)–返回时间字符串中的天并使用int类型表示。例如：day(“1970-01-01 00:00:00”)=“1”；

hour(string date)–返回时间字符串中的小时并使用int类型表示。例如：hour(“1970-01-01 11:58:59”)=“11”；

minute(string date)–返回时间字符串中的分钟数；

second(string date)–返回时间字符串中的秒数；

weekofyear(string date)–返回时间字符串位于一年中第几个周内，例如：weekofyear(“1970-11-01 11:58:59”)=“44”；

datediff(string enddate,string startdate)–计算开始时间startdate到结束时间enddate相差的天数，例如 datediff(‘2009-03-01’,‘2009-02-27’)=2；

date_add(string startdate,int days)–为开始时间startdate增加days天。例如：date_add(‘2018-12-31’,1)=‘2009-01-01’；

date_sub(string startdate,int days)–从开始时间startdate减去days天。例如date_sub(‘2008-12-31’,1)=‘2018-12-30’；

from_utc_timestamp(TIMESTAMP timestamp,STRING timezone)–如果给定的时间戳并非UTC,则将其转化成指定的时区下的时间戳；

to_utc_timestamp(TIMESTAMP timestamp,STRING timezone)–如果给定的时间戳是指定的时区下的时间戳，则将其转化成UTC下的时间戳；