sql优化之count distinct vs. count group by
很多情况下,尤其是对文本类型的字段,直接使用count distinct的查询效率非常低,而先做group by再count往往能提升查询效率。但是,实验表明,对于不同的字段,count distinct与count group by的性能并不一样,而且其效率与目标数据集的数据重复度相关。举例:分别使用count distinct 和 count group by对 bigint, macadd...
Raspberry Pi AP功能改进: systemd服务封装以及dnsmasq的使用
在上一篇《Raspberry pi 设置自动拨号搭建无线路由环境》一文中,笔者利用hostapd和udhcpd程序,创建无线热点,实现地址分配以及
sql之 if 与 like 关键字
like: 从上面的 "Persons" 表中选取居住在以 "N" 开始的城市里的人: sql语句:select * from Persons where City like ‘N%’ 注:"%" 可用于定义通配符(模式中缺少的字母)if: 表达式为:IF( expr1 , expr2 , expr3 ) expr1 为true,则返回expr2 ,否则返回expr3...
Oracle 10046事件 介绍(二) ---tkprof
收集10046 trace不是最终的目的,能够读懂并且通过分析10046 trace进而分析相应sql的性能问题才是10046 trace真正发挥作用的地方
sql之 <>与 !=
<> 这个是最早的用法。!=是后来才加上的。两者意义相同,在可移植性上前者优于后者故而sql语句中尽量使用<>来做不等判断
三分钟看懂大数据风控中用户行为数据的采集、分析及应用( 转 )
据统计,目前银行传统的风控模型对市场上70%的客户是有效的,但是对另外30%的用户,其风控模型有效性将大打折扣。大数据风控作为传统风控方式补充,主要利用行为数据来实施风险控制,用户行为数据可以作为另外的30%客户风控的有效补充。那么,大数据风控运营中,会主要分析用户的哪些行为数据,怎么分析?1.行为数据的采集和分析用户行为数据:主要包含用户在网站和移动App中的浏览/点击/发帖等行为,行为数据其实...
数据挖掘or数据分析?
关于数据挖掘与数据分析的区别和联系,我在网上搜集了一些,自己挑选了几种形象利于理解的答案简单罗列如下:(1)从实际工作角度:数据分析更侧重业务,数据挖掘则更侧重技术数据分析强调基于新的发现支持业务决策,关键是要转换到业务行动中发挥数据价值;数据挖掘关注焦点在于技术创新而非业务含义,当业务问题转化为数据问题后,建模工作主要是寻求可行的技术解决方案,过程中业务人员起的是辅助作用。另外,数据挖掘从实验室...
Hadoop系统中的单点故障解决方案总结
相较与Hadoop1.0,Hadoop2.0提供了比较完整的单点故障解决方案(Hadoop HA)Hadoop2.0内核由三个分支组成:HDFS、MapReduce和YARN,其他的Hadoop生态系统组件比如:HBase、Hive、Pig等,均是基于这三个系统开发的。因此在Hadoop2.0,存在着三个子系统的单点故障问题。正式介绍解决方案之前,先简要回顾这三个子系统:(1)HDFS:即分布式存...
数据结构---图---知识点总结
转自:https://blog.csdn.net/Ontheroad_/article/details/72739380图的存储结构1.邻接矩阵:两个数组,一个数组保存“顶点集”,一个数组保存“边集”。无向图中:有向图中:2.邻接表:数组与链表相结合的存储方法。对于带权值的网图,可以在边表结点定义中再增加一个weight的数据域,存储权值信息即可。图的遍历1.深度优先遍历(DFS):类似于树的先序...
使用virtualenvwrapper安装配置python虚拟环境
实际项目中,依赖python版本不同,例如有的基于python2.7,然而越来越多的程序则基于python3环境开发。正常情况下,系统是可以配置多个版本的开发环境。但是这样就会产生一个问题,如果不同项目的依赖包混合在一起,可能会引起意想不到的错误。因此,我们可以使用虚拟环境的方式,隔离不同的开发环境,使其共存。传统方法是安装virtualenv,安装方法参考https://www.cnblogs....
hive---基本类型中,varchar(20)与char(20)的区别
Hive中varchar与char都是用来存储字符串。两者区别是:varchar属于可变长的字符类型。char属于固定长度的字符类型。假定声明了varchar(20)与char(20)两种数据类型,当存入的字符占用小于20时,声明为varchar的字符只占用足够表示它的那些字符空间;而char则仍然占满20个字节空间,用空格填充。...
hive---nvl函数
nvl函数:空值转换函数函数形式:nvl(expr1,expr2),类似于mysql-nullif(expr1,expr2)作用:将查询为Null值转换为指定值。若expr1为Null,则返回expr2,否则返回expr1。适用于数字型、字符型和日期型,但是expr1和expr2的数据类型必须为相同类型。...
hive---常用内置函数总结
数学函数:round(四舍五入):ceil(向上取整):floor(向下取整):上面的结果变为45字符函数:lower(转小写):upper(转大写):length(字符串长度,字符数):concat(字符串拼接):substr(求子串):substr(a,b):从字符串a中,第b位开始取,取右边所有的字符substr(a,b,c):从字符串a中,第b为开始取,取c个字符注意:空格算占用一个字符的...
理解多线程的实际意义和优势
首先理解并行和并发的区别:并行:指在同一时刻,有多条指令在多个处理器上同时执行;并发:指在同一时刻,只能有一条指令执行,但多个进程指令被快速轮换执行,使得在宏观上具有多个进程同时执行的效果。大部分操作系统都支持多进程并发运行:程序员一边使用开发工具写代码,一边打开网页在查API,同时还开着网易云听歌······还没完,每台电脑运行时还有大量的底层支撑性程序在后台运行······这些进程看上去像是在...
今日推荐
周排行