Hadoop之小文件处理与调优经验

HDFS小文件弊端: HDFS上每个文件都要在namenode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用namenode的内存空间,另一方面就是索引文件过大是的索引速度变慢。 解决的方式: 1:Hadoop本身提供了一些文件压缩的方案 2:从系统层面改变现有HDFS存在的问题,其实主要还是小文件的合并,然后建立比较快速的索引。 Hadoop自带小文件解决方案 1:Hadoop Archive: 是一个高效地将小文件放入H
分类: 其他 发布时间: 07-04 23:30 阅读次数: 0

div 在css中透明度怎么调?

可以用这个属性: opacity: 0.95; opacity为属性, 0.95为值(其中值的范围在0~1之间) 参考:https://zhidao.baidu.com/question/689118188590925404.html
分类: 其他 发布时间: 07-04 23:30 阅读次数: 0

English trip -- VC(情景课)2 A At school

Get ready 预备课 Talk about the picture 看图说话 Look at the picture. What do you see? 看图片。你看到了什么? Listen and point 。支出你听到的内容 a book a chair a computer a desk a notebook a pencil words extend 扩展单词 whiteboard 白板 blackboard 黑板 homework 家庭作业 hosework 家务 arm 肩
分类: 其他 发布时间: 07-04 23:30 阅读次数: 0

JS正则表达式从入门到入土(5)—— 量词

量词 很多时候,我们需要匹配一个连续出现很多次字符的字符串,比如,我们要匹配一个连续出现20次的数字的字符串,按照之前的写法: \d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d 是不是感觉快疯了?很庆幸,使用正则提供的量词,我们就可以快速解决这个问题。 量词的使用方法如下: 字符 含义 ? 出现零次或一次(最多出现一次) + 出现一次或多次(至少出现一次) * 出现零次或多次(任意次) {n} 出现n次 {n,m} 出现n到m次 {n,} 至少出现n次 那么该如
分类: 其他 发布时间: 07-04 23:30 阅读次数: 0

封装动态数组类Array

功能: 1.增、删、改、查 2.扩容、缩容 3.复杂度分析 4.均摊复杂度 5.复杂度震荡 分析动态数组的时间复杂度: 分析resize的时间复杂度: public class Array<E> { private E[] data; private int size; // 构造函数,传入数组的容量capacity构造Array public Array(int capacity){ data = (E[])new Object[capac
分类: 其他 发布时间: 07-04 23:30 阅读次数: 0

PTA练习题---树的同构

问题描述:给定两棵树T1和T2。如果T1可以通过若干次左右孩子互换就变成T2,则我们称两棵树是“同构”的。例如图1给出的两棵树就是同构的,因为我们把其中一棵树的结点A、B、G的左右孩子互换后,就得到另外一棵树。而图2就不是同构的。图1图2现给定两棵树,请你判断它们是否是同构的。输入格式:输入给出2棵二叉树树的信息。对于每棵树,首先在一行中给出一个非负整数N (≤10),即该树的结点数(此时假设结点...
分类: 其他 发布时间: 07-04 23:30 阅读次数: 0

机器学习实战---k近邻算法

kNN算法具体描述可以参见李航的《统计学习方法》kNN算法的伪码过程如下:(1)计算已知类别数据集中的点与当前点之间的距离;(2)按照距离递增次序排序;(3)选取与当前点距离最小的k个点;(4)确定前k个点所在类别的出现频率;(5)返回前k个点出现频率最高的类别作为当前点的预测分类;kNN代码详解如下:def classify0(inX, dataSet, labels, k):    dataS...
分类: 其他 发布时间: 07-04 23:30 阅读次数: 0

机器学习实战---使用Matplotlib注解绘制树形图

&amp;gt;&amp;gt;&amp;gt; help(pyplot.annotate)Help on function annotate in module matplotlib.pyplot:annotate(*args, **kwargs)    call signature::      annotate(s, xy, xytext=None, xycoords='data',               t...
分类: 其他 发布时间: 07-04 23:30 阅读次数: 0

python selenium系列(三)常用操作类型及方法

一 前言开展WEB UI自动化的核心思路,无非就是找到元素,然后操作元素这两个内容。在python selenium系列(二)元素定位方式一文中,已经介绍了如何找到元素这项技能,本文将介绍第二项内容,即如何操作已经找到的元素。 二 操作方法分类总体来说,可以将操作大体分成四类,即浏览器操作、键盘操作、鼠标操作、js脚本。1.  浏览器常用操作方法:方法描述driver.maxi
分类: 编程语言 发布时间: 07-04 23:30 阅读次数: 0

机器学习实战---朴素贝叶斯分类方法

from numpy import * def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ...
分类: 其他 发布时间: 07-04 23:29 阅读次数: 0

机器学习实战---Logistic回归

from numpy import * def loadDataSet(): #讲文本中的数据解析成矩阵 dataMat=[];labelMat=[] fr=open('testSet.txt') for line in fr.readlines(): lineArr = line.strip().split() #每个数据变成单个的字符串,存放在lineArr列表里 dataMa...
分类: 其他 发布时间: 07-04 23:29 阅读次数: 0

机器学习实战--AdaBoost集成学习方法

from numpy import * def loadSimpData(): datMat = matrix([[ 1. , 2.1], [ 2. , 1.1], [ 1.3, 1. ], [ 1. , 1. ], [ 2. , 1. ]]) classLabels = [1.0, 1.0, -1.0, ...
分类: 其他 发布时间: 07-04 23:29 阅读次数: 0

洛谷 1025 noip2001 数的划分

题目:数的划分思路:令f[i][j]为把第i个数分成k份的方案数。f[i][j]=f[i-1][j-1]+f[i-j][j]即没有一个数为1的方案数加上有至少一个数为1的方案数。代码:dp:#include&amp;lt;bits/stdc++.h&amp;gt; using namespace std; #define maxn 200 #define maxm 6 int n,m; int f[maxn+...
分类: 其他 发布时间: 07-04 23:28 阅读次数: 0

循环比赛日程表

题目:题目描述 设有N个选手进行循环比赛,其中N=2^M,要求每名选手要与其他N-1名选手都赛一次,每名选手每天比赛一次,循环赛共进行N-1天,要求每天没有选手轮空。 输入输出格式 输入格式: 输入:M 输出格式: 输出:表格形式的比赛安排表 输入输出样例 输入样例#1: 3 输出样例#1: 1 2 3 4 5 6 7 8 2 1 4 3 6 5 8 ...
分类: 其他 发布时间: 07-04 23:28 阅读次数: 0

洛谷 1498 南蛮图腾

题目:南蛮图腾思路:分治。以一个三角形为基本型,每次复制一遍。注意 '\\'==\代码:#include&amp;lt;bits/stdc++.h&amp;gt; using namespace std; #define maxm 2000 string str[maxm]; void f(int x) { int len=(x&amp;lt;&amp;lt;1); for (int i=x; i&amp;lt;len; i+...
分类: 其他 发布时间: 07-04 23:28 阅读次数: 0

洛谷 1226 取余运算||快速幂 (快速幂模板)

题目:取余运算||快速幂思路:快速幂模板注意n^0的情况。代码:#include&amp;lt;bits/stdc++.h&amp;gt; using namespace std; long long a,b,k; long long ans=1; int main() { scanf(&quot;%lld%lld%lld&quot;,&amp;amp;a,&amp;amp;b,&amp;amp;k); printf(&quot;%d^%d mod %d=...
分类: 其他 发布时间: 07-04 23:27 阅读次数: 0

洛谷 1290 欧几里德的游戏

题目:欧几里德的游戏思路:不妨设两数A&amp;gt;=B(如果不是手动swap)。假如A&amp;lt;2B,这一轮时只可能有一种选择方案,就是A'=A-B,且此时A'一定小于B而当A&amp;gt;=2B时,有多种选择方案,那么此时选择的人就可以每次都把另一个人的选择限制在一个自己能赢的状态中。所以,当A&amp;lt;2B时,就模拟这个过程,只要出现了A&amp;gt;=2B的情况,那么此时选择的人就一定会赢。代码:#includ...
分类: 其他 发布时间: 07-04 23:27 阅读次数: 0

贝茜的飞行路线

题目:题目描述 奶牛贝茜想到一个更温暖的地方去度过这个寒冷的冬天。不幸的是,她发现只有一家名叫AB的航空公司愿意把票卖给奶牛,而且这些票的构成很奇怪。AB有N架飞机,每架都有一个特定飞行路线,这个飞行路线包含2个或更多的城市。例如,一架飞机的路线可能是从城市1开始,然后飞到城市6,再飞到城市2,最后飞到城市8。没有城市会在一条路线上出现多次。如果贝茜决定使用这个路线,她可以在一条路线的任意一个城市...
分类: 其他 发布时间: 07-04 23:27 阅读次数: 0

光荣的梦想

题目:题目描述 prince对他在这片大陆上维护的秩序感到满意,于是决定启程离开艾泽拉斯。在他动身之前,prince决定赋予King_Bette最强大的能量以守护世界、保卫这里的平衡与和谐。在那个时代,平衡是个梦想。因为有很多奇异的物种拥有各种不稳定的能量,平衡瞬间即被打破。KB决定求助于你,帮助他完成这个梦想。 一串数列即表示一个世界的状态。 平衡是指这串数列以升序排列。而从一串无序数列到有...
分类: 其他 发布时间: 07-04 23:27 阅读次数: 0

极值问题

题目:题目描述 已知m、n为整数,且满足下列两个条件: ① m、n∈{1,2,…,k},即1≤m,n≤k ②(n^2-m*n-m^2)^2=1 你的任务是:编程输入正整数k(1≤k≤109),求一组满足上述两个条件的m、n,并且使m^2+n^2的值最大。例如,从键盘输入k=1995,则输出:m=987 n=1597。 输入输出格式 输入格式: 输出格式: 输入输出样例 输入样例#1: 1995...
分类: 其他 发布时间: 07-04 23:26 阅读次数: 0