大数据面经(地平线公司一面+二面)

一面,持续了近50分钟。
1.自我介绍
2.介绍下项目(项目过程中有打断问问题)
我先介绍的第二个项目,balabala一堆,说到mapreduce,问我mapreduce的东西,1.mapreduce的流程2.怎么解决map端和reduce端的数据倾斜问题,balabala,先说了reduce段的解决策略,说到map端的时候我说map端的数据倾斜主要是数据文件输入有倾斜,可以对数据文件进行手动规整切分,他问如果是压缩格式的文件的呢,我愣了以下,它提示我有没有自定义过输入格式,我说自定义过,解决小文件合并的问题,又balabala和我说了下,不记得说了啥。说完接着让我说项目,我说到了hive统计分析,问我用hive sql还是写mapreduce,我说hive sql,考了我两道hive sql题 3.现在数据文件格式如下 用户访问ip和时间戳,让我统计前一天访问次数前五的ip数,这个很简单,我说先按照时间戳过滤出前一天的数据再按照用户ip分组,再用count()函数统计分组记录再排序输出前五个即可。4.接着上一道题问我 加一个用户访问url,现在情景如下,由于前端传过来的数据可能会造成一天记录在表中被记录成两条,只要用户ip和访问url相同,且同时两条数据时间戳在三秒内的就可以认为一条数据,接着统计上一个题的要求, emmmm,我卡住了,他给了我提示,用partition by 分区,还是没想出来怎么解决。。。后来又提示self join。。。这个真不了解。。。我说我多内连接和外连接了解比较多。。。说让我可以看下hive的什么什么函数。我当时也没听清,也不敢问,就连忙答应好。5.说看我也用到了MySQL,问我有没有对SQL进行调优的经验,我说有,问我什么时候需要加索引,怎么判断sql语句有没有用到索引。 balabala 说完让我接着说第二个项目,说到了flume,6.问我flume相关 balabala 7.说到了HBase,问我HBase怎么读取文件的,主要存储什么数据 balabal 8.问我HBase的表结构怎么设计的 balabala 9.看你简历上写到了redis和mongodb,问我什么时候用到了mongodb 我说mongodb没怎么用,当初学web的时候用了一些,就没接着问了。10.问了我一道算法题,现在有一个数组,统计数组中出现次数前五的元素和出现次数 balabala,想了一会,说了自己的思路一遍,感觉面试官好像没听明白我说的什么,就再说了一遍。11.问我大概什么时候能实习,能实习多长时间。 balabala,让我等后面的通知。

二面(一面面完五分钟后打来),持续了大概35分钟
。。。让我等后面的通知,没想到过了五分钟就又一个面试官打过来了。。。
1.自我介绍
2.身边有电脑吗,给了我个ip地址,让我在线做两道题(不挂电话,面试官能实时看到你敲的东西),一道sql题,一道编程题,编程题卡住了(想了半天没想出来,题目没理解什么意思。。。),看我半天没写出来让我说下思路。balabala 胡扯一堆。。。感觉这里就已经凉了。
3.介绍项目 balabala
4.问我数据怎么来的 balabala 问我数据量这么小适合存到hdfs中吗?我说不是一天爬取的数据(说的网站日志分析项目),balabala。。。。问了一些其他的项目细节。
5.介绍下Hadoop-HA
6.说时间差不多了,问我有什么想问他的,还问我什么时候能实习,实习多久。。。
没有让我等后续,应该是凉了,毕竟题目没做出来,项目细节还被问住了。。。。

总结:一面主要是问项目结构,结合项目问知识点
二面开门不利,一道编程题卡了十几分钟。。。估计这里就基本凉了。。。问了项目细节,答的也不好,凉上加凉面试官也不想接着问了,问的也不多。

猜你喜欢

转载自blog.csdn.net/weixin_43695091/article/details/89483371