互联网大厂VIVO大数据岗位面试题

VIVO面试题

互联网大厂VIVO大数据岗位面试题

学长1

面试的数仓岗

1、一面

1)项目部分

(1)大概介绍一下你之前的工作

(2)做过哪些指标,怎么实现的(说出去的指标一定要会写SQL,会一个个问你怎么实现的)

(3)有没有做过留存用户,比如一个月,1到30天的留存用户

(4)Hive优化

(5)统计一个月内,连续登陆7天用户

2)情景部分

现场出了个SQL题

uid event dt

1 点击 t1

2 收藏 t2

...... ..... ....

统计会话Session :同一个用户事件时间间隔小于1分钟,算一次会话

2、二面

1)项目部分

(1)从数据源头开始问

(2)你们的数据源是什么,怎么埋点的,数据的格式是怎么样的

(3)是一次点击生成一个日志?,事件日志为什么会出现套Json

(4)启动日志和行为日志是怎么区分的

(5)多次点击是算一个事件还是多个,比如多次点赞,有没有做过类似点击次数的统计,你通过这个日志做了哪些指标,

(6)除了用户方面的,事件类的指标做过哪些,这些指标是怎么做的

(7)工作中有什么指标很难的,怎么实现的

2)总结

VIVO,好像会根据你的简历侧重,分配岗位,实时或者数仓,做好准备吧,骚年

学长2

面试Spark开发岗。大家如果有去VIVO的,一定要把简历上写到的知识点都搞懂。面试官是带着你的简历过来的,他事先有分析过你的简历。

1)项目部分

(1)先介绍你的项目,我介绍采集平台,刚说到Kafka。问双层Flume,第二层Flume怎么对日志类型分类,分多少个类。如果一层Flume新增了一个Topic,怎么处理。

(2)Hive表中的每层的血缘关系怎么查询

(3)每天业务量,问简历上的指标是怎么做的。

(4)Hive中用什么写SQL,Hue。

(5)case class和class的区别

(6)SparkStreaming精准一次性消费,会问到你们用的什么版本的Kafka和SparkStreaming 。然后就是根据版本,这里offset的问题会展开详聊。

(7)写了Redis缓存,会问你缓存机制。

(8)写了Hive配置MySQL高可用,会问你怎么配置的。

学长3 VIVO外包

 学长4

忘记录音了,能记起来这几个不太常规的,大家分享分享见解,其他的问题还比较常规

(1)想要考察我Java基础,但是说了用的Scala,他就虐我Scala了

(2)Scala创建多线程的方式?

(3)Scala闭包的概念、应用?

(4)Spark并行度由什么决定的,引导我好久,我的回答他都不满意。。。

(5)blackmanager是什么?

(6)Flink实现实时uv统计怎么实现,全流程代码解析包括数据读取算子使用这种

(7)Flink有哪几种窗口(5种),分别是什么

(8)想考察我flinksql但是没用,就考察了几个hiveSQL,比较常规

学长5

vivo(外包 1面 & 2面)

(1)SparkStreaming稳定性的确保

(2)Spark OOM的本质。

可能是从两方面:map执行时oom,shuffle后oom

参考:https://www.cnblogs.com/jiangxiaoxian/p/7442022.html

(3)你了解ES的分页吗?一般到一千页后,就会很慢,怎么解决?

了解,我们公司没有一千页的数据,没操作过。

学长6

(1)生产环境中谁提需求,谁验收数据,具体的业务需求流程是什么样的?

(2)曝光量有多少、

(3)实时计算男女比例和年龄比例有什么用,这种指标用离线计算一天统计一次不是更好吗?

(4)实时统计热门商品topN的意义在哪里呢?

(5)类加载器的种类,有什么机制,机制有何用处

(6)垃圾回收g1和cms怎么选择

(7)flink的精准一次消费

(8)flink的五种窗口

学长7-外包

1)1面:

(1)给了任务指标,不知道表的结构的情况下,如何进行分析,解决

(2)你们数仓怎么怎么建模的,举一个具体指标说明一下?

2)2面:

(1)给了很多指标,很相似,很多任务,如何做一个有效率的管理这些指标

学长8-AI项目外包

(1)数仓中分了哪些主题?

(2)请谈谈你对数仓的理解,它有什么优势?

(3)如果让你来设计数仓,你有什么思路?为什么这样做?

(4)谈谈你对sparkstreaming的理解,对spark的理解,对hive的理解

法本信息,vivo外包

(1)你说开启mapjoin,怎么确定小表小于32M。

(2)你用UDF函数解析公共字段,要是海量数据怎么处理。

(3)Spark手动提交offset,怎么实现精准一次性。手动维护偏移量 保证数据不丢数,提交偏移量代码跟业务处理代码写到一个事务里面去

(4)spark中,大表join大表怎么优化的。 广播join

(5)怎么确定的维度表,要是后期业务增加了怎么办。

大数据培训

猜你喜欢

转载自blog.csdn.net/msjhw_com/article/details/107831390