2021-03大数据面试题

Java:
   1.类加载器机制，都有哪些类加载器
   2.解释SPI
   3.GC算法、cms和g1收集流程、GC Roots
   4.synchronized和reenrantLock的区别
   5.synchronized的锁升级过程，什么情况下会由cas升级到重量级锁
   6.什么情况下会oom和stackOverFlow
   7.什么情况下会Full GC
   8.什么情况下对象会进入老年代
   9.ConcurrentHashMap原理
   10.ThreadLocal怎么实现的
   11.线程池几个参数的含义、用线程池会遇到什么问题
   12.线程个数设置的考虑
   13.CountDownLatch和cyclicBarrir的区别
   14.Object对象类有哪些方法
   15.解释volatile, 是原子性的吗?

Spring:
   1.解释IOC
   2.AOP实现原理
   3.Feign实现原理
   4.Spring中的设计模式
   5.ApplicationContext的功能
   6.Spring的启动流程
   7.spring怎么实现事务的

数据结构和算法：
   1.红黑树
   2.多路归并排序
   3.快速排序
   4.输入一个数组，输出两数之和等于num

hadoop:
   1.hdfs读写流程
   2.NameNode启动流程
   3.hdfs副本丢失怎么办

Flink:
   1.如何保证端到端的Exactly-once、kafka两阶段提交
   2.Flink的容错机制、checkpoint过程
   3.Flink的架构和任务提交流程
   4.Flink的乱序处理
   5.Flink背压怎么处理？Flink的异步算子
   6.Flink的堆外内存
   8.你们每个TaskManager用几个Slot、Slot隔离的资源是什么
   9.解释下Flink的4种Graph
   10.解释Flink的回撤流
   11.对流批一体的理解
   12.几种窗口函数以及他们的用法
   13.flink写到hdfs，任务失败重启会有什么问题

Spark:
   1.数据倾斜怎么处理
   2.Spark的核心概念，DAG
   3.Spark的Shuffle过程
   4.Spark和MapReduce的本质区别
   5.spark什么算子可以避免join
   6.spark改变并行度的算子
   7.repartition需要注意什么
   8.导致spark shuffle的算子有哪些
   9.Spark distinct原理

Hbase:
   1.写数据的优化(wal、memstore)
   2.Hbase和clickhouse的区别
   3.hbase热点问题怎么处理
   4.两个columnFamily，数百列写入数据会有什么问题

clickhouse:
   1.用户留存retention函数用法
   2.视图的作用
   3.mergeTree过程
   4.batchLoader buffer缓存
   6.多少台集群,集群数量大了之后会有什么问题?
   7.clickhouse原理
   8.为什么要用clickhouse，和kudu、hbase有什么区别

Kafka:
   1.Kafka单条消息的长度设置成多少?
   2.kafka的核心概念
   3.怎么保证数据不丢失
   4.怎么保证数据有序
   5.zookeeper对于kafka有哪些作用

其他:
   1.优化同步一张很大的表
   2.linux查看一个进程里线程的情况用什么命令
   3.大数据量的TopN怎么处理，怎么避免全排序
   4.canal的核心配置有哪些
   5.用户提交一批给hadoop用户授权的任务，15秒超时，说实现思路
   6.用户留存的hive sql怎么写
   7.zookeeper的核心概念
   8.redis怎么实现分布式锁
   9.WebSocket高并发
   10.clickhouse为什么要批量加载
   11.归因分析(营销+订单): 营销转换率(订单最近一次营销短信为转化)
   12.跨数据源怎么解决(quickSql)
   13.flume采集数据到kafka,报kafka单条消息过大,flume卡住了，怎么处理
   14.说一下对janusGraph的理解
   15.知道哪些调度器，数据质量的框架
   16.es的核心概念
   17.es一个索引数据量太大怎么办
   18.对kylin的理解
   19.对kudu的理解
   20.写入的文件，hive没有读到有什么情况
   21.小文件怎么处理
   22.对bitmap的理解
   23.Hive shuffle参数
   24.Join两张大表

2021-03大数据面试题

猜你喜欢