2021-03大数据面试题

Java:
    1.类加载器机制,都有哪些类加载器
    2.解释SPI
    3.GC算法、cms和g1收集流程、GC Roots
    4.synchronized和reenrantLock的区别
    5.synchronized的锁升级过程,什么情况下会由cas升级到重量级锁
    6.什么情况下会oom和stackOverFlow
    7.什么情况下会Full GC
    8.什么情况下对象会进入老年代
    9.ConcurrentHashMap原理
    10.ThreadLocal怎么实现的
    11.线程池几个参数的含义、用线程池会遇到什么问题
    12.线程个数设置的考虑
    13.CountDownLatch和cyclicBarrir的区别
    14.Object对象类有哪些方法
    15.解释volatile, 是原子性的吗?

Spring:
    1.解释IOC
    2.AOP实现原理
    3.Feign实现原理
    4.Spring中的设计模式
    5.ApplicationContext的功能
    6.Spring的启动流程
    7.spring怎么实现事务的

数据结构和算法:
    1.红黑树
    2.多路归并排序
    3.快速排序
    4.输入一个数组,输出两数之和等于num

hadoop:
    1.hdfs读写流程
    2.NameNode启动流程
    3.hdfs副本丢失怎么办


Flink:
    1.如何保证端到端的Exactly-once、kafka两阶段提交
    2.Flink的容错机制、checkpoint过程
    3.Flink的架构和任务提交流程
    4.Flink的乱序处理
    5.Flink背压怎么处理?Flink的异步算子
    6.Flink的堆外内存
    8.你们每个TaskManager用几个Slot、Slot隔离的资源是什么
    9.解释下Flink的4种Graph
    10.解释Flink的回撤流
    11.对流批一体的理解
    12.几种窗口函数以及他们的用法
    13.flink写到hdfs,任务失败重启会有什么问题

Spark:
    1.数据倾斜怎么处理
    2.Spark的核心概念,DAG
    3.Spark的Shuffle过程
    4.Spark和MapReduce的本质区别
    5.spark什么算子可以避免join
    6.spark改变并行度的算子
    7.repartition需要注意什么
    8.导致spark shuffle的算子有哪些
    9.Spark distinct原理


Hbase:
    1.写数据的优化(wal、memstore)
    2.Hbase和clickhouse的区别
    3.hbase热点问题怎么处理
    4.两个columnFamily,数百列写入数据会有什么问题

clickhouse:
    1.用户留存retention函数用法
    2.视图的作用
    3.mergeTree过程
    4.batchLoader buffer缓存
    6.多少台集群,集群数量大了之后会有什么问题?
    7.clickhouse原理
    8.为什么要用clickhouse,和kudu、hbase有什么区别

Kafka:
    1.Kafka单条消息的长度设置成多少?
    2.kafka的核心概念
    3.怎么保证数据不丢失
    4.怎么保证数据有序
    5.zookeeper对于kafka有哪些作用


其他:
    1.优化同步一张很大的表
    2.linux查看一个进程里线程的情况用什么命令
    3.大数据量的TopN怎么处理,怎么避免全排序
    4.canal的核心配置有哪些
    5.用户提交一批给hadoop用户授权的任务,15秒超时,说实现思路
    6.用户留存的hive sql怎么写
    7.zookeeper的核心概念
    8.redis怎么实现分布式锁
    9.WebSocket高并发
    10.clickhouse为什么要批量加载
    11.归因分析(营销+订单): 营销转换率(订单最近一次营销短信为转化)
    12.跨数据源怎么解决(quickSql)
    13.flume采集数据到kafka,报kafka单条消息过大,flume卡住了,怎么处理
    14.说一下对janusGraph的理解
    15.知道哪些调度器,数据质量的框架
    16.es的核心概念
    17.es一个索引数据量太大怎么办
    18.对kylin的理解
    19.对kudu的理解
    20.写入的文件,hive没有读到有什么情况
    21.小文件怎么处理
    22.对bitmap的理解
    23.Hive shuffle参数
    24.Join两张大表
 

猜你喜欢

转载自blog.csdn.net/laughing_yang/article/details/114396611