25届字节跳动 抖音NLP算法工程师 面经

请添加图片描述

一面/技术面 2024/08/30

  1. 深挖实习(最近的一段实习)
  2. 深挖论文(让我共享屏幕,然后对着自己的论文讲)
  3. 论文做了多久完成的?主要都做了哪些工作?
  4. 如何计算语言模型的困惑度?
  5. 常见的PEFT方法都有哪些?LoRA有哪些关键的超参数?
  6. 常用的backbone都有哪些?(面试官想让我回答encoder、decoder、encoder-decoder这些)
  7. batch norm、layer norm、instance norm、group norm之间有什么区别?
  8. batch norm是在哪几个维度上norm的?
  9. 为什么NLP要用layer norm而不是batch norm?
  10. 手撕代码:现场写Attention,边写边讲思路,并要求跑通
  11. 为什么Q和K乘完要除以根号d?
  12. BERT、T5、GPT之间有什么区别?分别用了什么样的预训练任务?

二面/技术面 2024/09/13

  1. 介绍最近的一段实习
  2. 挑一些重要的项目展开讲讲
  3. 对分布式这一块是否了解?比如Megatron框架是如何提升效率的?
  4. 深挖另一段实习
  5. 讲一下Adapter,它作用在哪些层?
  6. LoRA可以作用在哪些层?你有没有尝试过不同的层,效果有多大差异?
  7. 假设你要对7B的模型做全量微调,大概要占用多少显存?
  8. 使用LoRA微调的话,一般会节约多少显存?
  9. 介绍一下你知道的推理加速方法
  10. KV-cache是怎样工作的?
  11. 推理时常见的参数,比如top-p、top-k、temperature,都展开讲讲
  12. 对Hive SQL或Spark等大数据处理工具了解吗
  13. 对传统的机器学习模型了解吗?比如决策树、随机森林这些
  14. Bagging和Boosting的区别?
  15. Transformer、BERT和GPT在网络结构上有何区别?
  16. 为什么现在的大模型都是decoder-only的架构?
  17. 手撕代码:在无重复元素的整数数组中寻找和为 target 的所有不同组合,返回结果应当是 List[List[int]]。数组中的同一个元素可以被无限制重复选取。

二面快结束的时候,跟面试官闲聊了一会,聊着聊着发现base地在深圳,我问面试官我不是投的杭州base吗,面试官说他也不知道,最后只能主动放弃了。

猜你喜欢

转载自blog.csdn.net/raelum/article/details/143210684