Capital one面经

2018(7-9月) 分析|数据科学类 博士全职@Capital One - 校园招聘会 - 技术电面 | Other | fresh grad应届毕业生

趁金鱼记忆没有消失的时候赶紧写一下攒个人品
LZ是转行PhD申请DS。上周和recruiter电话聊了就立刻安排了电面。
一个data scientist manager面的，感觉还是很nice的，如果答错了或者漏答了会停下来提醒几遍，如果是比较开放式的问题，答出新的点就会去下一个题。
自我介绍以后就开始问那个经典的预测信用卡用户会不会关户的问题。如果给你一堆dataset，比如信用卡一年的交易记录、客户个人信息，银行想预测客户会不会在一个月之内关户，如果会的话，银行打算发一点cashback rewards给这些人挽留一下。让你建模预关户。以下是面试官的问题：

以下内容需要积分高于 200 您已经可以浏览

1. 你会选哪些feature？（感觉是随便说，只要有关系。追问如果是一堆transaction的日期之类的，应该怎样rebuild feature）
2. 怎么做data cleaning：
a.       怎样detect outlier？
b.       怎样fill in missing data？(我说可以填constant比如mean，然后他追问填mean在什么情况下不合适、怎样更好)
c.       如果target value也missing了怎么办
3. 你选什么model？(我说decision tree，然后他让我说有没有其他model，优缺点分别是什么，target是什么。target应该是一个binary的值whether the customer will close the account in one month，如果regression得到了0~1之间的值就代表how likely)
4. 怎么看model 的performance，用什么package
5. 如果data size很大有1TB，怎样sample，用什么package
6. 如果model不准确，会给银行造成什么损失？
7. 如果用model predict得到了一堆target的值，应该怎样根据target发rewards (我说画个distribution，给最可能关户的百分之几客户发rewards。追问除了这种方式还有什么方式，我也不确定是考modeling还是business sense)
8. 最后一个是地里看到的一模一样的open question，两人都有5000limit，但是一个用100%一个只用2%，这两人有没有可能都在一月之内关户。面试官应该看你第一反应是考虑model的问题还是考虑其他方面。

2015(1-3月) 分析|数据科学类 硕士全职@Capital One - 网上海投 - 技术电面在线笔试 | Other | fresh grad应届毕业生

刚面完的C1，很热很烫的面经。
HR面：
问问简历问题，还有你会些什么语言擅长什么。

OA：在hackerrank做的，所有题都要自己写Scanner in = new Scanner(System.in)来读入。
1. 读入m和n，m个coins，有n个heads的概率是多少。有一个test case一直过不了，不知道是哪个边界条件。
2. 和Leetcode的anagrams类似，读入一个String，所有单词以空格隔开，除了数字和字母以外的字符都要去掉，大小写也不算。比如"R&D","dR"这种也算anagrams，最后每一行输出一组anagrams
3. 读入一个，我用了LC上的NP套路来做，也就是combinations, subset这种题的套路。

两天后被通知电面。
电面我真蛋疼，人生的第一个印度面试官，人其实不错的。一开始打电话过来我完全听不懂，我以为是我听力不好，差点都哭出来了，后来他换了个电话，我瞬间听得很清楚了，超级清楚完全没杂音，所以想问一下大家啊！是不是不同移动公司会有这种情况，因为我电面很多次了，大部分都是听得很清楚，有些时候就会出现这种听上去有点嘈杂，而且会有1 2秒的延迟。

1. 简历问题，问的非常细致，我之前做过一个推荐系统，这个面试官对这一块非常擅长，所以问得很细很专业，我没答好，加上一开始的确听不懂。所以建议大家可以先linkedin面试官，看看他擅长什么，我遇到过几次面试官喜欢问自己擅长的东西。
2. 一个超市，有100个顾客的list，

以下内容需要积分高于 133 您已经可以浏览

70个男的，30个女的，如果用这个数据做数据分析会有什么statistical issues，问这个100个顾客会是什么样的distribution

Simpson's paradox

3. walk through一个mapreduce问题，一组数据，四个columns: name, category, # of transactions in 2014, dollar values of transaction in 2014，需要知道每个category的average dollar values per transaction，怎么用mapreduce做，其实就specify一下mapper和reducer的input和output，然后在reducer里求一下平均值什么的。
walk through一个mapreduce问题，一组数据，四个columns: name, category, # of transactions in 2014, dollar values of transaction in 2014，需要知道每个category的average dollar values per transaction，怎么用mapreduce做，其实就specify一下mapper和reducer的input和output，然后在reducer里求一下平均值什么的

我感觉是跪了，C1的DS面经地里估计是第一个，求大米啊求大米。

补充内容 (2015-3-20 00:13):
OA第三题没打完= =
读入一个数字，还有多个面值，这些面值能组成这个数字的方法有多少个。比如读入数字是10，面值是(10, 5, 1)，应该有4种。

2019(10-12月) 分析|数据科学类 博士全职@Capital One - 网上海投 - 技术电面 | Other | fresh grad应届毕业生

本帖最后由 naivelamb 于 2018-11-11 04:31 编辑

Position: Principal Associate, Data Scientist

一轮技术电面，跟一个在Capital One工作的Data Scientist聊了一个小时。先互相介绍了一下，给我讲了讲他在capital one做什么，之后技术面试聊了大概50分钟，只有case。

题目是有一个运动产品的零售商，来找你优化他们的在线广告竞拍系统，提高response rate。假设你有的数据是3, 000, 000用户的访问数据，每行数据有150多个column，已知overall的response rate是1/1000。
被问的问题有：
1. 选什么作为target？
Response or not
2. 选什么metrics?
AUC-ROC
3. 怎么处理NA?
It depends. If NA is meaningful, leave it there. If NA is missing due to data extracation, do some simple if-else condition/mean(median)/regression to fill
4. 怎么做feature engineering?
Encode categorical varaible, use 'groupby' and 'mean/medium/std' to generate some features
4. 数据量特别大怎么办？
mapreduce，但是我没用过，就拿本地并行优化举了个例子，怎么分配数据给各个线程，然后怎么把数据收回来合并。
5. 模型用什么？
GBDT，lightGBM/XGB
6. 怎么评估模型表现？
k-fold CV
7. Overfitting/underfitting怎么办？
分别讨论了一下。想办法获取更多的数据，调整hyper-parameter。
8. 如果模型预测出了问题，会有什么影响？
分情况讨论了一下整体上会有什么变化，对单个用户有什么影响。

最后5分钟让提了下问题。接下来的流程是等HR回复结果，做一个data challenge（应该是给数据建模型），然后on-site。

2018(10-12月) 分析|数据科学类 硕士全职@Capital One - 网上海投 - 技术电面 | Other | fresh grad应届毕业生

网上海投的new graduate data scientist，第一轮是一个Technical Assessment，给了一周时间做。考的题有1.基本数学计算
2.python code结果分析，例如问经过几次循环后输出是多少，或者问最终x=？，y=？
3.数列题/找规律题
4.给几个table写数据库查询SQL语句
考的题不难，就三个方面：数学+python+SQL
第二轮是30 minute business mini-case + a 15 minute job fit。我因为不在当地选择了zoom视频面试。不知道是不是因为我是新毕业生的关系，给我分配的面试官感觉也是一个刚入职的，讲真感觉很不专业。而且之前小秘给我发邮件，前前后后改了三次zoom面试的时间，很醉。面试上来先自我介绍，面试官给屏幕共享可以看到一个word文档，题目大概是这样的：
our sever run cost is xxx, 其他固定成本是xxx，能容纳xxx TB流量。我们大概有xxx个客户，每个客户交付给我们server使用费为xxx／month。我们给每个用户分配xxxGB，但是平均每个用户只会用掉期中的xx%，所以我们可以把剩下的空间再去接纳更多的客户。问：每年盈利是多少？现有另外一种server b， cost is xxx，capacity is xxx。。。请权衡比较我们要不要把已有server换成server b
job fit就问的很简单，问python会多少，一般用哪些package，最近做过的ds项目。

2018(10-12月) 分析|数据科学类 硕士全职@capital one - 网上海投 - HR筛选技术电面 Onsite 在线笔试 | Fail | 在职跳槽

分享一个capital one Data Scientist 的面试经验:
第一轮：HackerRank online coding challenge
   第一部分１５０分钟四道题，并不很难，我选择的语言是，python因为他们公司内部也全部转用python, 他们可能更希望你会Python　基本上熟悉一些基本sorting, probability,reverse the order of a sentense, find distinct value,  how to define function ( 建议可以看以下udemy的一个python 入门课程: Complete Python Bootcamp: Go from  zero to hero in Python 3,　看完前面几个基础章节足够应付这个online coding challenge）
   第二部分是一个45分钟的Online 测试，也是来自hackerrank，全部选择题大部分是关于概率问题，稍微复习下基本概率问题就行  很少部分sql 的问题
第二轮：做完coding  challenge 第2天收到邮件安排hr电话面试
电话面试内容主要问现在的工作经验和做的一些project 还有问是否用到predictive modeling， regression一类的，电话面试的结尾，同时安排了第一轮Onsite
第三轮: Onsite tecnical  part 1
第一部分是一个case interview 关于一个amusement park 说今年的revenue减少，问你可能是什么原因 . 然后给了market share的一个公式，还有计算一下如果改变门票价格如何能breakeven  还有问你有什么建议
要注意的是改变价格的时候之间给的market share 公式不再适用要自己想其他办法来计算，期间Interviewer 有correct 我几次，最后也是把所有问题做完了
第二部分是sql  这个很容易只要熟悉基本的join table 就足够
第三部分：给一个file, 让你用r 或者python 从读file 开始，写code. 最后会继续问如果我们有300 多个file 问你要怎么解决这个数据量大的问题，我回答用map reduce 然后他们会继续问如何实行，一定要搞懂map reduce原理

我没有再收到Onsite part 2的面试，估计是case那部分做的不是很理想吧

补充内容 (2019-1-14 10:30):

突然想起onsite job fitting interview 一些其他问题没找到怎么编辑帖子，我记得onsite的时候会问很多modeling都是细节尤其predictive modeling, random forest, logistic regression这类的如果简历里面写了这方面工作经历，一定要准备充分因为他们会问的很细节包括如何建model,用了哪些parameter,结果如何还有为什么要选这个model

2018(4-6月) 分析|数据科学类 硕士全职@capital one - 网上海投 - HR筛选 Onsite 在线笔试 | Other | fresh grad应届毕业生

自从前两天onsite回来一直也无心学习无心做事。虽然recruiter反馈了recommend to hire，然而还没收到正式offer总是不安心，昨天和hiring manager 也聊的并不是很好，这个组做的感觉偏business analyst，听完这个manager的介绍提不起兴趣。也知道应届毕业小硕不好找DS，而DA大部分就是做分析类的工作，用用SQL，tableau写写report什么的，唉然而我一个想做model想做machine learning的心。但是又不好意思和recruiter说再帮我找找别的组怕把即将到手的offer给弄丢了。等待下周一周二不知道会有怎样的结果。

废话说了一堆，来说说面经吧。在linkedin上海投的senior data analyst，recruiter第一次联系我都是一个半月以前的事了。之前在地里也看了几篇这个职位的面经，具体流程几乎完全一样，很标准化。
1. recruiter
第一次和recruiter聊几乎没问什么，就是基本信息吧，问你愿不愿意relocate，介绍了一下面试的具体流程：hackerrank coding challenge+data challenge+onsite，聊完就给我发了hackerrank的链接
2. hackerrank coding challenge
两道简单的称不上算法题的算法题，两道SQL。算法题具体是什么忘了，之前的面经好像有，反正所有test通过了提交就行，也没有时间复杂度的要求。SQL也挺直白的，用到什么group by再sum一下这种。
3. data challenge
airbnb和zillow的数据，之前有人发过。投资NYC的properties来short term rent，要决定哪些zip codes最profitable。要先进行data cleaning，check data quality（从completeness，accuracy，validity，timeliness方面，具体可以google一下），然后进行分析并data visualization，最后给出建议。hr建议花5-8小时，但我觉得我做了一周，也不知道做了几小时，反正每天都花点时间在做这个。
有人说C1比较偏好用Python做的，不过我用R写的也过了，因为要visualization个人觉得ggplot比较方便。onsite的时候有一轮是present data challeng。这轮的评价准则有三个方面：Data Management， Innovation和Business Intelligence。但也不清楚具体做到什么程度才能过。
4. onsite
data challenge过了以后就是onsite，约了三周以后，当时觉得时间很多，但准备着觉得时间还挺紧的因为要准备的内容挺多的。提前打电话给他们会帮你定好机票和酒店。
onsite包括三轮：data challenge+case+case（每一轮都会包括1-2个behavior的问题）之后会和公司的一个人和那天一起的candidates吃午饭，参观公司。

data challenge:
把之前做的data challenge present一下，我是做了个ppt，然后花了20分钟从头过了一遍我的整个分析。之后面试官会问一些问题，不一定是啥，反正就按照自己真实的想法回答就行。

case interview：
因为之前完全没有case，还挺紧张的，搜了各种consulting 的case的准备资料，也不知道该看什么。但其实这个case和consulting的case还差别挺大的，几乎都是profitability的case，万能公式profit=revenue-cost。首先面试官会给你一个背景，一开始会问关于business sense的问题，比如有哪些factor要考虑，revenue和cost的来源，为什么要做这个新的产品。然后就会给你一堆数据，有的是读给你听你要自己记下来，有的是已经打印在纸上了面试官这时拿出来给你看说我们有这些数据。下一步就是计算profit，或者break-even。接着是各种变体，比如一个变量发生了变化，再算profit或者break-even。计算得出的数有的会问你这说明了什么，你觉得这个结果怎么样。基本就这样。

我面的两个case都是银行相关的。第一个是ATM的，第二个是要发行一个personalized credit card。
ATM的case：
先问你知道ATM吗，为什么要有ATM，ATM revenue来源（收取不是本银行的人的手续费）。有两类ATM，在银行内部的和外面的。给了一些数据要算一年profit，但是自己要想到问面试官非本银行客户的百分比。然后下一个问题关于银行外部的，要考虑哪些因素。好像也给了些数据算什么break-even，需要非银行客户的百分比达到多少，并解释你认为这个百分比能不能达到。。

personalized credit card：
发行一种可以personalized的credit card，问为什么要这样做，一个原因是希望客户多花钱。然后有一个market campaign，给了response rate，普通客户每个月balance，response并定制了的客户每个月balance，要计算平均客户的balance，也就是weighted average。然后又给数字算选择定制的客户定制之前的平均balance，得出要比所有平均客户高，所以我们要target本身消费就高的那些客户。然后又
给数字计算profit好像。如果我们不是免费定制，而是加上每张卡5块的手续费，需要多少response rate保持同等profit。

真是金鱼记忆，三天前面的现在case的细节已经记不太清了。总之其实就是给场景的数学应用题，认真听面试官在说什么，计算认真就好了。
我准备case用到的资料有，recruiter给的pdf了或者官网上也有的关于magazine的例子，capital one的一个专门为analyst面试的case讲解视频，caseinterview.com的视频看了一些对case有了入门的理解，书case in point看了几个例子（虽然和C1的case本质还是不太一样的），然后就是glassdoor所有这个职位的面经例子。

behavior的话基本都是glassdoor上说到的题目，我的是介绍一个accomplishment，一个帮助过别人的例子，一个失败的例子并学到什么。

2018(4-6月) 分析|数据科学类 硕士全职@capital one - 内推 - HR筛选技术电面在线笔试 | Pass | 在职跳槽

May1st final on-site interview, 据说很多人都败在final round 了，祝我好运！
应聘是data scientist- senior manager @ Richmond-VA , 但是因为资历不足，就被recruiter建议降级到principle associate 级别了，据说在C1 是个很常见的职位，但是我问了一下salary觉得可以接受。我实际上是data engineer 转 data scientist, 而且我也想积累更多business和management的经验，所以我认为这个貌似是个不错的机会。 At the step of resume submission, what I learnt is that having a reference from C1 is really important, as I actuallly applied for two role- principle and senior manager, but I got arejection on the principle while a chance on senior manager( that is higher level), only because my freind referred me in C1's HR system.

目前我已经通过了四轮- recruiter screen, hackerrank online coding test, Job fit sort-of phone interview and a homework.

大概大家都是这个流程，而且C1对于所有面试都非常standardized，网上有很多经验贴，所以比起列入所以问题（其实我基本都忘了），我主要给出一些shortcut tips:
hackerrank online coding: 三个小时时限，三个问题，只有你自己和webpage, 而且，最终递交前可以回头修改任何之前已经提交的代码，语言任意选。我用的scala，很多人用python. R应该完成不了所有问题。所以，你可以google, 粘贴复制，你可以找三个稍微会一点点代码的朋友，一人负责一道题。。。well, I'm kidding. Do it yourself! 3hours is good enough！
phone interview: 一个信用卡customer retention 的 predictive model 过程，预测用户是否会注销信用卡。我回答的并不好但还是勉强过了，因为没有预料到这个是个更business的交流过程而不是一个纯technical的面试，而本人在美国6年来从来没用过credit card，所以表现得就有点缺乏常识了。面试基本涉及了从feature engineering 到最后 model tuning and validation 的所有步骤。抱歉这一步我没有tip，而且不要走shortcut，因为我估计最后一轮on-site,你会被问到更多同样的问题。
homework: 这一轮做多久都可以，take your time, 因为某些原因，我做了3个周。基本上是参照https://github.com/kthouz/NYC_Green_Taxi 做的，也许你应该先做这个homework，然后再phone interview, it will make your phone interview much better.

最后的最后，我先在工作的小组正在招lead data scientist，这是真正的cutting-edge project, 如果你想做real Data Science，而且是big data + machine learning的大型项目，但是项目组却很小，所以每个人都play multiple roles，还有我们老板真的非常有眼光。Well, 那为什么我自己不要这个职位，哈哈哈，因为资历不足。https://www.themuse.com/jobs/finra/lead-data-scientist-technology-new-york-ny-or-rockville-md, 感兴趣的请留言给我。

2018(1-3月) 分析|数据科学类 硕士全职@Capital One - 网上海投 - HR筛选技术电面 Onsite | Fail | 在职跳槽

分享一个capital one Data Scientist 的面试经验，回馈地里，已跪，也算造福后人吧。

一年多工作经历，去年12月在网上海投，到今年18年2月末挂在onsite，2个月的时间，经历四轮面试+onsite，职位地点在纽约，Data Scientist。

12月末海投大概一周后收到通知，第一轮与HR电话聊聊经历，之后第二轮收到一个 HackerRank online coding challenge，两个小时三道题，并不很难，不涉及复杂算法。又大概一周后收到技术电面通知，也就是第三轮，一上来先聊简历，之后对方假设了一个数据条件和场景，然后一步步往下问，从cleaning，feature engining，到 model selection， validation，同时也涉及大数据量的情况，问当数据量很大的时候怎么处理，用什么工具，问的比较细致，有的地方要大概描述代码怎么实现，电话持续一小时。这一轮之后大概几天，HR通知过了，进入第四轮，第四轮是一个 data challenge，边写code边写思路，一周的时间，题是关于NYC green Taxi，地里有人分享过原题，大概是需要建一个回归模型预测出租车小费比例，个人觉得重点在于如何观察数据，清理数据，feature engining，数据中有缺失值，异常值，之后也要选择模型，对比模型表现，最后写出结论和future work，challenge的最后是一道5选一的开放题，我是选了做visualization，用tableau做了一个interactive dashboard。这个challenge挺花时间，我用了大概四天，尽量把思路都写清楚，值得一提的是github上能找到一些前人做的，可以提供一些思路。这轮之后过了一周，HR通知过challenge过了，安排了两周后的onsite。

onsite是在2月下旬，纽约办公室，全天面试，早上8点半到，9点开始，一直到下午3点半，中间1小时吃饭休息，一共6轮，每轮1小时，轮与轮之间几乎没有休息，一直在一间小会议室里，有几轮是远程视频，面试官都是 Data Science director 或者 VP data science。六轮中2轮business case，2轮tech（有一轮叫hiring manager interview 但实际是tech），1轮role play，1轮behavioral。网上有business case interview 的介绍视频，不了解的同学可以看一下。从9点开始，第一轮business case，场景是超市发放private credit card，有一些上一年的历史数据，问题涉及计算 profit，revenue，cost，market share，计算 market share 的时候要先计算全城有多少信用卡，面试官不会一下子把数据都给你，你要想计算时需要什么数据，考虑多种情况，同时问面试官某些数据有没有，比如说计算全城有多少信用卡就需要全程人口总数，成年人比例，和人均信用卡持有数三个数据，这些都需要问面试官才会得到。另外最后会有开放性的讨论，就是计算出一些结果，问你根据这个结果要采取什么样的行动，这个就比较靠business sense，要讲出道理。这一轮9点到10点，然后10点喝口水就又开始下一轮，第二轮同样是business case，一位VP，情景是电话接线员，给一周每天的平均电话时间，电话数量，还有一个是转接率（一个接线员不能解决问题需要转接的情况），计算围绕每个电话的平均通话时间，转接电话数量等等，最后也是开放讨论，如何才能降低转接率，提高接线效率。之后11点开始role play，role play 是飞机delay经典问题，网上可以搜得到，我再具体讲一些，就是假设你是一个数据咨询公司的咨询师，面试官是你的客户，一位business manager，假设他不懂统计和模型，他给你提供另一个数据咨询公司做的分析，是大概10几页slide，里面有各种分析图表和一个预测模型，让你给他讲一下这个分析都做了什么，根据它提供一些解决delay的思路，同时评价一下这个分析做的好不好，不好的地方提出改进思路。给你15分钟自己看材料，然后25分钟给他讲。讲的时候我是把材料一页一页都过了一遍，以咨询师的角度，抓住几个重点，1是讲解材料内容解释数据图表和模型，数据中不合理的地方要指出（如异常值）；2是发现问题提出改进，分析做的不好的地方，没意义的图表，模型的缺陷等等，提出改进办法；3是要时刻为客户着想，通过手上的材料，客户可以采取哪些行动和尝试来减少delay。这一轮真是挺考基本功和交流能力的，看数据和图表要细心，要尽量考虑全面，比如可以增加哪些feature，如何提高模型。这一轮12点结束，之后开始第四轮behavioral，也是上午的最后一轮，主要问了如何团队合作，如何向他人学习，如何解决矛盾冲突，如何合理安排任务优先级，如何面对挑战等等。都是先问一个问题，你讲一个事例，然后他根据你讲的事例深挖不同的问题，我是一共讲了三个事例，每个事例都被问了三个问题的样子。

1点上午的面试结束，中午跟一个 senior data scientist 吃饭，相互聊了聊经历和公司环境。下午是两轮tech，第一轮2点开始，问了multinomial distribution，结合不同的模型谈这个分布的应用，然后白板写sampling from multinomial distribution，之后问了variance 和 bias，解释和如何检测，最后聊了聊如何根据不同分布生成fake data。我是这一轮答的不好，其实挺基础，但我之前并不常用这个分布也没准备到，最后也就挂在了这一轮。后面最后一轮，面试官非常细致的问了我简历上的一个task，从数据到模型到结果，之后又问了前后端如何衔接（我简历上有提到但应该不是DS必备），模型如何应用到实际等等，本来还应该问data challenge，但面试官说我的challenege写的很清楚明了就不问了。至此，下午三点半多，结束整天的面试，HR送我出办公室。

最后谈一些感想和如何准备，首先onsite是所有轮都通过才算通过（我事后问了HR），所以每一轮都不要放松警惕，哪怕前5轮都很顺利，最后一轮也不能放松，因为就算5个面试官都很喜欢你，但有一个说你不行，你还是拿不到offer。保持一整天的清晰思路挺不容易，所以要做好准备。关于准备，business case方面网上挺多资料，视频和文字都有，多看几个，尤其C1家是做银行信用卡，这方便的知识术语应该提前了解一下，比如信用卡业务如何盈利，成本和收入都有哪些方面，business sense也是平时的积累。behavioral 也要准备几个case/story，网上有几个大类问题的例子（合作，冲突，挑战，失败，领导力等），可以参照着找自己类似的经历。剩下就是tech技术，coding，数据分析建模，统计，机器学习，这几方面的基本功，不一定考的很深，但知识的全面覆盖和应对是有一定难度。

基本也就这些，整体感觉DS找工作还是挺不容易，竞争激烈考察点宽泛，祝愿DS求职者可以拿到心仪公司的offer。C1家整体感觉挺不错，技术环境都不错，有近期面试的祝愿可以拿到offer。

2018(7-9月) 分析|数据科学类 硕士全职@Capital One - 网上海投 - 技术电面 | Pass | 在职跳槽

找工作的时候海投了所有一二线科技公司，还有几家金融企业，其中包括capital one，因为之前看他们宣传自己是金融行业中的科技公司。
Capital One的data scientist 面试流程特别繁琐，一共5轮：

   1. HR screening，水过简历，问一下想去哪个组，对什么方面感兴趣
   2. Coding test，Hackerrank上，easy难度
   3. 一小时phone interview
   4. NYC taxi data challenge
   5. Onsite再去NYC office浪费一天

现在job market这么tight，每个人的选择都很多，真不知道这公司的HR怎么想的，弄这么多轮。

现在开始进入正题，面试是聊一个credit card churn model，地里有人分享过，我就补充下细节：

   1. Feature engineering，比如从start date算出tenure 等等
   2. Missing value
   3. 用什么模型，为什么
   4. 现在数据量加大，怎么办？spark。如果你要选，用RSpark还是PySpark？为什么
   5. 现在模型output出来，一个credit limit 使用率0%的用户和使用率95%的用户都很危险，都很可能马上就关掉信用卡，你会怎么处理？我回答churn model是起点，一般marketing department会根据churn model的结果设计retention program。对于这两类危险用户，需要设计不同的incentive plan。
         1）使用率0%的用户，基本上很难挽回。
         2）使用率95%的用户大概率可以挽回，降低利率，增加cashback等等。。。
         3）可以根据测试结果再搞个uplift model，看哪些high churn users可以挽回的，着重施加treatment。

面完第二天通知第四步，data challenge。虽然这个NYC taxi问题网上有答案，可是自己还是要花蛮多时间来改的。我问recruiter能不能跳过data challenge直接onsite，她说想都别想。那就只有算了吧，total comp还是比科技公司差了一截。。。没时间搞这个了

2016(4-6月) 分析|数据科学类 硕士全职@Capital One - 内推 - Onsite | Fail | fresh grad应届毕业生

上周五Onsite结束，刚面完的时候自我感觉还行，飞回来想想好像说错或者说得不好的地方还不少，现在心情非常郁结，所以这篇面经将会散发着严肃忧伤的气息。

Capital One Data Scientist职位，这个职位大体上有两个方向，一个是偏统计，一个偏developer。偏统计的基本就是以前的Statistician改了名字，所以面试内容差不多。

目前这个职位的面试流程还在调整中，所以可能环节上与我说的会有不同。我在onsite之前一共有4轮，HR面，Technical Phone，Hackerank Test，Coding Challenge。Onsite当天5轮，两轮case，一轮Role play，一轮behavior，一轮Technical interview。

所以我基本上把目前这个职位面试所有的项目都过了一边，据我所知有的人只有HR和Coding challenge就Onsite了，有的时候Onsite只有一个Case。我在这个面试上花了两个月的时间。唉，说多了都是泪。

HR面很简单，因为我的HR放过我一次鸽子，所以基本没有为难我，就问了该问的信息就安排下一轮了。

Technical Phone Interview是一个关于Credit Card Fraud的case，从Feature Engineering到Model Building都问了，一个case45分钟，所以包括很多细节。这个上午面的晚上就给答复了。

Hackerank Test，Leetcode Easy水平，只记得一个String Manipulate了。不难，跑过Cases即可。

Coding Challenge：一个prediction problem，一个baby name的分析。也不难，我做的好认真啊，花了一个周末的时间，交完了之后正常2-3business days有回复，但我没有收到回复，过好几天发邮件问HR，HR通知我过了。

然后就是Onsite，Case study中有一个是Life Insurance的那个，首先什么样的人会买保险。。。【危险职位的人】，但这样的人我们不想卖给他保险，我们的target应该是什么样的人，我说应该是有familiy的人，同时又不太富裕，所以想给家人留财产。然后接下来就是大概就是死亡率多少时break even，如果你答的很快的话，就会不断深入，比如怎么提高profit啊之类的，我基本说了最直观的方法是提高premium，但是这样可能导致客户数目减少，所以我们要找到balance的点，然后他就问在实际应用中怎么找这个balance点，我说可以发送调查问卷，看有多少客户接受新的premium，然后根据这个比例判断。

第二个是Role play，还是飞机晚点问题，但午饭的时候我问那个人他说可能马上就换了。这个问题我因为见过，所以以为自己应该挺顺利的，但是当我说到有multicollinerity的variable应该从model里移除时，那个面试官一直在追问我为什么，然后我说correlation会导致variance增加，p-value不显著等等，bias estimate【难道不会影响estimate么？】，而且这些variables are telling same story。但是感觉面试官对这个回答并不满意，一直在追问，但是我学过的都是vif>5就移除啊。。。不是这样么？难道我要用PCA？但这个模型显然并不需要用PCA消除correlation这么麻烦啊。。。有什么别的方法么？求教。

第三个又是Case Study，这个比较简单，关于ATM机的，也是break even，然后画了曲线。不过我第一次听错数字了。。。。真是对自己无语。

第四个Behavior问题是tell me a time系列，两个面试官是中国人，在面完前三轮之后看到中国人有一种松了一口气的感觉，他们人也很nice，其实所有面试官都很nice，所以我感觉更难过了。。。呜呜呜。。。

午饭后和director面最后一轮technical，他上来就说这是今天最简单的面试了，他说你可以把笔放下，我们聊聊天就好了，我天真的信了。然后他就说我们聊聊你的project吧，我就把实习的project说了，他问了model，我说我做的是Random Forest部分，他说那你对Random Forest了解多少。。。。然后。。。然后我就装逼了啊！！！我说我以前build model from scratch过，然后他就感兴趣了，他说那你说一下大概的流程，我就又把笔拿起来了啊！！！然后我就说错了，第一步应该是bagging我说成subsampling了。。。director同学很想纠正我这块来着，但是我完全没意识到啊！我就继续说下一步怎么建decision tree了，吧啦吧啦讲大概怎么算information gain，怎么分叉，怎么得出最后的结果，这时候director又尝试拯救我一下，问我这些decision tree会用怎样的不同，但我还是没有意识到。。。然后他决定再给我一次机会，问我还scratch啥model来着，我就说adaboost，这个说对了，然后就轮到我问他问题了。

我觉得如果我挂了，一定是因为我最后装了一个逼。

猜你喜欢