本文主要是博文《What Great Data Analysts Do — and Why Every Organization Needs Them》的思想总结
数据科学主要包括三个角色:机器学习工程师、统计学家、数据分析师;并建议与其三个领域都是泛泛之辈,不如在一个领域精通。
统计学家:专攻数据样本处理,保证数据的有效性,需要的特征是严谨,细心,以防止数据出错,同时不能为了得出结论而欺骗自己。需要对数据集进行训练集、校验集与测试集的划分。其作用是用数据来校验模型的准确性。
机器学习工程师:通过建立模型,参数调优,检验模型的步骤进行迭代计算,在尝试与错误之间持续试错,找到一个最优的解决方法来通过统计学家的测试。最大的物质是对每一种算法的性能有直觉判断。
数据分析师:统计学家跟机器学习工程师都是一个narrow and deep的工作,需要耗费很大的人力也物力。数据分析师是讲故事的人,需要去挖掘数据中潜在的价值来寻找灵感,挖掘数据中的潜能,所以需要进行快速的试验,同时把结果可视化,有助于让决策者找到有价值的方向。