机器学习笔记 - 翻译:如何成为一名数据科学家

1、概述 

        几周前,我编写并发布了我的第二个 Kaggle 内核。 我对他们的“机器学习和数据科学现状”调查很感兴趣,并认为我能够提取一些有趣的见解。 考虑到大多数编写内核的人可能已经是成熟的数据科学家,我认为大多数编写内核的人会对如何开始以外的事情感兴趣。

        令我惊讶的是,我赢得了他们每周一次的内核奖,而我的内核最终得到的关注比我在编写它时所想象的要多得多。

         无论如何,我写这篇文章是为了分享我通过编写内核所学到的东西。 让我们开始吧。

2、编程语言

        据我所知,有两种语言在数据科学社区中使用最多,它们是 Python 和 R。我个人更喜欢 R,但我很想知道这在现实世界中是如何发挥作用的。

         在这里,我根据他们的职位比较了选择 Python 或 R 作为工作中主要编程语言的受访者的数量。 事实证明,除了统计学家和运筹学之外,Python 几乎在所有角色中都胜出。 然而,在这两个角色中,尤其是对于运筹学而言,样本量如此之低,以至于这些结果可能不是很显着。

3、专业和可能的职位

        我还在上高中,所以当然我还没有申报专业。 我很想知道哪些专业倾向于担任哪些角色,所以我创建了一个比较大学专业和职位的图表。

        当然,计算机科学专业的学生成为计算机科学家、程序员和软件工程师。 数学专业的学生倾向于预测建模、数据科学和统计学,而物理专业的学生倾向于研究。

        我个人喜欢这张图表的地方,并且我仔细检查了这一点,以确保每个职位都至少有一个来自任何专业的人。 对我来说,这表明只要有激情,你在学校学习的东西不应该限制你做你想做的事。

 4、学习资源

        永远不会缺少的一件事是学习数据科学的在线资源。 有时这些资源的绝对数量可能会让人不知所措,所以我很好奇调查的受访者认为哪些资源最有用。

         事实证明,人们发现创建项目、参加课程和参与 Kaggle 挑战是了解数据科学的最有用的方式。 这确实反映了我认为是真的。 我喜欢从事业余项目,并且亲眼目睹了它们如何帮助我成长为一名工程师。

5、重要的工作技能

        调查中的另一个问题询问受访者,他们认为哪些技能对工作最有用。 我用这个问题的数据重新创建了上一个问题的图表,看看这些技能是如何相互叠加的。

        Python 和统计知识被认为是最有用的工作技能。 R 在这里稍微落后于 Python,这反映了我们在第一张图中看到的情况。 让我感到有趣的一件事是 MOOC(大规模开放在线课程)在有用性方面得分最低,而在最后一张图中,课程被认为是学习数据科学最有用的资源之一。 也许受访者认为在求职时不应该使用 MOOC 作为认证? 我不能肯定地说,但这是我最好的猜测。

6、现实世界中的工具

        受访者还被问及他们认为哪些技术在工作中最有用。 我创建了一个表格,对所有受访者进行了分析,并再次针对特定角色进行了分析。

        与我们迄今为止所看到的相呼应的是,Python 被评为整个行业中排名第一的技术,并且在这里展示的每个角色中都排名第一。 R 紧随其后,在行业中排名第三,SQL、Jupyter、Unix 和 TensorFlow 出现在每个角色中。 这向我表明,这些可能是在不久的将来掌握的最重要的技术。

7、现实世界中的方法

        与上一个问题类似,受访者被问及他们在工作中最常使用的数据科学方法。

        在这里,我们可以看到每个角色都在使用数据可视化、交叉验证、逻辑回归和决策树。 自然语言处理和神经网络被机器学习工程师更频繁地使用是可以理解的,而其他角色则有其他特定于他们的方法。

8、结论

        我喜欢使用如此庞大的数据集,最终非常适用于我将来可能做的事情。 如果你是一名数据科学家新手,并且正在寻找开始的地方,我的图表强烈支持以下几个建议:

        1、学习 Python。 Python 和 R 都已经存在了几十年,但正如我们在第一张图中看到的那样,Python 基本上在场景中胜出。我们也可以在第四和第五个显示中看到这一点。老实说,我相信你会很难找到一家根本不使用 Python 的公司,所以你应该很高兴。

        2、主修计算机科学和/或数学。正如我在创建第二张图表后提到的那样,每个专业在每个位置都有一些存在。但是,从条形图上可见的比例来看,CS专业和数学专业几乎在每个角色中都是最丰富的。尽管这不是必需的,但这些专业中的任何一个或两个都可能会给您带来一点优势。

        3、制作项目、参加课程并参与 Kaggle 挑战。正如我们在第三张图中看到的那样,在学习数据科学的有用方法方面,有几个明显的赢家,这三个赢了很多。我个人同意所有这些,并且将来肯定会继续这样做。

        4、了解最广泛使用的工具。似乎有无数种工具可供我们使用,但这项调查让我们看到了那些被认为是最重要的工具。此处列出的工具太多,因此如果您对从哪里开始感到好奇,请务必进一步分析上面的表格。

        我希望这可以帮助你弄清楚你可以从哪里开始!如果您有兴趣了解我是如何使用调查数据集创建这些图表的,您可以在此处查看我的内核。如果您对我有任何问题,我将非常乐意回答。祝你好运!

How to Become a Data Scientist | KaggleExplore and run machine learning code with Kaggle Notebooks | Using data from 2017 Kaggle Machine Learning & Data Science Surveyhttps://www.kaggle.com/code/jackcook/how-to-become-a-data-scientist/notebook

猜你喜欢

转载自blog.csdn.net/bashendixie5/article/details/127043252