KDNuggets 博客中文翻译（八十一）

原文：KDNuggets

协议：CC BY-NC-SA 4.0

数据科学书籍完整合集 - 第一部分

原文：www.kdnuggets.com/2022/05/complete-collection-data-science-books-part-1.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

编辑备注：有关此两部分系列中包含的所有数据科学书籍的完整范围，请参见 数据科学书籍完整合集 - 第二部分。

我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升您的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持您的组织的 IT

现代时代的书籍已经发生了彻底的变化。您可以在智能手机、桌面和平板电脑上阅读书籍，而不是纸上的文字。有些书籍是基于网站的，您可以在阅读时浏览章节、搜索术语，甚至播放视频教程。这些文档风格的书籍增强了阅读体验，使测试编码示例变得非常有趣。

在这个两部分系列中，我将分享所有数据科学子领域中的最佳书籍。您可以购买纸质书或简单地获取在线版本或下载 PDF/EPub/Kindle。有些书籍是基于网站的，可以免费访问。

在第一部分中，我们将回顾以下书籍：

编程
统计学
数据分析
商业智能
数据工程
网络抓取
数据应用
数据管理
大数据
云架构

编程

如果您是初学者，学习编程应该是您列表上的首位。在开始时，您会在 Python、R 和 Julia 之间进行选择，但我强烈建议您从 Python 开始。之后，学习 SQL 和 Scala 以推进您的职业生涯。

Python

R

Julia

SQL

Scala

统计学

统计学是现代数据科学和机器学习发展的基础。没有它，你无法理解算法或进行研究。与其学习所有内容，不如先学习基础知识，然后在实践中不断学习。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源：Karolina Grabowska

数据分析

这些书中提到的一些工具使数据分析变得轻而易举。这不仅仅是编写代码生成数据可视化，而是通过图表和视觉表示来理解数据。

商业智能

商业智能工具是现代商业中最重要的部分。你将学习如何创建报告、跟踪绩效、开发仪表板、抓取数据和管理数据源。

数据工程

构建数据管道、规划数据管理策略、处理数据并为各种团队成员提供安全访问。数据工程师还致力于可扩展和灵活的存储系统。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现代基础设施 | 图片来源：作者

网页抓取

网页抓取已经成为数据科学家和分析师工作的核心部分。即使在技术面试或测试中，你也必须展示一些使用 BeautifulSoup 和 Selenium 解析 HTML 数据的技能。它还使你能够创建完全自动化的系统。

数据应用

在创建机器学习模型或进行深入的数据分析后，是时候创建一个网络应用程序，以便可以与其他团队成员共享你的项目。你可以使用 FastAPI、Flask、Streamlit 和 Django 来创建 API 或网络应用程序。

数据管理

你的数据团队正在扩展，你正在随着时间的推移收集更多数据。是时候开始使用分布式数据库、数据仓库、数据湖和工具来管理你的数据了。这些工具将帮助你扩展当前的数据系统。

大数据

我们的传统数据库系统并不适合收集每日的 PB 级数据。这些书籍将帮助你学习可扩展的、易于理解的大数据系统方法，这些方法可以由一个小团队构建和运行。你还将了解 Hadoop、Storm 和 NoSQL 数据库等技术。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

成熟的四个阶段 | 图片来自企业大数据湖

云架构

尽管了解云架构并不是数据科学家的核心技能，但它在数据社区中越来越受欢迎。基于 AI 的公司希望机器学习、MLOps 和数据工程师了解 Kubernetes、Docker、API 集成、分布式计算、计算监控和混合云解决方案。

结语

数据科学书籍通过代码示例教你所有技术概念。你不仅仅是在阅读研究书籍，你在提升自己的技能。大多数书籍会鼓励你进行长时间的编码，以便通过调试问题更好地理解概念。

如果你和我一样，是数据科学爱好者，就会想不断学习。因此，在接下来的部分，我们将学习关于机器学习、深度学习、计算机视觉、自然语言处理（NLP）、MLOps、机器人技术、物联网（IoT）、AI 产品管理、高管数据科学以及数据科学超级书籍的最佳书单。

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士，热爱构建机器学习模型。目前，他专注于内容创作，并撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为有心理问题的学生构建一个 AI 产品。

数据科学书籍完整合集 – 第二部分

原文：www.kdnuggets.com/2022/05/complete-collection-data-science-books-part-2.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源于作者

编辑注：关于这一两部分系列中的数据科学书籍的完整范围，请参见数据科学书籍完整合集 – 第一部分。

我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业轨道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织在 IT 方面

数据科学书籍在我的数据科学之旅中发挥了重要作用。Deep Learning for Coders with Fastai and PyTorch 让我从新的角度思考深度神经网络及我们如何处理几乎所有的机器学习问题。我爱上了 NLP 书籍及其附带的 GitHub 代码库、Jupyter 笔记本练习和易于探索的选项。Data Science at the Command Line 是一本现在可以在线访问（文档风格）的书籍，支持术语搜索、导航，并可以直接复制代码进行测试。它提供了免费的互动阅读体验。

在这两部分系列中，我将分享数据科学各子领域的最佳书籍。你可以购买纸质书籍，或仅仅获取在线版本，或下载 PDF/EPub/Kindle 版本。有些书籍基于网站，可以免费访问。

在第二部分中，我们将回顾以下书籍：

机器学习
深度学习
计算机视觉
自然语言处理
MLOps
机器人技术
物联网
AI 产品管理
数据科学高管版
数据科学超级书籍

机器学习

这是数据科学领域中最受欢迎的术语。大多数数据专业人士都需要执行某种机器学习任务，即使是开发一个简单的线性回归模型。这些书籍将教你最流行框架中的基础和高级概念，并附有代码示例。

深度学习

在简单的机器学习之后，我们将深入了解深度神经网络。这是机器学习的一个子领域，并且正在迅速改变世界。从计算机视觉到智能聊天机器人，你每天都在与它们互动。这些书籍将教你如何创建你的第一个深度学习模型，并介绍深度学习技术的子领域。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

详细训练循环 | 深度学习实践：使用 Fastai 和 PyTorch

计算机视觉

计算机视觉需求量很大，借助深度学习，这个领域正在主导全球。你可以在仓库管理、机器人、自驾车、面部识别、生成艺术，甚至现代武器中找到它。

自然语言处理

学习如何创建机器翻译、自动语音识别、摘要生成器、文本和音频分类，以及对话机器人。自然语言处理是数据科学中的全新领域。你正在与音频、视觉和文本数据互动，以理解上下文和词汇。随着变换器的引入，这个领域在研究和开发上得到了真正的提升。我们现在正在训练具有 1760 亿个参数的模型 - bigscience。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

变换器时间线 | 使用变换器的自然语言处理

MLOps

你将学习创建机器学习流水线，将应用部署到云端，维护多个数据库，并学习自动化所有流程。机器学习运维由开发运维驱动，工程师自动化流程、监控指标和管理多个系统。如果你想变得面向未来，投资时间和金钱学习 MLOps 是值得的。

机器人技术

虽然它不是数据科学的核心部分，但它已经是人工智能的一部分很长时间了。你可以学习如何在 Raspberry Pi 上使用 Python 训练和开发你的机器学习模型，或创建边缘应用。机器人技术是未来，如果你想保持相关性，我强烈建议你至少学习基础知识。

物联网

物联网无处不在。这些包括智能手机、智能手表、墙上的传感器，甚至是你的数字冰箱。我们被这些传感器包围，它们每小时都会收集和生成大量的数据。你将学习如何使用 Rust 构建服务器端应用，并将其与 Raspberry Pi 和云系统集成。你还将了解智能城市、物联网安全以及微控制器上的 TensorFlow Lite。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源于实用物联网黑客

AI 产品管理

你不能让任何一个 MBA 毕业生来管理数据团队。这个业务人员需要了解这些系统是如何工作的以及如何管理数据。AI 产品经理涉及数据的采购和处理，制定数据标注策略，理解业务问题和解决方案。要成为一个成功的 AI 经理，你需要同时具备商业理解和技术专长。

《高管数据科学》

针对那些负责根据投资回报率和增长潜力做决策的高级管理人员的非技术书籍。你将了解其他公司如何在管理数据项目方面取得进展，以及如何利用机器学习推动业务发展。

数据科学超级书籍

这些书籍涵盖了数据科学的各个方面，从统计学到高级机器学习算法。你将复习数据科学面试，了解如何管理数据，并学习所有入门基础知识。

一本书统治所有。

结束语

数据科学不仅仅是统计和编码。我们需要理解业务问题并提出最佳解决方案。并非所有问题都可以通过机器学习解决。我们还需要理解 MLOps 和其他集成系统如何对数据应用的成功至关重要。

在上一部分中，我们回顾了有关编程语言、统计学、数据工程、网页抓取、数据分析、商业智能、数据应用、数据管理、大数据和云架构的书籍。

“我强烈建议你将这两个页面添加到书签，这样你就不需要在网上搜索书籍，而是可以直接访问数据科学特定领域的最佳书籍。”

Abid Ali Awan (@1abidaliawan) 是一名认证的数据科学专业人士，热衷于构建机器学习模型。目前，他专注于内容创作，并撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为面临心理健康问题的学生开发 AI 产品。

数据科学备忘单的完整集合 - 第一部分

原文：www.kdnuggets.com/2022/02/complete-collection-data-science-cheat-sheets-part-1.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源：作者

编辑注释：有关此两部分系列中包含的备忘单的完整范围，请参阅数据科学备忘单的完整集合 - 第二部分。

我们的三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业道路。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析水平

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT

备忘单可以帮助我们复习统计学概念、编程语言语法、数据分析工具和机器学习框架。它也可以帮助你在技术面试和评估测试中表现出色。Jupyter Notebook是每个人都应该学习的必备备忘单。它包含了运行 Python 笔记本的快捷方式、技巧和函数。

我使用备忘单来准备技术面试，因为技术招聘人员希望评估主题领域的专业知识。寻找适合你的备忘单可能需要几个小时，因为大多数备忘单都不容易理解。这些博客分为两部分，包括易于跟随和总结的备忘单，以复习所有的数据科学概念。

两部分系列进一步分为子类别；SQL、网页抓取、统计学、数据分析、商业智能、大数据、数据结构与算法、机器学习、深度学习、自然语言处理、数据工程、网络框架和 VIP 备忘单。

第一篇博客包含六个子类别：

SQL
网页抓取
统计学、概率与数学
数据分析
商业智能
大数据

SQL

大多数技术面试和评估测试都包括某种类型的 SQL 问题，因此，最好使用 SQL 备忘单集合来准备面试。这些备忘单还将帮助你在创建和管理数据库方面做得更好。它还将帮助你理解复杂的 SQL 查询。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源：freepik

网络抓取

网络抓取是数据科学的重要组成部分，它用于数据收集、市场研究和维护数据管道。Beautiful Soup 是一个流行的库，用于解析 HTML/Java 脚本并将其转换为人类可读的数据框。本节包含用于解析 Python 和 R 脚本的工具。

统计学、概率论与数学

人工智能、数据分析和现代研究依赖于统计学。统计学是现代社会的支柱，因此如果你想复习旧的概念或学习新的复杂思想，请查看一系列统计学作弊手册。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由 stories 提供

数据分析

数据分析用于制定业务决策、市场营销活动、科学研究和设计独特的数据产品。整个 IT 行业都依赖于它。此类别进一步分为三个子类别：Python、R 和 Julia。所有这些语言在数据科学家和数据分析师中都很受欢迎。

Python

该列表包含了用于数据摄取、处理和可视化的最常用 Python 包。Numpy 和 Pandas 是数据社区中进行科学计算和数据增强的最受欢迎工具。

R

R 在统计学家和数据分析专业人士中非常受欢迎。建议学习著名包如 Tidyverse 的语法和函数。Tidyverse 提供了一个完整的数据科学解决方案，从数据导入到创建视觉上引人入胜的数据报告。

Julia

Julia 是一种新兴的语言，我认为这是数据科学的未来。此列表包含 Julia 语法、数据整理和数据可视化的快速介绍。

商业智能

无代码应用程序在商业智能中正成为行业标准。这些应用程序可以帮助你创建数据分析报告、仪表板和沉浸式可视化。这些工具正在帮助企业做出数据驱动的决策。最受欢迎的工具包括 MS Excel、Power BI 和 Tableau。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源 rawpixel.com

大数据

到 2025 年，预计全球每天将创造 463 亿 GB 的数据 - (weforum.org)。因此，主要的数据公司正在寻找数据工程师和数据科学家来处理大数据解决方案。这些备忘单可以为你介绍基本的大数据工具。

结论

在这篇博客中，我们涵盖了所有能够帮助你为数据分析、商业智能和数据科学面试做准备的备忘单。博客中包括了 SQL、网页抓取、统计学、数据分析、商业智能和大数据备忘单的合集。这些备忘单帮助我准备了求职面试，我希望它们也能对你有所帮助。明智的做法是将此页面收藏，以便每当你有技术面试时，可以立即开始准备，而不是在网上搜索备忘单。

在第二部分，我们将涵盖更多高级类别，如数据结构与算法、机器学习、深度学习、自然语言处理、数据工程、网络框架。

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士，他喜欢构建机器学习模型。目前，他专注于内容创作，并撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为那些挣扎于心理健康问题的学生开发 AI 产品。

数据科学备忘单完整合集 – 第二部分

原文：www.kdnuggets.com/2022/02/complete-collection-data-science-cheat-sheets-part-2.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图像

编辑注：有关本系列两个部分的完整备忘单范围，请参见 数据科学备忘单完整合集 - 第一部分。

我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业道路。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求

寻找适合你的备忘单可能需要一些时间，因为大多数备忘单并不容易理解。该博客包含易于跟随和总结的备忘单，以复习数据科学的高级概念。

该博客系列分为两部分，包含易于跟随和总结的备忘单，以复习所有的数据科学概念。这两部分系列进一步分为子类别 SQL、网页抓取、统计学、数据分析、商业智能、大数据、数据结构与算法、机器学习、深度学习、自然语言处理、数据工程、网络框架，以及一体化 VIP 备忘单。

第二篇博客包含七个子类别：

数据结构与算法
机器学习
深度学习
自然语言处理
数据工程
网络框架
VIP 备忘单

数据结构与算法

最常见的技术面试问题涉及数据结构和算法。如果你是软件工程师或数据科学家，你必须了解常见的数据结构操作、搜索和排序算法以及数据结构类型。这个列表旨在帮助你理解复杂的排序函数和算法。

机器学习

这是数据社区中最受欢迎的备忘单。每当我进行机器学习或深度学习的面试时，我会花几个小时复习所有机器学习和模型架构的关键概念。有时，招聘经理可能没有技术知识，因此他们也会使用备忘单进行准备。这个集合包括机器学习框架、算法和神经网络架构的备忘单。

深度学习

现代机器学习应用运行在深度神经网络上，每个与数据相关的工作都期望你具备一定的深度学习或先进人工智能技术的知识。深度学习模型推动了现代技术的发展，例如计算机视觉、自动语音识别、自然语言处理、医学研究和自动驾驶汽车。以下列表包含有关深度学习框架（Pytorch/Keras/Tensorflow）、模型架构、图神经网络和数据处理技术的信息。

自然语言处理

自然语言处理（NLP）用于处理和清理文本、音频和图像数据，以便我们提取有用的信息。NLP 应用广泛，包括语言翻译、转录、对话 AI、问答、生成技术、分类、命名实体识别等。该备忘单集合包含了关于最著名的 NLP 工具和算法的简明信息。

数据工程

数据工程师的职位要求包括精通 SQL、提取-转换-加载（ETL）操作、创建和管理数据库、自动化数据管道以及处理大数据。数据工程师职位需求旺盛，公司希望招聘最优秀的工程师来创建和管理完全自动化的数据管道。下面的列表包含了有关最受欢迎的数据工程工具（如 Apache Airflow 和 Kafka）的备忘单。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源于 vectorjuice

网页框架

尽管这是可选的，但我曾经被招聘经理问到过我在端到端机器学习应用方面的经验。他们会询问你关于 Django、Flask 和 FastAPI 的经验，或者将模型部署到生产环境的经验。在技术面试前了解网页框架是一个好习惯。列表中包含 R-shiny、Plumber、Golem、Streamlit、FastAPI、Flask 和 Django 等网页框架。

VIP 备忘单

VIP 备忘单是数据科学的宝贵资源，其中包含关于数据科学及其核心主题的大量信息。这些备忘单包括有关数据类型、算法、自然语言处理、机器学习、数据分析和数据处理的基本信息。如果你正在准备一次普通的数据面试，我建议你下载任何 VIP 备忘单，并复习所有核心的数据科学和机器学习主题。

结论

如果你正在准备面试或演讲，使用这些备忘单来复习数据科学的核心概念。我们涵盖了数据结构与算法、机器学习、深度学习、自然语言处理、数据工程和网页框架。如果你想在下一次面试中表现出色，请收藏这个网页，以便随时回来准备技术面试。

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士，喜欢构建机器学习模型。目前，他专注于内容创作，并撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为面临心理健康问题的学生构建 AI 产品。

数据科学免费课程完整合集 – 第一部分

原文：www.kdnuggets.com/2023/03/complete-collection-data-science-free-courses-part-1.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源：作者

编辑注： 要了解此两部分系列中包含的数据科学课程的完整范围，请参见 数据科学免费课程完整合集 - 第二部分。

我们的三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速入门网络安全职业

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织 IT 需求

注意： 博客中提到的 Coursera 课程可以免费审计，这意味着你可以免费访问所有课程内容。

编程

编程是数据科学旅程中的重要部分。如果你会用 R、Python 或 Julia 编程，那么将算法转化为函数将会非常容易。此外，你将学到更好的技术来创建程序或数据报告。

我强烈推荐你先从 Python 开始，学习基础语法和高级功能。之后，你可以转向 R 以进行更好的统计分析，或转向 Julia 以获得更好的性能。

Python

R

Julia

网页抓取

网页抓取是数据和商业分析师工作的一个重要部分。它是一个家庭作业的一部分，招聘经理将要求从网站抓取数据并创建一个完全自动化的仪表板。

以下课程将教你如何使用 Beautiful Soup 抓取和清理 HTML 数据，并帮助你使用 Selenium 创建完全自动化的网页抓取机器人。

使用 Python 进行网页抓取 - Beautiful Soup 快速入门课程 | freeCodeCamp
使用 Python 进行网页抓取课程 | mygreatlearning
初学者的 Selenium 课程 - 网页抓取机器人、浏览器自动化、测试 | freeCodeCamp

统计学和概率

在编程之后，最重要的事情是统计学和概率的知识。你需要了解这些 AI / 机器学习模型是基于概率和统计算法的。要正确使用它们，你需要了解它们的工作原理以及如何为你的独特情况进行优化。

这些课程将教你统计学和概率的基础知识，并介绍统计分析、Z 分数和概率。

数据分析

数据科学家的核心工作是分析数据，这个过程分为多个部分。你从数据获取、数据清洗、数据处理、数据可视化、数据建模和报告开始。

这些课程将教你 SQL、数据处理和可视化、机器学习、统计技术和理解数据。

SQL

每个数据科学家和分析师都必须知道如何运行 SQL 查询以及如何使用 SQL 进行简单的分析任务。为什么？大多数公司不使用 CSV 或 Excel 文件，他们有 SQL 数据库，SQL 查询可以让你快速轻松地从关系数据库中检索和操作数据。

以下课程将教你基本语法、SQL 连接、SQL 聚合、子查询和临时表、SQL 数据清洗和窗口函数。

SQL 数据分析 | Udacity
学习数据科学的 SQL 基础 | 加州大学戴维斯分校
MySQL 数据库 - 完整课程 | freeCodeCamp

商业智能

商业智能对于理解商业和客户行为、如何改善你的产品和服务以及保持领先于竞争对手非常重要。

你将学习 Power BI 和 Tableau，这些是最流行的商业智能软件，用于收集、分析和呈现商业数据，以帮助人们做出更好的决策。

Power BI 完整课程 | Edureka
数据科学的 Tableau | Simplilearn
业务智能的数据仓库 | 科罗拉多大学

结论

与昂贵的训练营和认证相比，免费课程可以帮助你节省金钱和时间。大多数课程是短期的，帮助你学习基础知识，如果你想学更多，可以选择认证课程。因此，与其参加训练营后发现自己不适合，不如先免费学习基础知识。

在第一部分，我们已经查看了编程、网页抓取、统计与概率、数据分析、SQL 和商业智能方面的顶级免费课程。

希望你喜欢我的列表，如果你有免费的课程建议，请在评论区写下。谢谢。

在下一部分，我们将涵盖：

机器学习
深度学习
计算机视觉
自然语言处理
数据工程
MLOps

这是该系列的第六版，请查看：

数据科学备忘单完整合集 – 第一部分和第二部分
数据仓库完整合集 – 第一部分和第二部分
数据科学书籍完整合集 – 第一部分和第二部分
数据科学面试完整合集 – 第一部分和第二部分

数据科学项目完整合集 – 第一部分和第二部分

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士，热衷于构建机器学习模型。目前，他专注于内容创作，并撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为面临心理问题的学生开发一款人工智能产品。

数据科学免费课程完整合集 – 第二部分

原文：www.kdnuggets.com/2023/03/complete-collection-data-science-free-courses-part-2.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

编辑注： 有关本系列两部分中包含的数据科学课程的完整范围，请参见 数据科学免费课程完整合集 - 第一部分。

我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织在 IT 领域

注意： 博客中提到的 Coursera 课程可以免费旁听，这意味着你可以访问所有课程内容，并在无需任何费用的情况下阅读和查看它。

机器学习

机器学习是现代技术的基石。几乎每一家大公司都在尝试利用它来最大化数据的价值。

通过这些免费课程，你将学习分类、回归、聚类和强化学习。此外，你还将了解特征工程、高级算法和优化技术。

深度学习

深度学习推动了现代人工智能技术，如 ChatGPT。它们使用深度神经网络来处理数据并做出预测。

通过这些课程，你将学习高级机器学习算法、预处理技术、特征工程和神经网络架构。

你还将学习各种用于计算机视觉、自然语言处理、预测、自动语音识别、生成艺术和强化学习的算法。

计算机视觉

DALLE.2 和 Stable Diffusion 2.0 是生成算法，它们结合了计算机视觉和自然语言处理技术，生成高质量的生成艺术。计算机视觉通常用于图像分类、生成、分割和物体检测。

你可以通过学习 OpeCV、Keras 和深度算法开始你的计算机视觉工程师之旅。

自然语言处理（NLP）

我知道我们都对大型语言模型 ChatGPT 和 Bard AI 感到兴奋，为了开始成为 AI 工程师的旅程，你需要首先掌握基本的自然语言处理工具和技术。

你将学习有关 spaCy、分类、向量空间、概率模型、序列模型和注意力模型的内容。

使用 spaCy 和 Python 的自然语言处理 | freeCodeCamp
deeplearning.ai 的自然语言处理 | deeplearning.ai
使用深度学习的 NLP | 斯坦福大学

数据工程

我最喜欢的学科，也是每项技术的支柱是数据工程。如果没有它，我们将通过像 Excel 表格和 CSV 文件这样的无效方式共享数据。

通过这些课程，你将学习现代数据工具，用于收集、转换、加载、处理、查询和管理数据，以便数据消费者能够用于操作和决策。此外，你还将学习工作流编排、数据仓库、分析工程、批处理和流处理。

MLOps

机器学习操作（MLOps）是一组用于自动化、管理和监控机器学习生命周期的实践。MLOps 由 DevOps 的软件工程最佳实践驱动。

通过参加这些课程，你将学习简化开发、实验跟踪、测试、部署和维护机器学习模型的过程。此外，你还将自动化测试、数据和模型版本控制以及模型监控。

结论

第二部分中的一些课程确实是瑰宝。如果问我，它们比付费课程还要好。这些课程旨在让你为现代世界做好准备。你将学习最新的算法、技术、软件和技术。

我强烈推荐你参加 DataTalksClub 和 fast.ai 课程，开始你的机器学习和数据工程职业生涯。

在第二部分中，我们查看了关于机器学习、深度学习、计算机视觉、自然语言处理、数据工程和 MLOps 的顶级免费课程。

希望你喜欢我的列表，如果你有免费课程建议，请在评论区写下。谢谢。

在前一部分中，我们已经涵盖了：

编程
网络抓取
统计与概率
数据分析
SQL
商业智能
时间序列

这是该系列的第 6 版，查看：

数据科学备忘单完整合集 – 第一部分和第二部分
数据库完整合集 – 第一部分和第二部分
数据科学书籍完整合集 – 第一部分和第二部分
数据科学面试完整合集 – 第一部分和第二部分

数据科学项目完整合集 – 第一部分和第二部分

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士，喜欢构建机器学习模型。目前，他专注于内容创作和撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为挣扎于心理疾病的学生构建一个 AI 产品。

数据科学面试完整系列 – 第一部分

原文：www.kdnuggets.com/2022/06/complete-collection-data-science-interviews-part-1.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源 | Canva Pro

编者按： 要查看本系列两部分中包含的所有资源，请参见 数据科学面试完整系列 – 第二部分。

我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业轨道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT

你是否遇到过面试官问你一个情境或技术问题时，你感到僵住了？只是因为你没有准备好。这种情况发生在许多人身上，包括我。我在技术面试中有时会感到僵住，招聘经理可能会把这当作我的弱点，在招聘过程的初期阶段拒绝我。

为了克服这个问题，我开始查看样本面试问题。假设面试与机器学习工程师有关，公司正在构建 NLP 解决方案。我会准备基础统计学、Python、深度学习和 NLP 面试问题。

这两部分的数据科学面试问题合集将帮助你为所有与数据相关的工作做准备。面试合集按照主题和数据领域进行分类。

行为面试问题

行为面试基于候选人与技能、能力和知识相关的经验。面试者将解释他过去是如何处理特定情况的。这些问题旨在评估候选人在日常任务中适应、沟通和解决问题的能力。

示例问题： “当你的日程被打断时，你会如何处理？”

21+ 行为面试问题 - novoresume.com
前 10 个行为面试问题及样本答案 - thebalancecareers.com
50 个顶级行为面试问题及候选人提问 - apollotechnical.com

情境面试问题

情境问题类似于行为问题。不同于经验，它关注于未来的假设场景。它用于评估你处理工作场所实际场景的能力。这些问题帮助招聘经理理解你的思维过程和在资源有限的情况下解决问题的能力。

样例问题： “你会如何处理一个你管理的员工，其工作成果不符合期望？”

统计面试问题

数据科学完全基于统计。在面试中，你需要解释某个算法如何工作或如何在相应业务中实施统计解决方案。最好熟悉所有基础术语和问题。

样例问题： “描述统计和推断统计之间的区别是什么？”

2022 年顶级 75 个统计面试问题及答案 - Intellipaat

Python 面试问题

如果你提到 Python 是你进行分析和机器学习任务的主要语言，你必须了解所有最佳编码实践。面试问题涉及特性、数据类型、函数、创建单元测试、编写干净和生产就绪的代码，以及数据科学用例。

样例问题： “什么是 lambda 函数？”

2022 年 50 个顶级 Python 面试问题及答案 - hackr.io
2022 年 15 个最佳 Python 面试问题及答案 - codesubmit.io
顶级 Python 面试问题（2022） - InterviewBit

R 面试问题

R 是一种统计分析语言。面试问题涉及 R 相对于 Python 的优势、内存管理、变量、函数、循环和构建数据解决方案。确保你了解 R 的数据库及其使用案例。

示例问题： “描述 R 如何用于预测分析？”

SQL 面试问题

SQL 是数据专业人员的母语。在深度学习工程师的面试中，我也被问到了 SQL。要训练一个大型模型，你需要学习从多个数据库中获取数据。SQL 也用于数据分析。在面试前，确保你了解语法及其功能。

示例问题： “描述 R 如何用于预测分析？”

数据分析面试问题

对于数据分析问题，你需要为使用现代分析工具解决商业相关问题做好准备。你需要了解数据获取、数据清理、探索和分析，以及结果解释。确保你熟悉统计和分析工具，如 SQL、Python、R、Tableau 和电子表格。

示例问题： “你如何处理数据集中的异常值？”

2022 年排名前 60 的数据分析师面试问题及答案 - simplilearn.com
49 个数据分析面试问题 - Indeed.com
47 个数据分析师面试问题 - springboard.com

商业智能面试问题

商业智能（BI）在监控业务绩效以提供可操作的洞察方面发挥着至关重要的作用。作为 BI 分析师，你必须了解业务流程，监控关键绩效指标，能够使用 SQL 提取和清理数据，并使用 Tableau 或 PowerBI 创建仪表板和分析报告。你必须为案例研究或 BI 情境面试做好准备。

示例问题： “你将如何定义 OLTP（在线事务处理）？”

前 10 个商业智能面试问题及答案 - upGrad 博客
13 个商业智能分析师面试问题及答案 - techtarget.com
TOP 250+ 商业智能面试问题及答案 - Wisdom Jobs India

最后的想法

现在是暑期实习时间，大多数学生都在寻找顶级公司的实习机会。数据科学面试问题的合集将帮助你为各种情况和技术问题做好准备。

如果你在寻找一个信息的单一来源，我建议你阅读 Nick Singh 和 Kevin Huo 的 Ace the Data Science Interview 书籍。

在下一部分，我们将涵盖：

数据管理面试问题
数据工程面试问题
机器学习面试问题
深度学习面试问题
自然语言处理面试问题
MLOps 面试问题
云计算面试问题
人工智能经理面试问题

这是数据科学系列的第 4 版，查看：

数据科学备忘单完整合集 – 第一部分和第二部分
数据库完整合集 – 第一部分和第二部分
数据科学书籍完整合集 – 第一部分和第二部分

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士，热衷于构建机器学习模型。目前，他专注于内容创作和撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为面临心理健康困扰的学生开发 AI 产品。

数据科学面试完整合集 – 第二部分

原文：www.kdnuggets.com/2022/06/complete-collection-data-science-interviews-part-2.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源 | Canva Pro

编辑注：有关此两部分系列中包含的完整存储库范围，请参阅 数据科学面试完整合集 – 第一部分。

我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速入门网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求

第二部分涉及与复杂算法、流程和工具相关的更高级问题。这些面试将为角色特定的工作做好准备。例如，MLOps 工程问题涉及机器学习算法、自动化、管道、实验监控和工业标准。

两部分的数据科学面试问题合集将帮助你为所有数据相关职位做准备。这些问题根据主题和数据领域分类。

数据管理面试问题

对于数据科学家来说，数据管理技能是核心点。你将被问及数据治理、软件分析和设计工具、试金石、SQL、Java 和大数据管理工具。数据经理的工作是制定并执行有效的数据管理政策。

示例问题： “为什么灾难恢复计划对所有使用数据系统的公司至关重要？”

数据经理面试问题 - indeed.com
28 个数据管理面试问题 - mockquestions.com
2022 年 20 个数据管理经理面试问题及答案 – projectpractical.com

数据工程面试问题

数据工程的问题完全围绕你的经验。大公司不会冒险招聘应届毕业生。要通过数据工程师面试，你必须了解流行的数据协调工具、SQL 和 No SQL 数据库、数据仓库、分析工程、批处理和流处理。

样本问题： “数据建模的设计模式有哪些？”

机器学习面试问题

我知道机器学习在互联网上随处可见，但其技术面试却很难。大多数人甚至不知道基本术语。为了确保你顺利通过这阶段，我希望你关注机器学习算法和框架、数据管理、处理各种数据类型，以及创建在生产中表现良好的坚固模型。

经验丰富的机器学习工程师信息：“不要以为你知道一切。如果你掉以轻心，你会失败的。”

样本问题： “机器学习模型中的偏差和方差是什么？”

深度学习面试问题

在我看来，深度学习面试是最难的。我被要求优化一个在多个 Nvidia GPU 上的模型推理。除了深度学习算法，你还必须了解数据归一化、激活函数、dropout 和批归一化、先进的计算机视觉技术以及数据增强。

涉及的内容非常多，你必须做好准备。深度学习工程师年薪超过$160K - indeed.com，只有顶级专业人士才能获得这些职位。

样本问题： “你对迁移学习有什么理解？列举一些常用的迁移学习模型。”

自然语言处理（NLP）面试问题

在你参加面试之前，确保你有处理文本、音频和图像数据集的经验。此外，你将被问到关于词袋模型、TF-IDF、命名实体识别、正则表达式、先进的 NLP Python 库、变压器架构、深度学习框架和大型语言模型的问题。

由于 Huggingface 的影响，大多数公司会询问你有关在云端训练、验证和部署大型语言模型解决方案的问题。

示例问题： “在 NLP 的上下文中，解析是什么？”

2022 年 Top 30 NLP 面试问题及答案 - Intellipaat
10 个必备 NLP 面试问题及答案 - educba.com
2022 年 50+ NLP 面试问题及答案 - mygreatlearning.com

MLOps 面试问题

如果你没有 MLOps 经验，你将在面试阶段难以取得进展。这意味着你需要具备训练、验证和部署模型的经验。MLOps 问题与机器学习生命周期、实验跟踪、编排和 ML 管道、模型部署、生产环境中的模型监控以及软件开发最佳实践的理解相关。

示例问题： “解释数据漂移和概念漂移”

云计算面试问题

处理云实例对数据科学家来说变得越来越必要。经验丰富的云工程师能够节省成本并提供最佳的存储和计算解决方案。你必须能够回答与主要云服务提供商（如 AWS、Azure 和 Google）相关的问题。这些问题围绕可扩展性、数据库管理、处理 API、节省成本的解决方案以及模型部署展开。

示例问题： “可扩展性和弹性有什么区别？”

2022 年 Top 37 云计算面试问题 - javatpoint
2022 年 Top 40 云计算面试问题及答案 - guru99.com
2022 年 Top 70+ 云计算面试问题及答案 - mygreatlearning.com

AI 经理面试问题

AI 经理是经验丰富的数据科学家或产品经理。要获得这个职位，你需要展示管理和数据科学技能。面试问题主要围绕数据获取、解决业务问题、理解数据、管理数据团队、机器学习生命周期以及指标和性能监控。

示例问题： “你使用什么技术指标来衡量分类模型的性能？”

AI 产品经理面试问题 - vitalflux.com
产品经理：机器学习面试问题 - DZone AI
12 个数据科学产品管理面试问题及解答 - productmanagerhq.com

最终思考

数据领域的专业职位需求很高。如果你具备经验，你可以顺利进入顶尖公司。为了帮助你通过技术面试的早期阶段，我整理了大量的数据科学面试问题清单。

那你还在等什么？

前一部分包括：

行为面试问题
情景面试问题
统计面试问题
Python 面试问题
R 面试问题
SQL 面试问题
数据分析面试问题
商业智能面试问题

这是数据科学系列的第 4 版，请查看：

数据科学备忘单完整合集 – 第一部分和第二部分
数据库完整合集 – 第一部分和第二部分
数据科学书籍完整合集 – 第一部分和第二部分

Abid Ali Awan (@1abidaliawan) 是一位认证数据科学专业人士，喜欢构建机器学习模型。目前，他专注于内容创作，并撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为面临心理问题的学生构建一个 AI 产品。

数据科学项目完整合集 - 第一部分

原文：www.kdnuggets.com/2022/08/complete-collection-data-science-projects-part-1.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

编辑注: 有关本系列 2 部分中包含的所有仓库的完整范围，请参见 数据科学项目完整合集 - 第二部分。

我们的前 3 个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速入门网络安全职业

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织 IT

编程

如果你是数据科学新手，编程项目将帮助你熟悉语法、调试和学习新工具。Python、R 和 Julia 主要用于数据处理、数据分析、机器学习和研究项目。

Python

井字游戏: 教程 | 代码来源
二维码编码与解码: 教程
照片处理: 教程 | 代码来源

R

探索性数据分析: 教程
推文分析: 教程
R 机器学习: 教程

Julia

图像压缩: 教程
凯撒密码: 教程
剪刀石头布: 教程 | 代码来源

网页抓取

网页抓取是数据工程和数据科学的核心部分，你可以从多个网站收集新的数据，以构建数据集用于数据分析或机器学习任务。一般来说，它用于创建实时数据系统。

抓取 Instagram: 教程
抓取招聘网站: 教程
抓取股票价格: 教程

数据分析

该分析项目将教你数据清理、处理和可视化的新工具。你将学习如何理解数据并创建具有有价值见解的报告。

美国大学分析: 教程 | 代码源
数据清理 YouTube 视频统计: 教程
世界旅游分析: 代码源

SQL

SQL 是创建、管理和流式处理数据库系统的最常用工具。在大多数情况下，你已经运行了一些 SQL 脚本进行分析任务，但将它们集成到你的项目中可能很难想象。这些项目将教你如何使用脚本创建数据库、存储和检索数据，以及如何将它们与其他工具集成。

图书馆管理系统: 代码源
在线零售应用数据库: 代码源
医院管理系统: 代码源

商业智能

学习使用 BI 工具创建交互式仪表板和分析报告。你将学习如何将小模块结合起来创建仪表板以及它为业务带来的价值。

施工管理: 代码源
客户支持案例: 代码源
美国葡萄酒生产: 代码源

时间序列

学习理解、处理和可视化时间序列数据。你将学习创建异常检测系统、进行预测并可视化多个图表进行比较。时间序列是数据科学中的一个全新领域，因此将其中一个项目添加到你的作品集中将非常有价值。

异常检测: 教程
降雨量预测: 教程
超市销售: 教程 | 代码源

结论

在完成几个课程后，你应该立即开始项目。进行项目会提高你对主题的理解，同时也会成为你简历上的一部分。做项目还能提高你的问题解决能力。你将在解决更复杂的问题时学到新的工具和概念。

在这篇博客中，我们学习了编程、网页抓取、数据分析、SQL、商业智能和时间序列项目。你可以通过源代码、教程或 ReadMe 中的初步描述来学习这些项目。关键是你需要复制这些结果。

在下一部分，我们将涵盖：

机器学习
深度学习
计算机视觉
自然语言处理
数据工程
MLOps

这是系列中的第 5 版，请查看：

数据科学备忘单完整合集 – 第一部分和第二部分
数据仓库完整合集 – 第一部分和第二部分
数据科学书籍完整合集 – 第一部分和第二部分
数据科学面试完整合集 – 第一部分和第二部分

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士，热衷于构建机器学习模型。目前，他专注于内容创作，并撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络构建一个 AI 产品，帮助那些与心理疾病斗争的学生。

数据科学项目完整合集 – 第二部分

原文：www.kdnuggets.com/2022/08/complete-collection-data-science-projects-part-2.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源：作者

编辑注: 有关本系列两部分包含的所有库的完整范围，请参阅数据科学项目完整合集 – 第一部分。

我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你所在组织的 IT 工作

机器学习

机器学习是数据科学中的热门话题，你将学习分类、回归和聚类项目，以解决业务问题。这将帮助你理解表格数据集、数据处理、算法训练和模型验证。

音乐流派分类: 教程
信用卡欺诈检测: 教程
航班价格预测: 教程 | 代码来源

深度学习

你将学习更高级的机器学习算法、神经网络和数据处理技术。深度学习是一个庞大的主题，要掌握它，你需要学习其在计算机视觉、自然语言处理、预测、自动语音识别、生成艺术和强化学习中的应用。

强化学习: 教程
OpenCV 中的性别和年龄检测: 教程
时间序列预测的深度学习: 教程

计算机视觉

在计算机视觉中，你将学习如何处理图像数据，并训练模型以执行各种计算机视觉任务，如图像分类、生成、分割和物体检测。

自动着色: 代码来源
一次性面部风格化: 代码来源
图像分割: 教程

自然语言处理 (NLP)

你将通过图像、文本和音频来学习理解语言。由于大型语言模型和变换器的引入，自然语言处理在现实世界中得到了广泛应用。它被用于翻译、问答、文本摘要、文本分类、文本生成和对话 AI。

机器翻译：约鲁巴语到英语: 教程 | 代码来源
在张量处理单元上训练 BERT 文本分类器: 教程
自动语音识别: 教程 | 代码来源

数据工程

设计、验证和部署数据科学项目的数据管道。你将学习有关数据工程过程的所有内容。你还将学习这些现代工具如何集成以提供无缝的数据流。它将介绍 ETL、数据建模、编排、分析和服务工具。

简单数据管道的设计、开发和部署: 教程 | 代码来源
优步费用跟踪: 教程 | 代码来源
数据压缩和数据解压缩管道: 教程 | 代码来源

MLOps

这是机器学习的生产侧，工程师在这里测试、重新训练、验证和进行生产中的推理。你将学习有关 ml 管道工具、实验和工件跟踪、数据和模型的存储与版本控制、云计算、REST API 和 Web 应用程序的知识。你将学习创建一个端到端的机器学习系统。

MNIST MLOps 学习: 代码来源
NLP MLops 项目与 DagsHub: 教程 | 代码来源
机器学习、管道、部署和 MLOps： 教程

结论

从事项目并复现结果将使你在解决问题方面更为出色，并且有助于你找到理想的工作。

我建议初学者和寻找工作的人可以开始一个个人项目或参与开源项目，以了解更多标准实践。

我们已经了解了机器学习、深度学习、计算机视觉、自然语言处理、数据工程和 MLOps。项目包括描述和代码来源。有些甚至有详细的教程来指导你完成整个项目。

在上一部分中，我们已经涵盖了：

编程
网络抓取
数据分析
SQL
商业智能
时间序列

这是该合集系列的第 5 版，请查看：

数据科学备忘单完整合集 – 第一部分和第二部分
数据仓库完整合集 – 第一部分和第二部分
数据科学书籍完整合集 – 第一部分和第二部分
数据科学面试完整合集 – 第一部分和第二部分

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士，热爱构建机器学习模型。目前，他专注于内容创作，并撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络构建一个 AI 产品，帮助那些在心理健康上挣扎的学生。

完整的数据工程学习路线图

原文：www.kdnuggets.com/2022/11/complete-data-engineering-study-roadmap.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

完整的数据科学学习路线图似乎很受欢迎，所以我觉得做一个版本是个好主意。在这篇文章中，我将介绍成为数据工程师所需的一切。

我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你所在的组织进行 IT 工作

1. 打造你的基础

成为数据工程师有许多复杂之处，有时可能会让人感到有些不知所措。但唯一能让你坚持下去的就是建立一个坚实的基础。

你的基础将包括熟练掌握一到两种编程语言、SQL 以及更多关于服务器的知识。

Python

如果你选择了 Python 作为编程语言，以下是一些推荐的课程：

100 天代码挑战：2022 年完整 Python 专业实战营 - Udemy
人人皆可编程（Python 入门） - Coursera（密歇根大学）

SQL

终极 MySQL 实战营：从 SQL 初学者到专家 - Udemy
完整的 SQL 精通课程 - CodeWithMosh

基础知识

使用 SQL、Python 和 PySpark 的数据工程基础 - Udemy

2. 数学和统计学

就像任何涉及数据分析和工程的职业一样，数学总是必需的。它将帮助你更好地理解日常任务，并更有效地运用你的技能。

这里有一些其他的资源来帮助你：

2. 数据库管理系统

作为数据工程师，你将频繁使用数据库管理系统——它们帮助处理大型数据集。市面上有很多数据库管理系统，因此不必感到需要掌握所有系统。这取决于你工作的公司或你偏好的工具。

如果你还想了解更多关于 SQL 和数据库的免费课程，可以查看这个：免费 SQL 和数据库课程

4. 数据仓储与数据管道

这一领域的重点是区分数据工程师和数据科学家的关键。两者都学习相同的基础知识并使用相同的编程语言、SQL 等。但数据仓储和数据管道是使数据工程师与众不同的因素——使他们成为优秀的数据工程师。

我推荐的数据仓库资源有：

数据仓库工具包 - PDF 书籍。这本书由建立数据仓库基础之一的 Ralph Kimball 所著。
数据仓储教程 - 文章
数据库与数据仓库与数据湖的比较 - YouTube

以下是学习数据管道的一些资源：

5. 云计算

最后但同样重要的是云计算。你不需要了解所有内容，但你应该对不同的服务提供商、他们的能力、局限性等有一个不错的了解。

你需要了解云计算的基础知识，如 IAAS、PAAS 和 SAAS，以及云计算的架构。

这里是一些关于云计算的资源：

6. 分析工程

分析工程也很重要。它包括：

ETL（提取、转换和加载）
创建数据模型（dbt 模型）
测试和文档编制
部署到云端和本地
使用分析应用（Google Data Studio 和 Metabase）可视化数据

你可以通过 DataTalksClub YouTube 播放列表学习所有这些概念。

这里有一些额外的资源可以帮助你：

dbt 免费课程 - dbt

分析工程训练营 - Udemy

从零开始学习 DBT - Udemy

7. 项目

看起来这需要大量学习 - 的确如此。这就是为什么你在这些领域感到熟练至关重要，才能成为一名成功的数据工程师。你可以在学习过程中或之后完成这一阶段 - 由你决定。有些人喜欢在所有学习之后应用他们的知识和技能，有些人则喜欢在学习过程中应用，以测试自己。

所以下一阶段是应用你的代码并将你的技能付诸实践。你的项目清单应该旨在涵盖所有这些领域：

探索不同类型的数据格式
数据仓库
数据分析
数据源
大数据工具

数据工程项目的想法

数据工程 Zoomcamp - 真实世界项目
使用 Python、Kafka 和 Spark 抓取股票和 Twitter 数据
通过网络抓取房地产数据
构建数据平台
Snowflake 实时数据仓库

在数据工程之外，你可以通过 LeetCode 挑战来练习你的编码技能，不过这可以应用于大多数技术职业。

8. 面试准备

你们一直在等待但又感到紧张的时刻 - 面试。要记住的内容很多，因此准备好自己是你能做的最好的事情。

这里有一些资源可以帮助你：

如果 Python 是你选择的编程语言，建议你熟悉一下Google Python 风格指南

不要忘记软技能：面试时询问员工的 73 个问题

进一步阅读

如果你想继续学习（这是很多人建议的），这里有一本书单是成为数据工程师的必备书籍。

如果你在寻找最终的数据工程课程，我推荐这个：Google Cloud 认证准备：云数据工程师专业证书

成为数据工程师的旅程不会轻松。你需要付出努力，但我向你保证，一旦你付出，就会得到回报。

**尼莎·阿亚**是一位数据科学家和自由职业技术作家。她特别感兴趣于提供数据科学职业建议或教程以及围绕数据科学的理论知识。她还希望探索人工智能在延长人类寿命方面的不同方式。作为一个热衷学习的人，她寻求拓宽自己的技术知识和写作技能，同时帮助指导他人。

完整的数据科学学习路线图

原文：www.kdnuggets.com/2022/08/complete-data-science-study-roadmap.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

在这篇文章中，我将详细说明成为数据科学家的步骤。虽然这篇文章可能专为初学者准备，但现有的初级数据科学家可能会遗漏一些东西。我在这里帮助填补这些空白，让你在数据科学的旅程中不会感到冒名顶替或缺乏自信。

我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业道路。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织 IT

我将带你走过这些步骤——这终究是一张路线图。

Python

Python 是目前最流行的编程语言之一，越来越多的人因其简单性而采用它。如果你打算进入数据科学但还没有选择编程语言——Python 总是一个好的开始。

以下是一些帮助你入门的课程：

100 天代码：2022 年完整的 Python 专业训练营 - Udemy
编程入门（Python 入门指南） - Coursera（密歇根大学）

数据科学和机器学习

一旦你理解了字母表和元音的工作原理，就可以开始构建句子。我将编程语言以及数据科学和机器学习领域视作如此。

一旦你掌握了编程语言 Python，你应该能够很好地利用这个技能，将其应用于数据科学和/或机器学习。

以下是一些帮助你达到目标的课程：

数据科学与机器学习 Python 训练营 - Udemy
数据科学课程 2022：完整的数据科学训练营 - Udemy

数学和统计学

由于对数据科学家、数据工程师、机器学习工程师等的需求很大，市场上有很多训练营。虽然它们都很棒，但其中一些忽视了数学和统计学在成为最佳数据科学家或机器学习工程师中的重要性。

数学和统计学非常重要，你需要彻底理解它们，以便将你的编码技能应用到实际世界中。虽然上述的数据科学和机器学习训练营课程会涉及数学和统计学，但这是你数据科学之旅中一个至关重要的元素，你需要搞清楚。

这里有一些其他资源可以帮助你：

机器学习、深度学习与人工智能

如果你只是想成为一名数据科学家，这仍然很重要，你需要深入理解机器学习和深度学习的概念。人工智能涵盖了这三方面，并且它们之间有相似之处，因此了解和精通这些领域对你和你的职业生涯都有好处。

这里有一些课程可以进一步帮助你：

机器学习

深度学习

人工智能

Microsoft Azure Cloud 的初学者人工智能课程 - GitHub。如果你想了解更多关于这个课程的信息，可以点击这个链接阅读我们首席编辑在 KDN 上撰写的博客。
人工智能 A-Z™：学习如何构建 AI - Udemy

项目

在学习阶段，通过实际问题应用你的技能总是很好且非常有用。如果你从事的是数据科学、机器学习、人工智能等领域，项目对你职业的发展至关重要。数据是新的黄金，你可以利用大量数据来解决问题、回答问题等。

以下是一些提供数据科学项目以及开放数据集网站的文章：

2022 年能让你获得工作的数据科学项目由 Natassha Selvaraj 提供
Abid Ali Awan 的《数据科学项目完整合集》 – 第一部分和第二部分
Kaggle
UCI 机器学习资料库

简历

一旦你有了一些项目经验并且对编程感到自信，下一步就是申请工作。但在此之前，你需要一份简历。不仅仅是任何简历，而是一份好的简历，一份优秀的数据科学简历。

你正在进入一个新的领域，因此你将与不同类型的招聘人员或老板打交道。因此，拥有一份正确构建的简历将有助于你获得初次面试机会。

阅读这篇文章，了解你如何实现这一目标：

数据科学简历必备要素由 Nisha Arya 提供

面试准备

每个人都害怕的部分，但也是每个人都在努力的部分——找到工作！这个行业的需求非常高，因此你不会缺少工作机会。然而，准备好并顺利通过面试才是难点。

记忆内容很多，当你在压力下被当场提问时，可能会很困难。然而，有数据科学备考课程、面试官常问的问题等，可以在这个阶段帮助你。

这里有一些资源：

Nisha Arya 的《数据科学面试指南》 – 第一部分：结构和第二部分：面试资源
250+数据科学面试问题由 Krish Naik 提供 - YouTube
21 份数据科学面试备考资料由 Nate Rosidi 提供
数据科学职业指南面试准备 - Udemy

额外资源

免费大学数据科学资源
3 门免费的统计学课程用于数据科学
最值得关注的数据科学、机器学习和人工智能的 Instagram 账户

结论

我希望这个数据科学学习路线图能够激励你换个职业，或者最终迈出一步，开始学习数据科学。这些资源中的大多数要么因其优质内容而闻名，要么是畅销书，要么已被证明能帮助人们在数据科学旅程中取得进展。

祝一切顺利！

Nisha Arya 是一名数据科学家和自由技术写作人员。她特别感兴趣于提供数据科学职业建议或教程以及与数据科学相关的理论知识。她还希望探索人工智能如何能够或已经对人类寿命产生益处。作为一个热衷学习者，她寻求拓宽自己的技术知识和写作技能，同时帮助指导他人。

完整的探索性数据分析与文本数据可视化：结合可视化和 NLP 生成见解

原文：www.kdnuggets.com/2019/05/complete-exploratory-data-analysis-visualization-text-data.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传评论

作者 Susan Li，高级数据科学家

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传照片来源：Pixabay

我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持您的 IT 组织

直观呈现文本文件的内容是文本挖掘领域中最重要的任务之一。作为数据科学家或NLP专家，我们不仅从不同的角度和细节层次探索文档的内容，还总结单个文档，展示词汇和主题，检测事件，并创建故事情节。

然而，在可视化非结构化（文本）数据和结构化数据之间存在一些差距。例如，许多文本可视化并未直接表示文本，而是表示语言模型的输出（词频、字符长度、词序列等）。

在这篇文章中，我们将使用女性服装电子商务评论数据集，并尽可能多地探索和可视化数据，使用Plotly 的 Python 图形库和Bokeh 可视化库。我们不仅将探索文本数据，还将可视化数值和分类特征。让我们开始吧！

数据


df = pd.read_csv('Womens Clothing E-Commerce Reviews.csv')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传表 1

在对数据进行简要检查后，我们发现需要进行一系列的数据预处理工作。

移除“标题”特征。
移除“评论文本”缺失的行。
清理“评论文本”列。
使用TextBlob计算情感极性，其范围在[-1,1]之间，1 表示积极情感，-1 表示消极情感。
创建评论长度的新特征。
创建评论字数的新特征。


df.drop('Unnamed: 0', axis=1, inplace=True)
df.drop('Title', axis=1, inplace=True)
df = df[~df['Review Text'].isnull()]

def preprocess(ReviewText):
    ReviewText = ReviewText.str.replace("(
)", "")
    ReviewText = ReviewText.str.replace('().*()', '')
    ReviewText = ReviewText.str.replace('(&amp)', '')
    ReviewText = ReviewText.str.replace('(&gt)', '')
    ReviewText = ReviewText.str.replace('(&lt)', '')
    ReviewText = ReviewText.str.replace('(\xa0)', ' ')  
    return ReviewText
df['Review Text'] = preprocess(df['Review Text'])

df['polarity'] = df['Review Text'].map(lambda text: TextBlob(text).sentiment.polarity)
df['review_len'] = df['Review Text'].astype(str).apply(len)
df['word_count'] = df['Review Text'].apply(lambda x: len(str(x).split()))

text_preprocessing.py

为了预览情感极性分数是否有效，我们随机选择了 5 条情感极性分数最高的评论 (1)：


print('5 random reviews with the highest positive sentiment polarity: \n')
cl = df.loc[df.polarity == 1, ['Review Text']].sample(5).values
for c in cl:
    print(c[0])

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传图 1

然后随机选择 5 条情感极性分数最中性的评论（零）：


print('5 random reviews with the most neutral sentiment(zero) polarity: \n')
cl = df.loc[df.polarity == 0, ['Review Text']].sample(5).values
for c in cl:
    print(c[0])

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传图 2

只有 2 条评论的情感极性分数最为负面：


print('2 reviews with the most negative polarity: \n')
cl = df.loc[df.polarity == -0.97500000000000009, ['Review Text']].sample(2).values
for c in cl:
    print(c[0])

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传图 3

成功了！

使用 Plotly 进行单变量可视化

单变量或单维可视化是最简单的可视化类型，仅由对单一特征或属性的观察组成。单变量可视化包括直方图、条形图和折线图。

评论情感极性分数的分布


df['polarity'].iplot(
    kind='hist',
    bins=50,
    xTitle='polarity',
    linecolor='black',
    yTitle='count',
    title='Sentiment Polarity Distribution')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传图 4

绝大多数的情感极性分数都大于零，这意味着大多数评论都相当积极。

评论评分的分布


df['Rating'].iplot(
    kind='hist',
    xTitle='rating',
    linecolor='black',
    yTitle='count',
    title='Review Rating Distribution')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5

评分与极性分数一致，即大多数评分都很高，处于 4 或 5 的范围内。

评论者年龄的分布


df['Age'].iplot(
    kind='hist',
    bins=50,
    xTitle='age',
    linecolor='black',
    yTitle='count',
    title='Reviewers Age Distribution')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6

大多数评论者年龄在 30 到 40 岁之间。

评论文本长度的分布


df['review_len'].iplot(
    kind='hist',
    bins=100,
    xTitle='review length',
    linecolor='black',
    yTitle='count',
    title='Review Text Length Distribution')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 7

评论字数的分布


df['word_count'].iplot(
    kind='hist',
    bins=100,
    xTitle='word count',
    linecolor='black',
    yTitle='count',
    title='Review Text Word Count Distribution')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 8

有相当多人喜欢留下长评论。

对于类别特征，我们简单使用条形图来展示频率。

部门的分布


df.groupby('Division Name').count()['Clothing ID'].iplot(kind='bar', yTitle='Count', linecolor='black', opacity=0.8, title='Bar chart of Division Name', xTitle='Division Name')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 9

General 部门的评论最多，而 Initmates 部门的评论最少。

部门的分布


df.groupby('Department Name').count()['Clothing ID'].sort_values(ascending=False).iplot(kind='bar', yTitle='Count', linecolor='black', opacity=0.8, title='Bar chart of Department Name', xTitle='Department Name')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 10

说到部门，Tops 部门的评论最多，而 Trend 部门的评论最少。

类别的分布


df.groupby('Class Name').count()['Clothing ID'].sort_values(ascending=False).iplot(kind='bar', yTitle='Count', linecolor='black', opacity=0.8, title='Bar chart of Class Name', xTitle='Class Name')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 11

现在我们来探索“评论文本”功能，在探索这个功能之前，我们需要提取 N-Gram 特征。N-grams 用于描述作为观察点的单词数量，例如 unigram 指单字，bigram 指二字短语，trigram 指三字短语。为此，我们使用 scikit-learn’s [CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) 函数。

首先，比较去除停用词前后的单词分布将会很有趣。

去除停用词前的顶级单词分布


def get_top_n_words(corpus, n=None):
    vec = CountVectorizer().fit(corpus)
    bag_of_words = vec.transform(corpus)
    sum_words = bag_of_words.sum(axis=0) 
    words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()]
    words_freq =sorted(words_freq, key = lambda x: x[1], reverse=True)
    return words_freq[:n]
common_words = get_top_n_words(df['Review Text'], 20)
for word, freq in common_words:
    print(word, freq)
df1 = pd.DataFrame(common_words, columns = ['ReviewText' , 'count'])
df1.groupby('ReviewText').sum()['count'].sort_values(ascending=False).iplot(
kind='bar', yTitle='Count', linecolor='black', title='Top 20 words in review before removing stop words')

top_unigram.py 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 12

去除停用词后的顶级单词分布


def get_top_n_words(corpus, n=None):
    vec = CountVectorizer(stop_words = 'english').fit(corpus)
    bag_of_words = vec.transform(corpus)
    sum_words = bag_of_words.sum(axis=0) 
    words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()]
    words_freq =sorted(words_freq, key = lambda x: x[1], reverse=True)
    return words_freq[:n]
common_words = get_top_n_words(df['Review Text'], 20)
for word, freq in common_words:
    print(word, freq)
df2 = pd.DataFrame(common_words, columns = ['ReviewText' , 'count'])
df2.groupby('ReviewText').sum()['count'].sort_values(ascending=False).iplot(
kind='bar', yTitle='Count', linecolor='black', title='Top 20 words in review after removing stop words')

top_unigram_no_stopwords.py 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 13

其次，我们希望比较去除停用词前后的二元组。

去除停用词前的顶级二元组分布


def get_top_n_bigram(corpus, n=None):
    vec = CountVectorizer(ngram_range=(2, 2)).fit(corpus)
    bag_of_words = vec.transform(corpus)
    sum_words = bag_of_words.sum(axis=0) 
    words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()]
    words_freq =sorted(words_freq, key = lambda x: x[1], reverse=True)
    return words_freq[:n]
common_words = get_top_n_bigram(df['Review Text'], 20)
for word, freq in common_words:
    print(word, freq)
df3 = pd.DataFrame(common_words, columns = ['ReviewText' , 'count'])
df3.groupby('ReviewText').sum()['count'].sort_values(ascending=False).iplot(
kind='bar', yTitle='Count', linecolor='black', title='Top 20 bigrams in review before removing stop words')

top_bigram.py 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传图 14

去除停用词后的顶级二元组分布


def get_top_n_bigram(corpus, n=None):
    vec = CountVectorizer(ngram_range=(2, 2), stop_words='english').fit(corpus)
    bag_of_words = vec.transform(corpus)
    sum_words = bag_of_words.sum(axis=0) 
    words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()]
    words_freq =sorted(words_freq, key = lambda x: x[1], reverse=True)
    return words_freq[:n]
common_words = get_top_n_bigram(df['Review Text'], 20)
for word, freq in common_words:
    print(word, freq)
df4 = pd.DataFrame(common_words, columns = ['ReviewText' , 'count'])
df4.groupby('ReviewText').sum()['count'].sort_values(ascending=False).iplot(
kind='bar', yTitle='Count', linecolor='black', title='Top 20 bigrams in review after removing stop words')

top_bigram_no_stopwords.py 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 15

最后，我们比较去除停用词前后的三元组。

去除停用词前的顶级三元组分布


def get_top_n_trigram(corpus, n=None):
    vec = CountVectorizer(ngram_range=(3, 3)).fit(corpus)
    bag_of_words = vec.transform(corpus)
    sum_words = bag_of_words.sum(axis=0) 
    words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()]
    words_freq =sorted(words_freq, key = lambda x: x[1], reverse=True)
    return words_freq[:n]
common_words = get_top_n_trigram(df['Review Text'], 20)
for word, freq in common_words:
    print(word, freq)
df5 = pd.DataFrame(common_words, columns = ['ReviewText' , 'count'])
df5.groupby('ReviewText').sum()['count'].sort_values(ascending=False).iplot(
kind='bar', yTitle='Count', linecolor='black', title='Top 20 trigrams in review before removing stop words')

top_trigram.py 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传图 16

去除停用词后的顶级三元组分布


def get_top_n_trigram(corpus, n=None):
    vec = CountVectorizer(ngram_range=(3, 3), stop_words='english').fit(corpus)
    bag_of_words = vec.transform(corpus)
    sum_words = bag_of_words.sum(axis=0) 
    words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()]
    words_freq =sorted(words_freq, key = lambda x: x[1], reverse=True)
    return words_freq[:n]
common_words = get_top_n_trigram(df['Review Text'], 20)
for word, freq in common_words:
    print(word, freq)
df6 = pd.DataFrame(common_words, columns = ['ReviewText' , 'count'])
df6.groupby('ReviewText').sum()['count'].sort_values(ascending=False).iplot(
kind='bar', yTitle='Count', linecolor='black', title='Top 20 trigrams in review after removing stop words')

top_trigram_no_stopwords.py 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传图 17

词性标注 (POS) 是一种将词语标注为不同词性的过程，例如名词、动词、形容词等。

我们使用一个简单的 TextBlob API 来深入探讨数据集中的“评论文本”功能的词性，并可视化这些标签。

评论语料库的顶级词性标注分布


blob = TextBlob(str(df['Review Text']))
pos_df = pd.DataFrame(blob.tags, columns = ['word' , 'pos'])
pos_df = pos_df.pos.value_counts()[:20]
pos_df.iplot(
    kind='bar',
    xTitle='POS',
    yTitle='count', 
title='Top 20 Part-of-speech tagging for review corpus')

POS.py 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 18

箱形图用于比较电子商务商店每个部门或分部的情感极性得分、评级、评论文本长度。

各部门对情感极性的分析


y0 = df.loc[df['Department Name'] == 'Tops']['polarity']
y1 = df.loc[df['Department Name'] == 'Dresses']['polarity']
y2 = df.loc[df['Department Name'] == 'Bottoms']['polarity']
y3 = df.loc[df['Department Name'] == 'Intimate']['polarity']
y4 = df.loc[df['Department Name'] == 'Jackets']['polarity']
y5 = df.loc[df['Department Name'] == 'Trend']['polarity']

trace0 = go.Box(
    y=y0,
    name = 'Tops',
    marker = dict(
        color = 'rgb(214, 12, 140)',
    )
)
trace1 = go.Box(
    y=y1,
    name = 'Dresses',
    marker = dict(
        color = 'rgb(0, 128, 128)',
    )
)
trace2 = go.Box(
    y=y2,
    name = 'Bottoms',
    marker = dict(
        color = 'rgb(10, 140, 208)',
    )
)
trace3 = go.Box(
    y=y3,
    name = 'Intimate',
    marker = dict(
        color = 'rgb(12, 102, 14)',
    )
)
trace4 = go.Box(
    y=y4,
    name = 'Jackets',
    marker = dict(
        color = 'rgb(10, 0, 100)',
    )
)
trace5 = go.Box(
    y=y5,
    name = 'Trend',
    marker = dict(
        color = 'rgb(100, 0, 10)',
    )
)
data = [trace0, trace1, trace2, trace3, trace4, trace5]
layout = go.Layout(
    title = "Sentiment Polarity Boxplot of Department Name"
)

fig = go.Figure(data=data,layout=layout)
iplot(fig, filename = "Sentiment Polarity Boxplot of Department Name")

department_polarity.py 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 19

除了 Trend 部门外，所有六个部门的情感极性得分都很高，而 Tops 部门的情感极性得分最低。Trend 部门具有最低的中位极性得分。如果你还记得，Trend 部门的评论数量最少。这解释了为什么它的评分分布没有其他部门那么广泛。

各部门对评分的影响


y0 = df.loc[df['Department Name'] == 'Tops']['Rating']
y1 = df.loc[df['Department Name'] == 'Dresses']['Rating']
y2 = df.loc[df['Department Name'] == 'Bottoms']['Rating']
y3 = df.loc[df['Department Name'] == 'Intimate']['Rating']
y4 = df.loc[df['Department Name'] == 'Jackets']['Rating']
y5 = df.loc[df['Department Name'] == 'Trend']['Rating']

trace0 = go.Box(
    y=y0,
    name = 'Tops',
    marker = dict(
        color = 'rgb(214, 12, 140)',
    )
)
trace1 = go.Box(
    y=y1,
    name = 'Dresses',
    marker = dict(
        color = 'rgb(0, 128, 128)',
    )
)
trace2 = go.Box(
    y=y2,
    name = 'Bottoms',
    marker = dict(
        color = 'rgb(10, 140, 208)',
    )
)
trace3 = go.Box(
    y=y3,
    name = 'Intimate',
    marker = dict(
        color = 'rgb(12, 102, 14)',
    )
)
trace4 = go.Box(
    y=y4,
    name = 'Jackets',
    marker = dict(
        color = 'rgb(10, 0, 100)',
    )
)
trace5 = go.Box(
    y=y5,
    name = 'Trend',
    marker = dict(
        color = 'rgb(100, 0, 10)',
    )
)
data = [trace0, trace1, trace2, trace3, trace4, trace5]
layout = go.Layout(
    title = "Rating Boxplot of Department Name"
)

fig = go.Figure(data=data,layout=layout)
iplot(fig, filename = "Rating Boxplot of Department Name")

rating_division.py 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 20

除了 Trend 部门，所有其他部门的中位评分均为 5。总体而言，评分较高，情感在该评论数据集中较为积极。

部门评论长度


y0 = df.loc[df['Department Name'] == 'Tops']['review_len']
y1 = df.loc[df['Department Name'] == 'Dresses']['review_len']
y2 = df.loc[df['Department Name'] == 'Bottoms']['review_len']
y3 = df.loc[df['Department Name'] == 'Intimate']['review_len']
y4 = df.loc[df['Department Name'] == 'Jackets']['review_len']
y5 = df.loc[df['Department Name'] == 'Trend']['review_len']

trace0 = go.Box(
    y=y0,
    name = 'Tops',
    marker = dict(
        color = 'rgb(214, 12, 140)',
    )
)
trace1 = go.Box(
    y=y1,
    name = 'Dresses',
    marker = dict(
        color = 'rgb(0, 128, 128)',
    )
)
trace2 = go.Box(
    y=y2,
    name = 'Bottoms',
    marker = dict(
        color = 'rgb(10, 140, 208)',
    )
)
trace3 = go.Box(
    y=y3,
    name = 'Intimate',
    marker = dict(
        color = 'rgb(12, 102, 14)',
    )
)
trace4 = go.Box(
    y=y4,
    name = 'Jackets',
    marker = dict(
        color = 'rgb(10, 0, 100)',
    )
)
trace5 = go.Box(
    y=y5,
    name = 'Trend',
    marker = dict(
        color = 'rgb(100, 0, 10)',
    )
)
data = [trace0, trace1, trace2, trace3, trace4, trace5]
layout = go.Layout(
    title = "Review length Boxplot of Department Name"
)

fig = go.Figure(data=data,layout=layout)
iplot(fig, filename = "Review Length Boxplot of Department Name")

length_department.py 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 21

Tops 和 Intimate 部门的中位评论长度相对低于其他部门。

数据科学书籍完整合集 - 第一部分

我们的前三个课程推荐

编程

Python

R

Julia

SQL

Scala

统计学

数据分析

商业智能

数据工程

网页抓取

数据应用

数据管理

大数据

云架构

结语

更多相关内容

数据科学书籍完整合集 – 第二部分

我们的前三大课程推荐

机器学习

深度学习

计算机视觉

自然语言处理

MLOps

机器人技术

物联网

AI 产品管理

《高管数据科学》

数据科学超级书籍

结束语

更多相关话题

数据科学备忘单的完整集合 - 第一部分

我们的三大课程推荐

SQL

网络抓取

统计学、概率论与数学

数据分析

Python

R

Julia

商业智能

大数据

结论

更多相关主题

数据科学备忘单完整合集 – 第二部分

我们的前三大课程推荐

数据结构与算法

机器学习

深度学习

自然语言处理

数据工程

网页框架

VIP 备忘单

结论

更多相关主题

数据科学免费课程完整合集 – 第一部分

我们的三大课程推荐

编程

Python

R

Julia

网页抓取

统计学和概率

数据分析

SQL

商业智能

结论

更多相关内容

数据科学免费课程完整合集 – 第二部分

我们的前三个课程推荐

机器学习

深度学习

计算机视觉

自然语言处理（NLP）

数据工程

MLOps

结论

更多相关话题