KDNuggets 博客中文翻译(二百四十八)

原文:KDNuggets

协议:CC BY-NC-SA 4.0

精通生成式 AI 的 DataCamp 前五名课程

原文:www.kdnuggets.com/top-5-datacamp-courses-for-mastering-generative-ai

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 DALL-E 3

生成式 AI 目前正在快速发展,越来越多的人希望参与其中。曾经大家都说数据科学是最性感的职业,但似乎在 2023/2024 年,生成式 AI 职业已领先。


我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业轨道

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织 IT


我们正处于年薪 30 万美元的 AI 提示工程师中,各公司争相推出最佳聊天机器人,如 ChatGPT 的新对手:谷歌的 Gemini 等。似乎现在正是乘上生成式 AI 浪潮的好时机,对吧?

DataCamp的使命是让每个人都能掌握数据技能。公司提供各种课程、播客、博客等,确保组织和个人具备处理实际数据所需的正确技能。

你是否在考虑生成式 AI 职业?现在就通过 DataCamp 的以下生成式 AI 课程启动你的旅程吧。

理解人工智能

链接:理解 AI

级别:初学者

AI 仍然是当今的热门词汇,对我们的经济、各个行业和社会产生了革命性的影响。如果你是 AI 新手,想在不深入的情况下体验一下,这门友好的初学者课程将正好满足你的需求。

该课程深入探讨了 AI 的基础方面及其快速发展的情况,包括动手实践、机器学习、深度学习和生成模型的知识。此课程无需任何编码知识,非常适合初学者!

生成式 AI 概念

链接:生成式 AI 概念

级别:初学者

现在你对 AI 有了更全面的了解,下一步是了解它对当今社会的影响,即学习生成性 AI。生成性 AI 是一种能够创造新内容的 AI 模型,如 ChatGPT,以及其他任务,如 我从使用 ChatGPT 进行数据科学中学到的。

在这门适合初学者的生成性 AI 课程中,你将学习到这项新兴技术如何塑造我们的未来。了解生成性 AI 的工作原理、伦理考量,以及如何充分利用这些工具!

掌握 LLM 概念

链接:大型语言模型概念

级别:中级

过去一年我们一直听到的另一个流行词是 大型语言模型(LLMs)。在这门课程中,你将学习推动 LLM 增长的不同要素,例如深度学习、计算能力以及数据可用性。你将了解 LLM 的基础和构建模块,如自然语言处理(NLP)、微调以及 零样本学习等学习技巧。

深入了解大型语言模型(LLMs)如何在商业和个人领域通过实际例子革新当今社会。

ChatGPT 提示工程师培训课程

链接:ChatGPT 提示工程师培训课程

级别:专家

如我之前提到的,AI 提示工程师年薪 $300k - 因此,你可以想象这一技能在当今社会中的重要性。大型语言模型(LLMs)能够生成类似人类的文本和其他类型的内容,但其背后的科学就是你提供的提示。

编写有效提示是一种艺术,学习 提示工程 将使你的生成性 AI 之旅更进一步。提示工程是设计和编写特定且独特的提示以从 LLMs 中输出期望响应的能力。要充分利用 LLMs,提示工程是一个必不可少的技能。

使用 OpenAI API

链接:使用 OpenAI API

级别:中级/专家

OpenAI 在 AI 市场上一直处于主导地位,其应用包括 ChatGPT。LLMs 已经改变了公司和员工的工作方式,使日常工作变得更加高效。

如果你真的想掌握所有可以获得的好处并提取有价值的商业价值 - 你需要了解 OpenAI 的 API。OpenAI API 具有广泛的潜在应用,这门课程将指导你如何使用 AI 生成独特的输出、文本生成、执行情感分析等。你甚至可以构建一个 自己的聊天机器人 - 以满足你的特定需求!

总结

使用 DataCamp,你可以按自己的节奏在线学习所需的数据技能 - 从非编码基础知识到数据科学和机器学习。立即点击 这里 开始你的 DataCamp 之旅,获取他们的完整内容库、证书和项目。DataCamp 可以让你从零开始到工作就绪 - 立即 开始!

****尼莎·阿利亚****是一名数据科学家、自由技术作家,并且是 KDnuggets 的编辑和社区经理。她特别关注提供数据科学职业建议或教程,以及数据科学的理论知识。尼莎涵盖了广泛的主题,并希望探索人工智能如何促进人类生命的延续。作为一个热衷学习者,尼莎希望拓宽她的技术知识和写作技能,同时帮助他人。

更多相关内容

GPT-4 的前五大免费替代方案

原文:www.kdnuggets.com/top-5-free-alternatives-to-gpt4

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

LlaMA 2


我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全领域的职业道路。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织的 IT 需求


LlaMA 2是 Meta AI 发布的一系列最先进的开源大型语言模型。你可以将其用于商业用途,它提供了代码、预训练模型和微调模型。所有资源都可以在 HuggingFace 上获得,你甚至可以通过在HuggingChat上试用模型来体验其性能。通过开放 Llama 2,Meta AI 使研究人员和开发者能够构建由先进语言能力驱动的创新应用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源:HuggingChat

Claude 2

Claude 2是 Anthropic 最新版本的对话 AI 助手。它具有更好的性能、更长的回答,并且可以通过 API 以及新的公开测试网站 claude.ai 访问。Anthropic 的开发者致力于提升其在编码、数学和逻辑推理等领域的能力,与之前的 Claude 版本相比。例如,Claude 2 最近在律师考试的选择题部分得分为 76.5%,相比 Claude 1.3 的 73.0%有了显著提升。

你可以在Poe上访问所有类型的 Claude 模型,并亲自体验其性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源:Poe

PaLM 2

Google AI PaLM 2是 Google 最新的大型语言模型,在高级推理任务方面表现出色,包括代码、数学、分类、问答、翻译、多语言能力和自然语言生成。由于其优化的计算扩展方法、增强的数据集混合和架构改进,它在所有这些能力上超越了之前的最先进的大型语言模型,如原版 PaLM。

你可以通过Bard免费访问它。

虽然有一定的魔力,但仍远未达到 GPT-4 的质量和性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 Bard

Vicuna 1.3

Vicuna-33b-v1.3 是从 LLaMA 微调而来的,经过监督指令微调,使用了从 ShareGPT.com 收集的 125K 对话数据。它是 Open LLM Leaderboard 上众多顶级模型之一。你可以在 HuggingFace 上免费访问该模型或在 lmsys.org 尝试官方演示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 lmsys.org

MPT-30B-Chat

MPT-30B-Chat 是一个聊天机器人,经过微调以生成对话。它是通过在多个对话数据集(如 ShareGPT-Vicuna、Camel-AI、GPTeacher、Guanaco、Baize 和一些生成的数据集)上微调 MPT 30B 创建的。MPT-30B-Chat 是 Open LLM 排行榜上的顶级模型之一,你可以在 mosaicml 提供的 Hugging Face Space 上免费体验。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 MPT-30B-Chat

结论

尽管 GPT-4 仍然封闭且无法访问,但令人兴奋的开源大型语言模型正在出现,任何人都可以使用。像 Anthropic 的 Claude2、Meta 的 LLaMA2 和 MPT-30B 这样的模型在对话能力、推理和多语言多样性方面显示出显著进展。虽然这些模型的规模不如 GPT-4 巨大,但它们的快速进步证明了最先进的语言 AI 仍在迅速发展。它们在数学、编程和逻辑等领域的强项使它们成为许多应用的有效替代品。

在 LlaMA2 模型发布后,高性能模型的热潮涌现,这些模型经过在各种数据集上的微调。你可以在 Open LLM Leaderboard 查看所有这些模型。

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作和撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络开发一款帮助精神疾病学生的 AI 产品。

更多相关信息

2022 年五大免费云笔记本

原文:www.kdnuggets.com/2022/04/top-5-free-cloud-notebooks-2022.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

我将分享我使用最佳云笔记本的经验,并解释它们为何排名前五。云集成开发环境(IDE)或云 Jupyter 笔记本改变了我对数据科学项目工作的整个看法。这些平台配备了预装的 Python 或 R 软件包,对大多数项目非常有用,几秒钟内你就可以开始工作。


我们的前三课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你组织的 IT 工作


在我的笔记本电脑上启动 VSCode 通常需要更多时间,然后我还需要安装缺失的软件包。除了免费的计算资源和预构建环境,云笔记本平台还提供了第三方工具集成、协作和发布选项。在这篇博客中,我们将深入探讨五大云笔记本的最佳功能,以及如何利用它们来改善你当前的数据科学开发环境。

1. Kaggle

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 Kaggle

Kaggle 提供了一个完整的数据科学和机器学习生态系统。该平台互动性强,由社区驱动,学生和专业人士通过上传数据集、创建笔记本、分享想法和参与竞赛来贡献内容。Kaggle 还提供每周免费无限制的 CPU、30 小时 GPU 和 20 小时 TPU。除此之外,他们还提供无限的公共数据存储和 100 GB 的私人数据存储。Kaggle 是在机器学习项目中进行实验和分享解决方案的终极工具

功能

  • 免费的 CPU、GPU 和 TPU

  • 免费存储

  • 定时运行的笔记本

  • 开源数据集和笔记本

  • Python & R

  • 谷歌云集成

  • 版本控制

2. Deepnote

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 Deepnote

Deepnote 是我喜爱的工具。我在上面完成所有工作任务。它是任何类型的数据科学项目的最佳云笔记本平台。我将它排在第二,因为该平台仅提供免费的 CPU。Kaggle 和 Deepnote 都在不断改善 UI 和添加功能,因此我很难决定第一个。Deepnote 是一个基于项目的笔记本平台,提供多种数据库集成和各种关键功能以改善用户体验。你可以在数据科学项目上进行实验,创建自定义环境,实时协作,并发布你的工作。Deepnote 是你所有数据科学项目的一站式服务。

特点

  • 免费 CPU 和存储

  • 计划中的笔记本运行

  • Python、R 和自定义环境

  • 数据库集成

  • 用于运行 Streamlit、Tensorboard 等的 Web 服务器

  • 实时协作

  • 发布和共享笔记本

  • 笔记本单元到 Web 应用

  • 版本控制

3. Google Colab

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自Colab

Google Colab 在机器学习研究者和数据科学家中非常受欢迎。它简单且提供免费的 GPU 和 TPU。我使用 Colab 进行快速代码运行或尝试其他人的研究工作。大多数代码库或研究论文附有 Google Colab 的链接以测试和验证结果。我认为简单性和强大的计算能力使它非常吸引人,适合人们共享和实验机器学习项目。你获得临时存储、免费的但不可靠的 GPU 和 TPU,以及与 Google 云产品(如 Drive)的集成。

特点

  • 免费 CPU、GPU 和 TPU

  • 免费临时存储

  • 仅支持 Python

  • Google 云集成

  • 改进的 Jupyter UI

  • 快速加载

4. 亚马逊 SageMaker Studio Lab

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自Studiolab

亚马逊 SageMaker Studio Lab 是一个新的竞争者,它是一款高质量的产品。该平台非常容易使用。每个会话提供 12 小时的免费 CPU 和 4 小时的 GPU。Studio Lab 的架构和界面基于亚马逊 SageMaker Studio,但功能有限。你只能获得免费的计算、存储以及 Jupyter lab 及其扩展的所有功能。

特点

  • 免费 CPU 和 GPU

  • 免费有限存储

  • 仅支持 Python 和自定义环境

  • 快速简洁的 UI

  • Jupyter 扩展

  • 高内存

  • 教育内容

5. Paperspace Gradient

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自Gradient

Gradient 由 Paperspace 提供,是一个专注于机器学习领域的云平台。它提供端到端的 MLOps 解决方案,包括模型和数据存储、部署解决方案和监控。它还提供免费 CPU 和 GPU 用于笔记本。用户界面相当美观且易于导航。为什么排在第 5 位?因为 GPU 大部分时间不可用,用户界面有 Bug 且较慢。还有一些其他平台免费提供的付费功能。Gradient 具有成为市场领导者的巨大潜力,但由于更新和开发较慢,仍在滞后。

功能

  • 免费 CPU 和 GPU

  • 免费有限存储

  • 仅限 Python 环境

  • 现代用户界面

  • 版本控制有限

  • 端到端机器学习解决方案

附加信息

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源于 DataCamp 工作区 的图片

DataCamp 工作区是云笔记本市场中的另一位新竞争者。它具有交互性,并提供所有 Jupyter 笔记本的功能。你仅限于使用 CPU,但 90% 的数据科学项目只需要 CPU。工作区是 DataCamp 课程生态系统的一部分,你可以在这里进行教程项目并参加比赛。该平台还允许你创建个人资料,并以文章的形式分享你的笔记本。我是 DataCamp 的忠实粉丝,我认为未来工作区由于其简单性和与其他 DataCamp 产品的集成,将跻身前五名。

功能

  • 免费 CPU

  • 免费有限存储

  • 交互式用户界面

  • 分享与发布

  • 与 DataCamp 集成

  • 集成了 Git、数据集和模板

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作和撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络为挣扎于心理疾病的学生构建一个 AI 产品。

更多相关话题

免费的前五大机器学习课程,提升你的技能

原文:www.kdnuggets.com/top-5-free-machine-learning-courses-to-level-up-your-skills

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源 | Midjourney & Canva

如果你来到这篇文章,你可能仍对应用你的机器学习知识感到不自信。这完全可以理解。


我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业轨道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求


在我们现代社会中,持续学习是唯一不变的事物。这就是为什么,在 AI 和机器学习的浪潮之后,越来越多的人希望提升他们的技能并增强在这些领域的自信心。

无论你是非技术人员还是有技术背景,深入了解 AI 和机器学习都将极为有益。

主要问题是什么?

由于机器学习资源众多,找到高质量且相关的资源可能很困难。这就是为什么在这篇文章中,我将分享我个人最喜欢的来自顶级大学的机器学习课程。

1. DeepLearning.ai 的《人人皆可学生成 AI》

第一个课程必须专注于今年的热词——AI 和 LLMs。由 DeepLearning.AI 设计并由 Andrew Ng 授课的《人人皆可学生成 AI》是一个很好的起点,即使你对这个领域没有任何先验知识。

课程旨在清晰且顺畅地学习生成 AI 的过程,并指导你如何理解生成 AI 的工作原理以及它能做什么(以及不能做什么)。

它包括实践任务,你将学习如何使用生成性 AI 来帮助日常工作,并获得提升提示以从 LLMs 中获得最大价值。此外,你还将深入探讨实际应用,并学习常见用例。

到课程结束时,你将理解大型语言模型、深度学习和生成性 AI 技能的概念。你将能够将你的知识付诸实践,并根据当今机器学习世界的三个核心元素,洞察 AI 对商业和社会的影响。

你还将学习如何将生成性 AI 应用于日常任务,使其立即变得实用和有用。课程可以在 Deeplearning.ai 上免费获取。

2. CS229: 斯坦福大学的机器学习

作为第二个选择,我推荐一个经典的——尽管仍然是最好的免费机器学习课程之一。有许多版本和讲师,但个人推荐由 Andre Ng 主讲的课程,他被广泛认为是最优秀的机器学习讲师之一。

课程提供了一个易于理解的机器学习和统计模式识别的介绍,涵盖了监督学习、无监督学习、学习理论、强化学习和控制等主题。从基础开始,最终涵盖高级概念。该课程非常适合任何希望在机器学习领域获得扎实基础并深入理解该领域的人。

你可以在以下链接找到所有材料,以及对应的 YouTube 视频在以下链接

3. MIT 的《Python 机器学习》

如果你的目标是用 Python 掌握机器学习,一个好的选择是参加 MIT 特意为此设计的课程。它提供了对机器学习算法和模型的完整介绍,包括深度学习和强化学习,所有内容都通过实践的 Python 项目完成。

如果你是新手,选择一个特定的子领域可能会让人感到不知所措。更好的方式是选择一个覆盖大部分机器学习内容的课程,从而有机会发现你最感兴趣的内容。该课程非常适合希望探索整个机器学习多样化世界的初学者。

你可以在以下链接找到课程

4. 帝国理工学院的《机器学习数学》

如果你对数学感到害怕,现在是面对它们的时候了。帝国理工学院设计了一个课程,旨在教授任何希望在机器学习领域建立职业生涯的人所需的基本技能。

数学是机器学习的基础,理解数学原理对于解释 ML 算法产生的结果至关重要。该专业包括三个课程:

  • 线性代数

  • 多变量微积分

  • 主成分分析

每个课程持续 4-6 周,涵盖掌握机器学习算法所需的基础数学概念。

你可以在 YouTube 上免费找到课程视频

5. fast.ai 的《实用深度学习》

这门免费课程旨在帮助有一定编码经验的人将深度学习和 ML 应用于实际问题。由 fast.ai 开发,这门课程旨在帮助人们成为工业准备好的 AI 开发者。它通过项目驱动的方法涵盖了计算机视觉和自然语言处理等基础主题,从基本概念逐步深入到高级概念。

其主要范围基于:

  • 为计算机视觉、自然语言处理、表格分析和协同过滤构建和训练深度学习模型。

  • 创建随机森林和回归模型。

  • 部署模型。

  • 使用 PyTorch,这个全球增长最快的深度学习库,以及像 fastai 和 Hugging Face 这样的热门库。

你可以在 以下网站找到这门课程。

总结

总结来说,有很多资源可以帮助你入门 ML 并提升你当前的知识水平。无论你是初学者还是有一定编码经验的人,这些课程都提供了从基础到复杂的完整介绍。

Josep Ferrer**** 是一位来自巴塞罗那的分析工程师。他毕业于物理工程专业,目前在数据科学领域专注于人类流动性应用。他是一名兼职内容创作者,专注于数据科学和技术。Josep 涵盖了 AI 领域持续爆炸的应用。

更多相关话题

前五名免费机器学习课程

原文:www.kdnuggets.com/2022/02/top-5-free-machine-learning-courses.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

技术行业对机器学习(ML)工程师的需求不断增长。公司们正在尝试整合智能产品以提升利润和增加客户互动。在 LinkedIn 和 Glassdoor 等平台上,AI 相关工作的上升趋势表明,公司正在寻找具有机器学习经验的数据科学家、ML 工程师、MLOps 工程师以及拥有 AI 产品开发背景的数据工程师。随着世界变得越来越智能,为了满足需求,组织们愿意支付 $130K+ 的基本薪资 Glassdoor


我们的前三名课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织的 IT


如果你希望在职业生涯中成长并年薪达到 $130K,那么通过完成一门专业的机器学习课程来开始你的职业生涯。在参加这些课程之前,你需要了解前提条件。几乎所有的课程都希望你具备 Python、统计学和数据科学的经验。高级课程要求你有深度学习框架的实际经验以及对机器学习生态系统的理解。在这篇博客中,我们将了解前五名免费机器学习课程。这些课程的难度从初学者到高级都有。

斯坦福大学的机器学习

机器学习 由斯坦福大学提供,是互联网上最受欢迎和高度评价的在线课程。我大多数同事都参加过安德鲁·吴的各种课程,他们都取得了积极的效果。如果你是一个有 Python 语言经验的初学者,我强烈建议你通过斯坦福大学的免费课程开始你的学习之旅。你还可以支付额外的 $75 来获得证书并获取更多学习资源。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源 Coursera

时长: 61 小时

评分: 4.9

评价: 42,816

级别: 混合

课程将简要介绍机器学习,从线性代数开始,到创建现实世界应用(照片 OCR)。课程包括监督学习、无监督学习、神经网络、核心机器学习算法、优化以及异常检测和推荐系统等现实世界应用。

我在 Coursera 和 Andrew Ng 的课程中有过积极的体验,他以一种全新而有效的方式讲解所有内容。这门课程将帮助你快速启动你的机器学习职业,并为你构建出色的 AI 应用程序奠定坚实的基础。

CS50 的《Python 人工智能入门》(哈佛大学)

CS50 的《Python 人工智能入门》| edX 教授你成为机器学习工程师所需的技能。在这门课程中,你将学习那些催生了游戏引擎、图像分类、机器翻译和股票价格预测等技术的机器学习算法。这是一门免费的课程,但你可以付费获得证书、完整的课程内容以及互动项目。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 edX

时长: 140 小时

好处: 自主学习,世界顶级大学讲师,职业前景保障

级别: 入门级

课程包括对机器学习框架、图搜索算法、对抗搜索、知识表示、逻辑推理、概率论、贝叶斯网络、马尔可夫模型、约束满足、机器学习、强化学习、神经网络和自然语言处理的实际操作经验。你还将通过参与投资组合项目来学习设计智能系统。

哥伦比亚大学的机器学习

机器学习 | edX 由哥伦比亚大学提供,是一门中级课程,帮助你掌握基本的机器学习算法。这是一门免费的课程,但付费选项将提供额外的功能和证书。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 edX

时长: 96 小时

级别: 中级

课程包括监督学习(回归/分类)、无监督学习数据建模和分析,以及优化模型性能。课程还涉及 Markov 模型、非负矩阵分解、连续状态空间模型、Laplace 近似、核方法和高斯过程。此课程适合希望深入学习模型架构和算法的个人。

实用深度学习课程

我是Jeremy Howard的忠实粉丝,他的实用深度学习课程 (fast.ai)简直太棒了。你可以享受到评估练习、社区支持以及易于跟随的 YouTube 教程。你还将学习到最先进的模型以及一个易于使用的深度学习框架(fast.ai),它是建立在 PyTorch 之上的。

该课程涵盖了机器学习的所有核心主题,并结合了实际案例。它还包括数据伦理、生产中的机器学习和开发网页应用程序。你会看到许多 fast.ai 的校友在 Google 和 Amazon 工作,因此,如果你对你的职业生涯非常认真并且想要学习能够让你找到工作的机器学习概念,那么请在一个月内完成这门课程,然后进入第二部分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源:fast.ai

时长: 20 - 60 小时

级别: 初学者到中级

课程包括训练深度学习模型、基于证据的学习、生产中的机器学习、随机梯度下降、数据伦理、表格数据和自然语言处理。每一章都有问题和项目练习,你可以在 Google Colab 或 Gradient 上运行。我强烈推荐你在学习机器学习基础后参加这门课程。该课程帮助我理解了神经网络的深层工作原理,并学会了跳出思维框框。

生产中的机器学习工程

生产中的机器学习工程 (MLOps)适合经验丰富的数据科学家和机器学习工程师。该课程帮助我理解了优化模型性能的数据中心方法,并教授了生产技术,如开发模型管道、管理元数据、项目范围和设计、概念漂移和人类水平的性能。你可以免费审核课程,这意味着你可以访问视频教程、测验和阅读课程内容。你需要支付月费才能访问项目、项目评审和认证。

该专业分为四门课程:

  • 生产中的机器学习简介

  • 生产中的机器学习数据生命周期

  • 生产中的机器学习建模流程

  • 生产中的机器学习模型部署

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自Coursera

时长: 96 小时

评分: 4.7

级别: 高级

这些课程将帮助你在职业生涯中脱颖而出,并准备你通过使用先进工具来提升 AI 产品的性能。你将学习数据漂移、概念漂移、以数据为中心的方法,开发端到端的机器学习系统,构建数据管道,机器学习操作,并学习在持续监控生产系统中的高级技术。

结论

2022 年是学习机器学习技能的最佳时机。如果你有兴趣开始你的学习之旅,或者想在数据领域中脱颖而出,开始参加这些课程并按时完成它们。这些课程将帮助你建立作品集,并提供必要的技能。免费的课程还提供社区驱动的职业支持,专业人士互相帮助找到合适的工作。

在这篇博客中,我们介绍了五个顶级免费机器学习课程。这些课程培养了能够胜任工作的专业人士,他们在顶尖科技公司工作。课程的排名基于理论、实用性、互动项目与练习、受欢迎程度、真实世界项目以及讲师风格。我希望你喜欢我的工作,如果你对机器学习职业有进一步的问题,请在下方评论。我会尽力回答你的所有问题。

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士,热爱构建机器学习模型。目前,他专注于内容创作,并撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是为那些面临心理健康问题的学生构建一个使用图神经网络的 AI 产品。

更多相关主题

每个人都应该阅读的前 5 本免费机器学习和深度学习电子书

原文:www.kdnuggets.com/2020/11/top-5-free-machine-learning-deep-learning-ebooks.html

评论

1. 深度学习书籍

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这本深度学习书籍由业界顶级专家 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 编写。这本书是学习所有重要机器学习和深度学习算法背后数学和理论的最佳书籍之一。从前馈网络到自编码器,它涵盖了你所需的一切。

2. 深入深度学习

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是一本互动电子书,涵盖了代码、数学、练习和讨论。它提供了 Numpy/MXNet、PyTorch 和 Tensorflow 的实现。

这本书是一个完整的套件,涵盖了从理论到实际示例的所有内容。

3. Fast.ai 的 Fastbook

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是一本独特的书,以 Jupyter notebooks 的形式发布,免费提供在 Github 上。这些笔记本涵盖了深度学习的介绍,FastaiPyTorch。Fastai 是一个用于深度学习的分层 API。

从这本书中学习的最佳方式是通过 fast.ai 提供的免费深度学习课程。

这本书也可以在 Amazon 以纸质版购买。

4. R 语言中的统计学习简介

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是学习机器学习和统计方法基础理论的最佳书籍之一。它针对的是高年级本科生、硕士生和非数学科学领域的博士生。

这本书包含 R 语言的编码实验和练习。它涵盖了许多重要的机器学习和统计方法。官方网站上还提供了一个 MOOC 链接,包含将近 15 小时的视频。你可以在 这里 找到。

5. 可解释的机器学习

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是我推荐大家阅读的最佳机器学习书籍之一。这本书也是关于如何解释机器学习模型及其预测的最佳指南之一。

根据书的前言

“所有解释方法都进行了深入讲解和批判性讨论。它们如何在幕后工作?它们的优点和缺点是什么?它们的输出如何解释?这本书将帮助你选择并正确应用最适合你机器学习项目的解释方法。”

阅读这本书将大大帮助你提高机器学习模型的效果、分析“为什么它们有效”、“为什么它们无效”以及许多其他问题,这些问题将使你成为更优秀的数据科学家和机器学习工程师。

此外,你可以在 Github 上找到本书的所有代码 这里

相关:


我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你组织的 IT


更多相关话题

学习高级 SQL 技巧的前 5 个免费资源

原文:www.kdnuggets.com/top-5-free-resources-for-learning-advanced-sql-techniques

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图像

互联网充斥着学习 SQL 的资源。当然,大多数都需要付费获得知识。这些资源主要教你基本的或最好的中级 SQL。

问题是,如何学习 SQL并且是免费的。是否有任何资源可以教你高级 SQL 而无需支付?

是的,确实有。事实上,正如我发现的那样,至少有五个。

在寻找课程之前,我必须定义什么是高级 SQL。

什么是高级 SQL?

这不容易确定,因为不同的专家对哪些 SQL 概念可以被认为是高级有不同的看法(以及教学经验)。

不过,我认为可以安全地说,这些主题属于高级 SQL:

  • 连接

  • 公共表表达式(CTEs)

  • 递归公共表表达式(CTEs)

  • 子查询和相关子查询

  • 窗口函数

  • 数据透视和反透视

  • 层次查询

  • 视图

  • 存储和用户定义的过程及函数

  • 触发器

  • 临时表

  • 索引

  • 数据规范化

  • 性能优化

然而,这个列表还不完整。其他一些也属于高级 SQL 的主题可以被添加进来。怎么判断它们是否属于高级?我有一个高度非科学但有效的方法:如果你不知道某个特定主题的含义,它很可能是高级 SQL。

高级 SQL 的免费资源

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图像

我在这里列出的资源涵盖了我之前提到的一些或大部分高级 SQL 概念。如果你结合这些资源,你的高级 SQL 知识可以变得更加完善。是的,我知道这需要更多的努力,但这些都是免费的,你还能期待什么呢?

1. Mode SQL 教程

资源链接:Mode Analytics SQL 教程

描述:本教程教你在 Mode BI 工具中学习高级 SQL。无需担心你需要学习另一种 SQL 方言;Mode 使用的是标准 SQL。

所有概念都以理论形式详细解释。在每一节中,还有互动练习,你可以通过编写 SQL 查询来解决问题并检查答案。

说到概念,你将学习子查询、窗口函数、SQL 查询优化和数据透视。此外,还有关于数据类型、日期格式和字符串函数的课程。

如果你觉得在这些课程中的某些较少进阶的主题上遇到困难,你可以随时在基础 SQL 和中级 SQL 章节中重新学习。

2. StanfordOnline: 数据库:SQL 的高级主题

资源链接:edX

描述:该课程是斯坦福大学提供的五门数据库课程之一,并由 edX 主办。

在高级主题中,你将学习索引以提高查询性能、事务、数据库约束和触发器以及视图。

完成此课程需要两周时间,每周 8-10 小时。

此外,如果你对这些主题感兴趣,你还可以参加关于OLAP 和递归建模和理论半结构化数据的课程。

3. Kaggle 高级 SQL

资源链接:Kaggle 高级 SQL

描述:Kaggle 的这门小课程仅需四小时完成。它涵盖 JOIN 和 UNION、分析(或窗口)函数、嵌套和重复数据以及编写高效查询的技巧。

每节课提供详细的理论解释,并附有实际示例。每节课结束时,你会找到一个链接,该链接会测试你的理解,给出一些编写代码来解决的练习。

4. 高级 SQL(2020 年夏季)

资源链接:YouTube

描述:此视频课程由德国图宾根大学数据库研究组提供讲座。

共有 58 个视频,大多数时长约半小时。内容涵盖子查询、集合操作、GROUP BY 扩展、数据类型、数组、窗口函数、用户定义函数、递归 CTE 等许多主题。

5. Web 极客的 SQL

资源链接:菲利普·格林斯潘个人网站

描述:这本在线书籍由菲利普·格林斯潘编写,他是美国的计算机科学家和教育家。

通过代码和实际示例相结合的理论和实践解释。大多数示例使用 web 服务的数据模型,并以 Oracle SQL 方言编写。

该资源将教你触发器、视图、树、数据库调优等更多内容。

额外福利:几乎免费的资源

作为额外福利,我想加入两个几乎免费的资源:StrataScratch(是的,就是我创办的平台)和 LeetCode,这两个平台提供实际的 SQL 编程面试题。

几乎是免费的,指的是非常便宜?不是,指的是需要付费订阅才能访问所有问题,但也有大量的免费问题。

我们在StrataScratch 上有 75 个免费问题,大多数难度为中等或困难。你一定会找到一些问题来测试你的高级 SQL 知识。为了方便你搜索,我们提供了详细的筛选功能,可以按主题、难度、公司等进行筛选。

还有一个互动代码编辑器,可以用多种 SQL 方言(PostgreSQL、SQL Server、MySQL 和 Oracle)编写解决方案并进行验证。所有问题都有提示和详细解释的官方解决方案。

LeetCode的问题数量与我计算的数量相同。然而,大多数情况下,这些问题被分类为简单或中等,这可能会使寻找高级主题变得稍微困难一些。不过,我相信你一定能找到一些很好的问题来练习我在文章开头提到的主题。像 StrataScratch 一样,LeetCode 也有详细的解决方案和一个互动代码编辑器,支持多种 SQL 方言的代码编写。

总结

就这样——五个免费教授高级 SQL 技巧的资源。它们也是优质资源,有助于更好地学习。

三个资源是经典的在线 SQL 课程,涵盖不同的高级主题。我还加入了一些不同的内容:一个由顶级德国大学提供的 YouTube 课程和一本由公认专家和教育者撰写的在线书籍。

这些资源中涵盖的一些主题有所重叠,但也有些是每个资源独有的。如果你在某个课程中找不到你需要的内容,你可以随时结合这些资源来填补空白。

作为额外福利,有两个面试问题平台,StrataScratch 和 LeetCode,提供了一些免费的问题。

我希望你能发现这些都是学习高级 SQL 的宝贵资源。祝学习愉快!

****内特·罗西迪****是一名数据科学家,专注于产品战略。他还是一名兼职教授,教授分析学,并且是 StrataScratch 的创始人,这个平台帮助数据科学家准备面试,提供来自顶级公司的真实面试问题。内特撰写关于职业市场的最新趋势,提供面试建议,分享数据科学项目,并覆盖所有 SQL 相关内容。


我们的 Top 3 课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速开启网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升您的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持您的组织 IT


更多相关主题

数据科学的前五大 Linux 发行版

原文:www.kdnuggets.com/top-5-linux-distro-for-data-science

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

许多在财富 500 强公司工作的开发者和 IT 专业人士使用 Linux 发行版或 MacOS。为什么选择 Linux?因为大多数服务器运行在 Linux 上,并提供 Windows 11 缺乏的各种工具。此外,如果您关注安全性和隐私,那么转向 Linux 是正确的决定。在过去一个月里,我使用 VM VirtualBox 尝试了一些这些发行版,我正在认真考虑将 Linux 作为我的主要系统。


我们的前三名课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升您的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持您的组织 IT 方面的需求


在这篇博客中,我们将了解一种我非常喜欢的 Linux 发行版,它支持所有您数据科学实验和机器学习模型训练所需的工具。这些发行版也非常用户友好,您可以在几分钟内完成安装。

1. Ubuntu Desktop

我们都知道 Ubuntu,我认为如果你是开发者或机器学习工程师,你很可能通过 WSL 在 Windows 11 上使用 Ubuntu。由于其用户友好的界面、广泛的文档和庞大的社区支持,Ubuntu 是最受欢迎的 Linux 发行版。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Ubuntu 是 Linux 新手的绝佳选择,其软件仓库中充满了数据科学工具和库,使得设置开发环境变得容易。此外,它是一个稳定的操作系统,提供比 Windows 更长的长期支持。

2. Fedora Workstation

Fedora Workstation 是一个非常成熟且受欢迎的开发者和程序员操作系统。Fedora 的独特之处在于它致力于提供最新的软件和功能,这对于数据科学家寻找最新的软件工具和库的发展至关重要。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它完全免费且没有广告,重视您的数据隐私。此外,它对开源价值的强烈重视确保用户可以访问庞大的免费开源软件(FOSS)工具生态系统。

3. Zorin OS

Zorin OS 正迅速成为我最喜欢的操作系统,因为它的安装简便和预装软件。对于那些从 Windows 或 macOS 过渡过来的人,它特别友好,提供了一个简单而优雅的界面,同时不牺牲性能或功能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Zorin OS 基于 Ubuntu,因此可以利用其丰富的软件库和支持。对于数据科学家来说,Zorin OS 提供了一个舒适且熟悉的环境,同时仍然展现出 Linux 以其著称的多样性和性能。

4. Pop!_OS

Pop!_OS 是一个流行的 Linux 发行版,预装了 Nvidia GPU 驱动程序。这意味着你无需额外安装任何东西即可开始在 GPU 上训练深度学习模型。它在易用性和预装应用程序方面与 Zorin OS 非常相似。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Pop!_OS 基于 Ubuntu,但通过一个精简且增强的用户界面增加了自己的特色,重点关注生产力和易用性。我能够在几分钟内安装并开始使用 VSCode 进行我的项目。它非常容易导航,并且提供了大量的自定义选项。

5. Manjaro

Manjaro 是一个基于 Arch Linux 的用户友好型 Linux 发行版。与针对更有经验用户的 Arch 不同,Manjaro 提供了 Arch Linux 的所有优点,包括访问 AUR(Arch 用户库),但以更易于安装的包形式呈现。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Manjaro 以其滚动更新模式而闻名,这意味着它会定期收到更新和最新的软件包。它还具有高度的可定制性,允许用户根据自身需求调整操作系统。此外,它提供了广泛的数据科学工具和库,这些工具和库对于开发和部署数据科学解决方案至关重要。

结论

选择适合数据科学的 Linux 发行版取决于个人喜好、特定项目需求以及你对 Linux 环境的舒适程度。

Linux 与 Windows 和 macOS 存在显著差异。因此,建议尝试几种稳定的 Linux 发行版,选择最适合你的那一个。一些专业人士偏好 Arch,而一些则偏好 Ubuntu。最终,这取决于你的个人喜好。

Fedora Workstation、Ubuntu Desktop、Zorin OS、Pop!_OS 和 Manjaro 是数据科学专业人士的热门选择,每种操作系统都有其独特的优点。尝试其中一种或多种发行版将帮助你找到最适合你数据科学之旅的系统。

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士,热衷于构建机器学习模型。当前,他专注于内容创作和撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络构建一个 AI 产品,帮助那些挣扎于心理健康问题的学生。

更多相关话题

机器学习从业者应了解的前五大 API

原文:www.kdnuggets.com/top-5-machine-learning-apis-practitioners-should-know

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片 | Canva

API,即应用程序编程接口,是一组规则和协议,使不同的软件或网络应用能够互相通信和交互,类似于蓝牙连接两个手机进行数据共享和消息传递。


我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 部门


在这篇博客中,我们将探讨前五大 API,这些 API 可以显著简化机器学习工程师的工作,使他们的工作流程更加顺畅,从而快速而无缝地构建 AI 应用。

1. OpenAI API

OpenAI API 是最受欢迎的机器学习 API 之一。只需支付少量费用,你就可以访问最先进的大型语言模型,如 GPT-4o,以及嵌入、图像生成、文本到语音、语音到文本和内容审查模型。通过 OpenAI API,你可以创建自己的高质量 AI 应用,甚至围绕它建立一家初创公司。然而,使用 OpenAI API 可能会面临两个潜在问题。首先是隐私问题,其次是使用这些模型的成本可能迅速累积,尤其是当你试图围绕它建立公司时。这可能会减少你的扩展利润空间。这时候,其他 API 就显得尤为重要。

2. Kaggle API

Kaggle API 允许你创建自己的模型。这意味着你可以用它来下载数据集和模型,然后使用免费的 GPU 来训练你的模型。所有操作都可以通过 Kaggle 命令行工具完成,真是太棒了。你甚至可以使用 API 保存你微调过的模型、笔记本和数据集。大多数问题都可以通过 Kaggle API 解决。如果你是机器学习领域的专家,还可以利用这个 API 参加竞赛。

3. Hugging Face API

Hugging Face API 是机器学习工程师和研究人员广泛使用的 API。它允许你下载数据集、模型、代码库和空间。它速度快,并且提供了大量自定义选项以下载数据集。此外,你可以使用它创建 Hugging Face Hub 代码库,保存和分享你的模型,开发和发布机器学习 Web 应用程序,并通过支持 GPU 的端点部署机器学习模型。大多数人将其与 Transformers 库一起使用,使得人们只需几行代码即可微调大型机器学习模型。

4. ElevenLabs API

如果你正在寻找一个前沿的声音生成、语音转文本和语音转语音的解决方案,ElevenLabs API 是最佳选择。他们提供自然的声音,为你的产品注入生命。此外,该 API 包括语音克隆、流式传输、异步功能,并支持 29 种语言和 100 多种口音。你甚至可以使用文本生成声音效果。你可以跳过训练自己的模型并追求完美的步骤,直接集成 ElevenLabs API。

5. StabilityAI API

我们已经了解了音频生成 API,现在我们将学习一种名为 Stability AI 的图像生成 API。该 API 可以使用最新的 Stable Diffusion 3 模型生成高质量的 4K 图像。此外,它还可以用来放大和编辑图像,并通过草图、结构和风格进行控制。Stable Fast 3D 模型允许你使用 2D 图像生成 3D 资产。Stability API 的一个最佳功能是,它允许你使用文本提示生成高度逼真的视频。

结论

通过使用机器学习 API,你可以轻松构建、保存和部署生产就绪的 AI 应用程序。这些 API 简化了流程,通过连接各种应用程序,让你可以专注于开发而不是基础设施。从头开始训练自己的机器学习模型变得越来越不常见,因为专业人士越来越依赖 API 来进行模型集成或使用 Hugging Face 生态系统微调现有模型。

在这篇博客中,我们探索了可以帮助你生成文本、图像和音频的 API。此外,你还可以从 Kaggle 和 Hugging Face 等平台获得广泛的数据、模型和代码资源,使得开发复杂的机器学习应用程序比以往更容易。

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士,热爱构建机器学习模型。目前,他专注于内容创作,并撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为那些面临心理健康问题的学生打造一个人工智能产品。

更多相关内容

专家推荐的前 5 种机器学习最佳实践

原文:www.kdnuggets.com/2022/09/top-5-machine-learning-practices-recommended-experts.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

介绍


我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升您的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持您的组织进行 IT 维护


机器学习一直是媒体热炒的话题,越来越多的组织采用这种技术来处理日常任务。机器学习从业者可能能够提出解决方案,但提升模型性能有时可能非常具有挑战性。这需要实践和经验。即使尝试了所有策略,我们仍然经常无法提高模型的准确性。因此,本文旨在通过列出机器学习专家推荐的最佳实践,帮助初学者改进他们的模型结构。

最佳实践

1. 专注于数据

在机器学习的世界中,数据的重要性不容忽视。数据的质量和数量都能显著提升模型性能。这通常比制作机器学习模型本身更耗时和复杂。这个步骤通常被称为数据准备。它可以进一步细分为以下步骤:

  • 明确问题 - 为了避免使项目过于复杂,尽量深入了解您要解决的根本问题。将问题分类为分类、回归、聚类或推荐等。这种简单的细分可以帮助您收集最适合您情境的相关数据集。

  • 数据收集 - 数据收集可能是一个繁琐的任务。顾名思义,它是收集历史数据以寻找重复模式。数据可以分为结构化(例如 Excel 或 .csv 文件)和非结构化数据(例如照片、视频等)。一些著名的数据集来源包括:

  • 数据探索 - 这一步骤涉及利用统计和可视化技术识别数据集中的问题和模式。你需要执行各种任务,如发现异常值、识别数据分布及特征之间的关系、查找不一致和缺失值等。Microsoft Excel 是用于此步骤的一个流行手动工具。

  • 数据清洗和验证 - 这涉及到剔除无关信息并通过各种插补工具解决缺失值**。**识别并删除冗余数据。许多开源选项如OpenRefine Pandera等可用于清洗和验证数据。

2. 特征工程

这是另一种提高模型性能和加快数据转换的基本技术。特征工程涉及从已有特征中注入新特征到模型中。它可以帮助我们识别强健的特征并去除相关或冗余的特征。然而,它需要领域专业知识,如果我们的初始基线已经包含多样的特征,可能不可行。让我们通过一个例子来理解这一点。假设你有一个数据集,包含房屋的长度、宽度和价格,如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

与其使用上述数据集,我们可以引入另一个名为“面积”的特征,并仅测量该变量对房价的影响。这个过程属于特征创建的范畴。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

类似地,特征转换特征提取根据我们的项目领域可能会证明有价值。特征转换涉及对特征应用转换函数以获得更好的可视化,而在特征提取中,我们通过仅提取相关特征来压缩数据量。

尽管特征缩放也是特征工程的一部分,我单独讨论了它,以强调其重要性。特征缩放是用于标准化自变量和特征范围的方法。**为什么这个步骤如此重要?**大多数算法如线性回归、逻辑回归和神经网络使用梯度下降作为优化技术。梯度下降严重依赖于特征的范围来确定向最小值的步长,但我们的大多数数据在范围上变化剧烈。这迫使我们在将数据输入模型之前进行标准化或规范化。对此,最重要的两种技术是:

  • 归一化 - 归一化是一种将数据限制在通常范围[0,1]之间的技术,但你也可以定义范围[a,b],其中 a 和 b 是实数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 标准化 - 标准化将数据转换为均值为 0,方差为 1。我们首先计算特征的标准差和均值,然后使用以下公式计算新值:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于哪一种更好的讨论已经很多,一些研究表明,对于高斯分布,标准化更有帮助,因为它不受异常值的影响,反之亦然。但这取决于你所处理的问题类型。因此,强烈建议同时测试两者并比较性能,以找出最适合你的方法。

3. 玩转正则化

你可能遇到过这种情况:你的机器学习模型在训练数据上表现得非常好,但在测试数据上表现不佳。这发生在你的模型过拟合了训练数据。尽管有很多方法可以应对过拟合,比如丢弃层、减少网络容量、提前停止等,但正则化的表现超过所有方法。什么是正则化? 正则化是一种通过缩小系数来防止过拟合的技术。这会导致一个简化的模型,在进行预测时表现得更加高效。正则化有两种类型:

  • L1 正则化 - 也被称为套索回归。它通过向系数绝对值的大小添加惩罚,迫使一些系数估计值恰好为零。它形成一个稀疏模型,对特征选择有用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • L2 正则化 - 也被称为岭回归。它通过添加系数绝对值的平方来惩罚模型。因此,它迫使系数的值接近零但不完全为零。它提高了模型的可解释性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

尽管 L2 正则化比 L1 给出更准确的预测,但这以计算能力为代价。在存在异常值的情况下,L2 可能不是最佳选择,因为由于平方的存在,成本会呈指数增长。因此,与 L2 相比,L1 更具鲁棒性。

4. 识别错误

重要的是我们要跟踪模型所犯的错误,以便进行优化。这个任务可以通过各种可视化图来完成,具体取决于待解决问题的类型。以下是一些讨论的内容:

  • 分类 - 分类模型是监督学习的一个子集,根据生成的输出将输入分类为一个或多个类别。可以通过各种工具来可视化分类模型,例如:

  • 分类报告 - 这是一个评估指标,显示了精确度、F1 分数、召回率和支持度。它提供了对模型性能的整体理解。

  • 混淆矩阵 - 它将真实值与预测值进行比较。与分类报告相比,它提供了对单个数据点分类的更深入的见解,而不仅仅是顶层分数。

  • 回归 - 回归模型通过提供期望的函数来预测自变量和因变量之间的关系。它在连续空间中进行预测,以下是用于回归的评估指标:

  • 残差图 - 它显示水平轴上的自变量和垂直轴上的残差。如果数据点在水平轴上随机分布,则线性模型更适合,反之亦然。

  • 预测误差图 - 它显示实际目标与预测值的对比,以提供关于方差的想法。45 度线是预测与模型完全匹配的地方。

5. 超参数调优

超参数是一组不能由算法本身学习的参数,并在学习过程开始之前设置,例如学习率(alpha)、小批量大小、层数、隐藏单元数等。超参数调优 指的是选择最优超参数的过程,以最小化损失函数。在简单的网络中,我们对模型的不同版本和超参数组合进行实验,但对于更复杂的网络,这可能不是合适的选择。在这种情况下,我们根据先前的知识进行最优选择。以下是一些广泛使用的超参数调优方法,以便在超参数空间范围内进行适当的选择:

  • 网格搜索 - 这是传统的和最常用的超参数调优方法。它涉及从包含所有可能超参数组合的网格中选择最佳集合。然而,它需要更多的计算能力和时间来执行操作。

  • 随机搜索 - 它不是尝试每一种组合,而是从网格中随机选择一组值来找到最优值。与网格搜索相比,它节省了不必要的计算能力和时间。由于没有使用智能,因此运气也起到作用,结果的方差较高。

  • 贝叶斯搜索 - 它在应用机器学习中被使用,且优于随机搜索。它利用贝叶斯定理并考虑前一轮的结果,以改进下一轮的结果。它需要一个能够最小化损失的目标函数。它通过创建目标函数的代理概率模型来工作,然后寻找代理模型的最佳超参数,接着将其应用到原始模型中,并更新代理模型,估计目标函数。这一过程会被重复,直到找到原始模型的最佳解。它确实需要较少的迭代,但每次迭代需要较长时间。

在上述方法中,迭代次数、运行时间和性能最大化之间存在权衡。因此,您案例中的理想方法取决于您的优先事项。

结论

机器学习和深度学习需要良好的计算资源和专业知识。构建机器学习模型是一个迭代过程,涉及实现各种技巧以提高整体模型性能。我列出了 ML 专家推荐的一些最佳实践,以便访问您当前模型的不足之处。然而,正如我总是说的,一切都需要足够的实践和耐心,所以请继续从错误中学习。

Kanwal Mehreen 是一名有志的软件开发人员,她相信持续的努力和承诺。她是一名雄心勃勃的程序员,对数据科学和机器学习领域有浓厚的兴趣。

更多相关主题

初学者到专业人士的前 5 大 NLP 备忘单

原文:www.kdnuggets.com/2022/12/top-5-nlp-cheat-sheets-beginners-professional.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

备忘单在复习遗忘的概念或准备技术 NLP 面试时至关重要。它曾经帮助过我,现在我将与您分享 NLP 的最佳资源。

通过查看前 5 大 NLP 备忘单,你将了解 NLP 算法、模型、Python 库、任务、分析技术、性能指标和框架。

NLP 入门工具包备忘单

NLP 入门工具包 是一个基于 Markdown 的备忘单,介绍了 NLP Python 库、任务、框架、数据集、算法和基准。你将通过代码示例了解算法背后的概念。

NLP 入门工具包涵盖了从简单的文本分类到变换器的所有基础知识。此外,你还将学习各种分析技术,以了解数据集。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自备忘单

在备忘单中,你将学习到:

  1. 词嵌入

  2. 停用词

  3. 跨度

  4. 令牌与分词

  5. 语块与语块化

  6. 词性标注(POS)

  7. 词干提取与词形还原

  8. 句子检测

  9. 依存解析

  10. 命名实体识别(NER)

  11. 文本分类

  12. 相似度

  13. N-gram

  14. 核方法

  15. 斯皮尔曼等级相关系数

  16. KNN

  17. 情感分析

  18. 以及更多

spaCy 备忘单

spaCy 备忘单涵盖了使用 spaCy Python 包的重要 NLP 概念和特性。SpaCy 是一个高级开源 NLP 工具,专门设计用于生产环境,以理解更大量的文本。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自备忘单

在备忘单中,你将学习到:

  1. 统计模型

  2. 文档、令牌和跨度

  3. 标签说明

  4. 语言特征

  5. 管道组件

  6. 可视化

  7. 词向量与相似度

  8. 语法迭代器

  9. 扩展属性

  10. 基于规则的匹配

NLP 与 NLTK 备忘单

NLP 与 NLTK 备忘单 为你提供了一个关于使用主要是 NLTK 包的 Python 中基本 NLP 任务的参考指南。你将学习到 POS 标注、词形还原、句子解析和文本分类。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图像来自 备忘单

在备忘单中,你将学习:

  1. 处理文本

  2. 访问语料库和词汇资源

  3. 分词

  4. 词形还原与词干提取

  5. 词性标注 (POS)

  6. 句子解析

  7. 文本分类

  8. 实体识别 (分块/剔除)

  9. Pandas 和命名组的 RegEx

Hugging Face Transformers 文档

Hugging Face Transformers 文档是理解解决 NLP 问题的有效方式。你可以使用该文档学习 API 并在几分钟内训练大型语言模型。它支持 PyTorch、TensorFlow 和 Jax 框架。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图像来自 文档

你可以使用文档执行:

  1. 机器翻译

  2. 填补掩码

  3. 标记分类

  4. 句子相似度

  5. 问答

  6. 摘要生成

  7. 文本分类

  8. 文本生成

  9. 对话

  10. 文本到语音和自动语音识别

NLP 备忘单

NLP 备忘单涵盖了自然语言处理的各个方面。你将学习构建语言模型、处理序列输入和大词汇量以及上下文嵌入。这个备忘单适合希望深入学习和准备面试的专业人士。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图像来自 备忘单

在备忘单中,你将学习:

  1. 独热编码向量、Word2Vec 和 GloVe

  2. N-gram 语言模型、RNN、深度双向 RNN、GRU 和 LSTM

  3. Seq2Seq 模型和注意力机制

  4. 缩放 softmax 和基于词及字符的模型

  5. ELMo、ULMFit 和 Transformer 模型

  6. 常见问题解答

结论

NLP 备忘单提供了简洁的信息,以复习遗忘的概念,并帮助我们在机器学习面试中取得成功。

我多次使用 NLP 备忘单,主要是在公司寻找具有 NLP 专长的机器学习工程师时。此外,我使用 带代码的论文来了解最新趋势。

希望你喜欢这些备忘单。别忘了关注我在 TwitterLinkedIn上的动态,我会发布关于数据科学的精彩博客。

Abid Ali Awan (@1abidaliawan) 是一名认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作,并撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络构建一个 AI 产品,帮助那些与心理健康问题作斗争的学生。


我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业轨道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升您的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持您的组织的 IT


更多相关话题

避免从事数据科学职业的 5 大理由

原文:www.kdnuggets.com/2022/04/top-5-reasons-avoid-data-science-career.html

我们都目睹了数据科学是 21 世纪最性感工作的经典声明。

谁不想获得这样一种特权:确保每个人的金融交易无欺诈,让用户知道他们接下来想观看的是什么视频,并拯救这个世界免于崩溃呢?

数据科学不仅是一个听起来非常酷的工作,而且也是一个非常有回报的职业。因此,这个职业所需的技能必定有些特别。当我说你应该仔细规划数据科学职业时,我绝不是在贬低你学习统计学、概率论、线性代数和最前沿算法的能力。哦,我怎么能忘记编码技能的效率以及在人工智能领域突破的新事物上保持领先。

你可能在上述看似简单的技能清单中是专家,但仍可能无法在数据科学领域取得引人注目的职业成就。

每个人都是天才,但正如爱因斯坦所说:

如果你用鱼的爬树能力来评判它,它将一辈子相信自己很笨。

因此,这篇文章的目的是让你在进入数据科学这个闪亮的大世界之前,对典型数据科学家的性格特征有一个现实检查。

在避免对每个人在数据科学中取得巨大成功的能力进行泛化,并让他们争取一线机会的同时,本文旨在让你在跨入这一领域之前,提前评估自己是否已经做好准备。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:freepik pic1freepik pic2

来吧。

1. 工作中的学习

你是否也觉得你在本科阶段学到的内容与实际工作中的内容之间存在巨大的差距?我个人确实有这种感觉。学习理论在数据科学中是不够的——你可能在 Kaggle 上进行了大量的 Titanic 练习,并在精心准备的数据上建立了情感分析。但在实际项目中工作则完全是另一回事。没有人会要求或建议你去构建完成特定项目所需的多项技能之一——你需要在工作中学习并完成任务。老兵们总是关注前沿的先进算法以及现有算法的优缺点。他们不会等待合适的机会敲响他们的门来戴上眼镜熬夜工作。基本上,他们从不陷入“我无所不知”的舒适区。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:由 makyzz 创建的背景矢量 - www.freepik.com

2. 挫折

你是否期望在第一次尝试时就能命中靶心并建立一个高度准确的模型?在通过改进 ML 流水线中的多个步骤来迭代模型时,你是否感到沮丧?

  • 这可能涉及回到正确的数据收集,收集正确的代表性样本,以不仅用于训练,还用于推理。

  • 如果你曾遭遇过错误标签,那么修正标签的责任在于你自己。

  • 科学度量如精度、召回率或 RMSE 对于业务关注度最小。将科学数字转化为业务 KPI 并在你的工作中找到价值的责任在于你。

  • 数据分布与训练集中的数据分布不同——欢迎进入数据漂移问题的套件。你需要找出何时以及用什么数据重新训练你的模型,以继续获得其回报。

  • 你的旅程并未因生产中的一个体面的模型而结束,你需要花费时间记录你构建该模型的所有工作——谁告诉你数据科学是一个人的工作。成功需要一支团队的协作,而这支团队需要你提供的文档来保持一致。

  • 在你获得向高管展示结果的荣耀之前,你需要不断重复你的解决方案和结果,以获得技术小组和管理层的批准。虽然这可以确保你的模型在早期接受审查,但有时这会有点困难,需要强大的耐力来应对重复的演示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:由 freepik 创建的人物矢量 - www.freepik.com

3. 自我驱动

你是等待他人指示进行特定分析,还是足够有机会主义和好奇心来关联对业务最有利的事物,并提出改进投资回报率的好点子?你是否需要同行和经理的帮助和验证来确保你做得对,还是对自己的假设和分析有足够的信心?当大量数据摆在你面前时,很难知道从何开始——但那些不怕在数据中动手的人最终也会带回一大笔薪水,玩笑而已。

4. 每个企业都是不同的

如果一个组织拥有领域专家型的数据科学家,那他们真是幸运。我曾经在领域内坚持了一段时间,直到我意识到这限制了我的潜力,并限制了我可以在普遍层面上做出的贡献。

放弃领域标签的决定对我的职业发展至关重要。此外,你需要学习各种特定于组织的工具,因此灵活性是关键。检查一下你是否足够灵活以加入数据科学家的队伍。

5. 一切都关于实验

数据科学和实验是类似的。在对利益相关者喊出“尤里卡”之前,你需要尝试多种方法。你是否能够在经历多次失败后仍保持高容忍度,依然坚韧地以全新的视角看待业务问题?

通常,大多数数据科学家在 99%的时间里都失败了,但仍然能从剩下的 1%的尝试中创造出成功而稳健的解决方案。这一切都在于不断尝试。

移动指针所需的时间,即在构建机器学习模型时向前迈出一步,是非常疲惫和耗费精力的。

哦,还有人告诉你数据科学家将 80%的时间花在收集、清理和转换数据以使其“适合机器学习”,而只有 20%的时间用于实际的模型构建和分析。我敢打赌他们是这样说的。

你需要适应数据科学项目的迭代性质,并从容应对,否则在数据科学行业中生存下来将变得非常困难,更不用说繁荣发展了。

我的两分钱意见

我经常被问到——数据科学家做什么?这篇文章是我在行业中的第一手经验的汇编,同时也是对初入数据科学领域的人的指导。希望它能帮助你一窥真实的行业经验,并为你未来的挑战做好准备。

Vidhi Chugh 是一位获奖的 AI/ML 创新领袖和 AI 伦理学家。她在数据科学、产品和研究的交汇处工作,以提供商业价值和洞察力。她是数据中心科学的倡导者,也是数据治理领域的领先专家,致力于构建值得信赖的 AI 解决方案。

更多相关话题

机器学习项目失败的 5 个主要原因

原文:www.kdnuggets.com/2021/01/top-5-reasons-why-machine-learning-projects-fail.html

评论

作者 Sudeep Srivastava,Appinventiv 首席执行官

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传


我们的三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求


随着每份趋势报告将机器学习吹捧为有助于增长的技术,能够使各行业(跨部门和区域)对客户和收入更加友好,组织们也在效仿,并加倍努力采用机器学习。

尽管机器学习应用开发项目的数量明显增加,但项目失败的数量也几乎相等。机器学习项目失败率的增加在许多方面使得拥有出色 AI 想法的新企业避免实施这些想法。

我们今天文章的意图是帮助你了解机器学习项目失败的许多原因。我们希望这些信息能帮助你规划一个更好的实施方案,从而在机器学习执行的三个阶段:项目前期、项目实施期间和项目后期,降低失败的几率。

机器学习项目失败的主要原因

1. 数据不足

如果图表能告诉你什么,那就是成功的机器学习项目需要大量的数据。为了成功的机器学习项目,企业需要访问干净的数据——相关、有用、无误差且易于访问的数据。

除了拥有干净、结构化的数据外,数据还必须在一个地方——数据仓库、数据湖或某个数据平台——中随时可用,以便进行短期任务和大规模培训。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2. 机器学习模型与遗留系统不同步

根据数据科学家的建议,组织往往会添加旨在促进创新的模型,却没有考虑它们与现有“非数字化”文化和遗留系统的契合度。因此,尽管这些解决方案在市场上运行良好,但当与现有系统结合时,采纳的成功率几乎为零。

解决方案在于将从事机器学习项目的团队与管理遗留系统的团队汇聚在一起。随后,应规划项目的里程碑式部署,以帮助实现无摩擦的迁移和轻松采纳。

3. 数据科学家不足

市场上数据科学家严重短缺。虽然有很多工程师完成课程并自称为数据科学家,但真正具备深入分析复杂机器学习项目的技能的人极其有限。根据2020 年企业机器学习状况报告,虽然对机器学习专家的需求持续上升,但在填补这一角色方面的供应却急剧短缺。

4. 更新困难

随着时间的推移,机器学习项目往往会过时,无法继续作为解决业务问题的最佳方案。这通常发生在以下情况:

  • 业务情况发生变化

  • 用户需求的转变

  • 更好的模型不断进入市场。

通常,更新现有机器学习模型既困难又耗时:在许多方面,它等同于建立一个新的数据科学项目。鉴于这些困难,组织通常倾向于继续使用该模型,直到它不再提供结果之后才停止。

5. 缺乏领导的支持

有时,领导者缺乏完成机器学习项目所需的耐心和技术信心。虽然他们支持该项目,因为其周围的声望,但他们却很少关注数据的可访问性、准确性、资金和人力资源需求等方面。

要使机器学习项目成功,确保所有人参与 —— 尤其是董事会成员 —— 是非常重要的,因为即使是他们的一个怀疑也可能导致团队的不安,这会在项目启动之前就注定失败。

离别的话

以上就是阻碍机器学习达到企业和行业所需采纳水平的主要挑战。

解决这些挑战的方案通常在于与一个了解新一代技术在非数字化组织中应用的商业和技术影响的熟练机器学习解决方案提供商合作。他们不仅可以帮助你制定如何整合机器学习项目的工作计划,还可以以最优化的方式采用新系统。

个人简介:Sudeep Srivastava 是 Appinventiv 的首席执行官,他以乐观与计算风险的完美结合而闻名,这种特质贯穿于 Appinventiv 的每一个工作流程中。通过建立一个在移动行业中开拓新思路的品牌,他花时间探索如何将 Appinventiv 推向技术与生活融合的巅峰。

相关:

  • 当良好的数据分析未能交付预期结果时

  • 学习构建一个端到端的数据科学项目

  • 想成为数据科学家?不要从机器学习开始

相关阅读

2021 年最佳 6 个数据科学在线课程

原文:www.kdnuggets.com/2021/07/top-6-data-science-online-courses.html

评论

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 Luke Chesser 提供,来自 Unsplash


我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT 工作


对于初学者来说,想要进入数据科学行业,面对大量的信息容易感到不知所措。市场上有数百门数据科学课程,很难知道从哪里开始。

当我决定自学数据科学仅仅一年前,我记得自己感到非常迷茫,因为我不知道从哪里开始。我看到机器学习课程的广告,承诺三天内让我成为专家。我读到一些文章坚持认为,除非我拥有数学硕士学位和统计学博士学位,否则不可能成为数据科学家。信息太多了,意见也有很多冲突。

我终于成功地创建了自己的数据科学路线图,自学了编程和机器学习。我成功进入了行业并找到了数据科学的工作。

每天,至少有一个人问我我是如何做到的,如何从零开始学习数据科学并在行业中找到工作。我做了一些研究,并编制了一份你可以用来学习数据科学的在线课程列表。这些课程的教学大纲很好,会为你提供编程、SQL 和机器学习的坚实基础。我在作为数据科学家的日常工作中几乎使用了这些课程中教授的所有概念。

编程

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 James Harrison 提供,来自 Unsplash

如果你想学习数据科学,首先需要学习编程。如果你没有编程经验,我建议从 Python 开始。

互联网上有大量的资源教你 Python 编程,其中一些包括:

这是一个从零开始的 5 门课程的专门课程。专门课程中的第一门课程称为《编程入门》。在这门课程中,你将学习 Python 的基本知识——语法、条件语句、迭代、函数和变量。

该课程不要求任何先修知识,你不需要有技术或数学背景即可开始学习此课程。

专门课程中的下一个课程将教你数据结构。你将学习如何从文件中读取数据并操作列表和字典等数据结构。

专门课程中的第三门课程教你使用 Python 访问网络数据。你将学习使用 API 从网站中提取数据,并使用 Python 处理这些数据。你还将学习从字符串中提取数据,并使用正则表达式清理数据。

接下来,你将学习如何使用 Python 访问和操作数据库。你将学习使用一个名为 SQLite3 的 Python 库操作 SQL 数据库。无需事先了解 SQL 或数据库,你将从头开始学习所有内容。

最后一门课程是一个综合项目。你将利用在其他课程中学到的所有概念,并在综合项目中构建一个端到端的项目。如果你通过了综合项目,你将获得课程证书。

该课程的最大优点是它教会你许多数据收集和存储技术,这些都是数据科学家必知的。

许多其他 Python 和数据科学课程跳过了这些主题,导致你对如何使用 API 或访问网络数据几乎一无所知。

这门入门 Python 课程分为四个部分——Python 基础、Python 列表、函数和 Numpy。

该课程涵盖了 Python 的所有基础知识,包括变量、数学运算、列表操作和函数。

它还教授了一个名为 Numpy 的库的基础知识,数据科学家常用它来操作数组。

该课程的 Python 基础部分是免费的,因此你可以先尝试这部分课程,看看你是否喜欢。

完成初级 Python 课程后,你可以在 DataCamp 上参加这个中级 Python 课程。

该课程将教你如何在 Python 中创建可视化,操作字典和列表,使用 Pandas 等库工作,并通过逻辑过滤数据框。

本专门课程的第一部分——使用 Matplotlib 进行数据可视化是免费的。你可以在决定是否购买整个课程之前先试用一下。

这门课程的一大优势是它教你数据科学中的 Python。它带你学习数据分析库,如 Pandas 和 Numpy,以及可视化工具,如 Matplotlib。

SQL

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 Caspar Camille Rubin 提供,来源于 Unsplash

我给有志于成为数据科学家的最大建议是学习 SQL。我之前从未认为 SQL 是数据科学的重要部分。然而,当我做第一次数据科学实习时,我做的大部分工作都涉及 SQL 的数据处理知识。

为了学习 SQL,我建议你参加 Coursera 上的 SQL for Data Science 课程。

这是一个为期 4 周的课程,假设你没有任何数据库或编程知识。课程的第一部分从 SQL 的数据选择和检索开始。

然后,你将学习如何使用 SQL 中的运算符来过滤数据。作为数据科学家/分析师,根据客户需求过滤数据是我每天的工作内容,因此这门课程的内容非常重要。

在下一个课程中,你将学习 SQL 中的连接操作。你将学习如何将多个数据库链接在一起。这是一项非常强大的技术。我每天处理大型数据库,常常需要使用连接操作来合并它们。

数据科学

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 Arseny Togulev 提供,来源于 Unsplash

到现在为止,你应该已经学会了编程基础。你也应该了解如何使用 Numpy 和 Pandas 进行数据分析,以及如何使用 Matplotlib 进行数据可视化。

现在,你可以进入机器学习领域。

该课程是 IBM 数据科学专业化的一部分。你可以将其作为独立课程学习,并获得该课程的证书,无需完成整个专业化课程。

这门课程将为你提供对机器学习算法的扎实理解。你将学习构建模型来解决监督式机器学习问题,如回归和分类。你还将学习无监督的机器学习算法,如层次聚类。

与 Andrew Ng 的机器学习专业化相比,参加这个课程的一个巨大优势是该课程完全使用 Python 教学。

这个课程还包括一个最终的总结项目,你需要通过它才能获得证书。

Datacamp 的机器学习课程被分为多个独立的课程——监督式机器学习、无监督机器学习、线性分类器和深度学习。

我建议先参加监督式机器学习课程。该课程的第一部分是免费的,所以可以试试看内容是否对你有用。如果你喜欢,可以考虑注册机器学习课程。

大多数在线机器学习课程仅涵盖不同算法的基础知识。这个 Datacamp 课程的一个主要优势是涵盖了像超参数调整和构建管道这样的主题。

当我在 Udemy 上第一次参加数据科学课程时,我的知识存在很多空白,因为我不理解像参数调整和降维这样的主题。我花了很长时间才找到合适的资源来弥补我的学习差距。

这个 Datacamp 的机器学习课程内容似乎非常全面,涵盖了其他课程通常不教授的很多内容。

概述

上面提到的课程列表将为你提供非常强大的数据处理和机器学习基础。然而,要真正成长为数据科学家,你需要超越这些课程。

在空闲时间开始做数据科学项目。根据这些课程中学到的概念,构建实际应用。你可以访问像 Kaggle 这样的站点,获取公开数据集并建立机器学习算法来对这些数据集进行预测。

参加这些课程将为你提供成为数据科学家所需的技能。你将需要通过参与项目来练习并磨练这些技能。

注意: *本文包含附属链接。这意味着,如果你点击并选择购买我上面链接的课程,你的订阅费用的一小部分将归我所有。**作为创作者,这帮助我成长并继续创造这样的内容。**然而,我只推荐我认为好的课程。上面推荐的课程大纲与我作为数据科学家每天的工作非常契合。*这些课程是我推荐给那些询问如何进入数据行业的人的,我相信它们在你的数据科学之旅中会有用。

感谢你的支持!

个人简介: Natassha Selvaraj正在攻读计算机科学学位,主修数据科学。Natassha 对机器学习领域感兴趣,曾参与过多个相关项目。

相关:

关于此主题的更多内容

数据科学家应该了解 Java 的 6 个主要理由

原文:www.kdnuggets.com/2020/06/top-6-reasons-data-scientists-know-java.html

评论

由 Malcom Ridgers,BairesDev

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传


我们的前三课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业轨道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织 IT


Java 是当今最受需求的编程语言之一。它是一种跨平台、实用且强大的语言。全球的开发者使用 Java 构建应用程序、网络工具和软件开发平台。Java 在机器学习和数据科学中也有重要用途。

如果你是数据科学家,你可能比起 Java 更常使用 Python 和 R。根据最近的调查,只有 21%的人在数据科学中使用 Java, 远低于 Python(83%)或 SQL(44%)。大多数人使用 Python 是因为它的 REPL 功能和快速的算法实验。同时,开发者使用 R 进行数据可视化和表示。

作为数据科学家,你应该知道如何使用 Java,因为它提供了创建商业应用程序的各种服务。如上所述,Java 在机器学习和人工智能领域有许多用途。许多大型公司如 Uber、Spotify 和 Airbnb 都是基于 Java 的。像 BairesDev 这样的软件开发公司 使用 Java 构建和维护业务关键应用程序。

数据科学家应该学习 Java 的理由有很多。主要包括:

1. Java 拥有许多出色的数据科学框架。 这些框架为开发者提供了基本功能,并帮助他们节省时间和金钱。流行的机器学习框架包括:

  • Deeplearning4J - 这是一个开源的 Java 深度学习工具包,用于部署神经网络。它可以与 Hadoop 和 Spark 集成。

  • ND4J - 它代表 N 维数组对象用于 Java。它是一个科学计算、信号处理和线性代数的工具包。它具有内置的库,如 numpy 和 MATLAB。

  • Apache Mahout - 这是一个可扩展的分布式代数框架。它有助于分类、聚类和推荐。

Java 也有许多用于数据处理的框架,包括:

  • Hadoop - 这个框架使用 MapReduce 算法在分布式文件系统中存储数据。

  • Kafka - 它使用基于 TCP 的协议进行消息集合抽象,以自然地将消息分组形成线性写入。

2. Java 易于理解。 大多数开发者在使用 Java 编码时感到自信。除了拥有广泛的用户基础外,Java 还是市场上最受追捧的技能之一,因为公司通常使用它来处理所有快速执行的项目。Java 还是一种遗留语言——即它在全球许多主要应用程序和公司中被使用。

3. Java 具有出色的可扩展性。 大多数开发者使用 Java 创建可以根据业务需求进行扩展的应用程序。如果你的公司正在从零开始构建应用程序,Java 是一个优秀的选择,因为 Java 提供了向上扩展和向外扩展的功能以及负载均衡选项。

作为数据科学家,你会发现用 Java 构建复杂应用程序并扩展它们很容易;例如,ApacheSpark 是一个可以用于扩展的分析工具。它也可以用于构建多线程应用程序。

4. Java 具有独特的语法。 Java 的独特语法因其易于理解而在全球范围内被接受。这种语法使开发者能够理解约定、变量要求和编码方法。Java 是强类型的——即每种数据类型都已预定义在语言结构中,所有变量都必须属于某种数据类型。

大多数主要公司为其代码库维护标准的语法。这样可以确保所有开发者按照生产代码库的约定进行编码。Java 帮助他们自动维护标准约定,开发者可以遵守这些约定。

5. Java 运行迅速。 大多数数据科学家使用 Python 进行数据科学应用。你会惊讶地发现,Java 的速度比 Python 快 25 倍。此外,如果你在寻找能够随时进行多重计算的应用程序,Java 的表现优于 Python。

不仅是处理速度,Java 开发在创建产品时所需的时间也比许多其他语言要少。它可以使用业务特定的开发工具,并拥有大量的 IDE 和成熟的功能来创建大规模的商业应用程序。

6. Java 和 OLTP 系统。 在线事务处理系统(OLTP),与数据仓库一起,通常使用主机系统进行批处理。Java 比其他语言更自然地与这种架构结合。您可以将 Java 与 COBOL 和中间件软件集成。

您还可以将 Java 与 OLTP 标准和架构结合使用。对于那些希望投资于在大规模系统上执行数据分析且具有事务处理设计的应用程序的公司,Java 非常合适。

结论

Java 是一种面向对象的、功能多样且独特的语言,提供大量功能。其卓越的性能和速度使其成为市场上最受欢迎的技能之一。它还提供安全功能、网络中心编程和平台独立性。

对于数据科学家,Java 提供了一系列数据科学功能,如数据分析、数据处理、统计分析、数据可视化和 NLP。Java 可以帮助将机器学习算法应用于实际应用程序。它允许您基于批处理和流处理技术构建自适应和预测模型。加上 REPL 和 Lambda 表达式,它简化了大规模应用程序的创建。

如果您正在考虑将 Java 应用于数据科学项目,请毫不犹豫。这是一种非常适合数据科学家和数据工程师的语言。

简介:Malcom Ridgers 是一位专注于软件外包行业的技术专家。他掌握最新的市场动态,并对创新和技术业务的未来充满敏锐的洞察力。

相关内容:

  • Java 可以用于机器学习和数据科学吗?

  • AI 如何帮助管理传染病

  • 如何将 Kubeflow 添加到您的 Kubernetes 部署中

更多相关话题

提高你在 Snowflake 上的生产力的 6 大工具

原文:www.kdnuggets.com/2023/08/top-6-tools-improve-productivity-snowflake.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

编辑者提供的图片

Snowflake 彻底改变了企业存储、处理和分析数据的方式,提供了无与伦比的灵活性、可扩展性和性能。但像任何强大技术一样,为了真正利用其潜力,拥有合适的工具至关重要。


我们的三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织 IT


本文是你在使用 Snowflake 时提升生产力的 6 大工具指南。无论你是在处理数据、整合各种数据源、创建精美可视化还是得出可操作的见解,这些工具都能提升你的效率和效果。

因此,让我们深入探索这些能将你的 Snowflake 操作提升到新水平的生产力工具。

数据准备工具

1. Datameer

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自Datameer

Datameer 是一个自助数据准备工具,旨在使处理大数据变得更加可管理。它致力于简化过程并节省时间。

特点:

  • 数据发现: Datameer 提供了一个可视化界面,使你更容易探索和理解数据。它的目的是将复杂的内容转变为更易于消化的形式。

  • 数据准备: 使用 Datameer,你可以清理、转换和丰富你的数据,为分析做好准备。最棒的是,你不需要深入复杂的编码或脚本。

  • 数据探索: Datameer 提供了一系列数据可视化工具,允许你与数据互动。其目的是快速有效地获得洞察。

  • 集成: Datameer 可以连接到各种数据源,从传统数据库到复杂的云数据湖。它的目的是将你的所有数据集中在一个地方。

优点:

  • Datameer 的用户友好界面简化了数据发现、准备和探索过程。

  • 其数据准备功能允许你清理、转换和丰富数据,而无需复杂的编码。

  • Datameer 能够与各种数据源集成,提供所有数据的统一视图。

缺点:

  • 尽管 Datameer 提供了广泛的功能,但可能超出了某些小型企业的需求。

定价:

Datameer 的定价 未在其网站上公开,但你可以与他们的团队安排一次快速通话,以获得满足你团队需求的个性化定价。

使用案例:

假设你是一家大公司的数据分析师。你处理来自各种来源的数据,包括传统数据库和复杂的基于云的数据湖。

使用 Datameer,你可以连接这些数据源,准备数据并在一个超级互动的环境中探索数据。关键在于快速获取洞察,做出推动业务前进的数据驱动决策。

视频下面讨论了 Datameer 和 Snowflake 的一些合作情况。

数据可视化工具

2. Tableau

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Tableau 是数据可视化领域的领先工具。它直观的界面和拖放功能使其成为技术用户和非技术用户的友好选择。

Tableau 和 Snowflake 之间的无缝集成使你能够直接从 Snowflake 数据仓库提取数据,将其转化为可操作的洞察。

关键功能:

  • 互动仪表盘: 通过互动仪表盘探索和理解你的数据。

  • 数据混合: 从多个来源混合数据,以获得全面的数据视图。

  • 实时数据分析: 基于最新的数据进行决策,具有实时分析能力。

推荐理由:

Tableau 的用户友好界面和强大的数据可视化能力使其成为希望实现数据访问民主化的企业的绝佳选择。其与 Snowflake 集成带来的流畅数据分析工作流程是另一个重大优点。

定价详情:

Tableau 提供一系列 定价选项,根据你的需求,从每用户每月 70 美元的 Tableau Creator 开始。Tableau Explorer 和 Tableau Viewer 提供更少的功能,价格更低。

学习曲线:

尽管其界面直观,但掌握 Tableau 仍然需要一定的学习曲线。幸运的是,丰富的资源,包括 教程、网络研讨会 和强大的社区,可以帮助用户快速上手。

社区和支持:

Tableau 拥有一个庞大且活跃的用户社区,总是随时准备提供帮助。此外,Tableau 的客户支持也非常出色,提供了全面的知识库、实时支持和专门的支持团队。

用例:

各种规模和行业的企业都转向 Tableau 进行数据可视化。无论是创建交互式仪表板、执行临时分析还是生成报告,Tableau 都能满足你的需求。

数据集成/ETL 工具

3. Fivetran

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 fivetran

Fivetran 是一个基于云的数据集成工具,专注于自动化数据管道。它旨在消除数据集成的麻烦。

功能:

  • 自动化数据管道: Fivetran 负责设置、维护和扩展你的数据管道,就像有一个专属的数据管道经理。

  • 预构建连接器: Fivetran 提供数百个预构建的连接器,使你可以轻松集成来自各种来源的数据,包括 Snowflake。

  • 数据转换: Fivetran 支持在数据仓库内进行数据转换,允许你在数据存储位置直接转换数据。

为何脱颖而出:

  • Fivetran 的自动化数据管道消除了数据集成中的手动工作。

  • 它的预构建连接器使得从各种来源集成数据变得简单。

  • Fivetran 对数据仓库内数据转换的支持可以提高数据处理的效率。

注意事项:

  • Fivetran 的高级功能可能需要初学者适应一段时间。

  • Fivetran 的成本可能成为小型组织或初创企业的障碍。

定价:

Fivetran 的定价是 按使用计费,意味着你只需为每月使用的月活跃行(MAR)付费。他们为任何新的连接器提供 14 天的免费使用期,让你在承诺之前可以预测使用情况和定价。

商业智能工具

4. Looker

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 getapp

Looker 是一个现代的商业智能平台,让你公司中的每个人都能从任何地方做出明智的决策。其核心是通过数据赋能用户。

主要功能:

  • 自助分析: Looker 允许用户通过几次点击实时探索和发现洞察。它的目标是让数据对每个人都可访问。

  • 数据建模: Looker 强大的数据建模层让你可以一次性定义业务指标和逻辑,然后在整个组织中一致使用这些定义。

  • 集成: Looker 与 Snowflake 无缝集成,让你能够利用现有的数据仓库。

你可能喜欢的原因:

Looker 的用户友好界面和强大的数据建模能力使其成为希望民主化数据访问的企业的绝佳选择。此外,其与 Snowflake 的集成确保了顺畅的数据分析工作流程。

定价详情:

Looker 的定价 未在其网站上具体披露,但你可以直接联系他们以获取根据你具体需求的报价。

数据治理工具

数据治理涉及数据的管理和保护,确保数据的可靠性、一致性和可访问性。我们在数据治理工具中寻找的理想特性包括:

  • 它们应提供全面的数据治理能力,包括数据质量、主数据管理、数据隐私和数据目录。

  • 它们应与其他数据平台(包括 Snowflake)无缝集成。

  • 它们应易于使用,使组织能够轻松建立强大的数据治理框架。

这一类工具有很多选择。最受欢迎的包括 Collibra 和 Informatica 等。

5. Collibra

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 productresources

Collibra 是一个全面的数据治理平台,提供管理、治理和理解数据的工具。它旨在帮助组织最大化数据的价值。

Collibra 以其强大的数据治理能力、用户友好的界面和广泛的集成选项(包括 Snowflake)脱颖而出。它是那些希望建立强大数据治理框架的组织的绝佳选择。

Collibra 的定价未在其网站上公开,但你可以 直接联系他们 以获得根据你具体需求的报价。

6. Informatica

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 firsteigen

Informatica 是数据集成软件和服务的领先供应商。它提供了一套数据治理工具,旨在确保数据质量、合规性和安全性。

Informatica 结合其全面的数据治理工具套件和强大的数据集成能力,是那些希望提升数据治理的组织的强大选择。此外,它与 Snowflake 的无缝集成使你能够利用现有的数据仓库。

Informatica 更愿意 直接与客户讨论定价,以提供个性化的报价。

结论

现在你已经了解了可以显著提升你在 Snowflake 上生产力的有用工具。这些工具是全球数据专业人士依赖的工具,用于简化工作流程,从数据中获得洞察,并推动决策制定。

但请记住,虽然这些工具都提供了很棒的功能,但考虑它们如何与 Snowflake 集成也很重要。例如,Datameer,据我所知,可以与 Snowflake 无缝集成。这是因为它是专门为 Snowflake 构建的。

探索这些工具,试用它们的功能,看看哪一款最适合你。当然,我们也很想听听你的经历。

你之前使用过这些工具吗?还有其他你非常推荐的工具吗?在评论区分享你的想法,让我们继续讨论吧!

Ndz Anthony 是一位资深 BI 分析师和导师。他喜欢通过与商业智能和企业分析相关的写作进行教育。

更多相关内容

数据科学初学者的前 6 名 YouTube 系列

原文:www.kdnuggets.com/top-6-youtube-series-for-data-science-beginners

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由编辑提供

学习新技能可能让人感到望而却步,尤其是当你花费大量时间寻找合适的课程、大学学位或训练营时。在你花费一分钱之前,首先使用可用的免费资源。试试看,看看你是否喜欢,在线学习大部分内容后再决定是否进行认证。


我们的前三名课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织在 IT 方面


在这篇文章中,我将介绍每个数据科学初学者都需要收藏的前 X 名 YouTube 系列!

使用 freeCodeCamp 学习 Python

链接: freeCodeCamp

当很多人考虑进入数据科学领域以及学习哪种编程语言时,许多人自然会选择 Python。这是有原因的。它被认为是最好的编程语言之一,并且已经连续多年来名列第一。它包含各种库和框架,并使用易读的代码。

freeCodeCamp 链接的 YouTube 系列是一个 4.5 小时的视频,涵盖了所有内容,让你能够成为 Python 程序员。该视频也提供西班牙语、阿拉伯语、葡萄牙语或印地语版本。

使用 StatQuest 学习统计学

链接: StatQuest

很多训练营有时不会涉及一些对数据科学世界至关重要的元素——统计学就是其中之一。根据个人经验,我进入数据科学领域时对统计学几乎没有理解,因为我的课程从未涉及这方面的内容。我不得不回过头去重新学习很多东西——正确的方式!

在这段旅程中,StatQuest 的 Josh Starmer 让统计学变得有趣且易于学习。统计学对数据科学很重要,也对你的职业发展至关重要。它使你能够更好地理解数据科学是什么以及在创建解决方案时它在整个数据科学工作流程中的重要性。

使用 3Blue1Brown 学习数学

链接: 3Blue1Brown

在学习数据科学的统计/数学方面时,深入一点没有坏处。我这样说是因为这将有利于你的数据科学学习和职业发展。3Blue1Brown是一个以动画形式讲解数学的 YouTube 频道。

频道中有一系列深入探讨线性代数、神经网络和中心极限定理的内容,这将对你的数据科学学习非常有帮助。

使用 DataCamp 进行数据清理

链接:DataCamp

作为一名数据科学家,你将处理大量的数据(这很明显,对吧?)。但在处理数据时,你需要记住,很多数据将会是混乱的,你需要花时间清理数据。这是数据科学工作流程中的第一步,也是非常重要的一步。

在这个与 Data Camp 合作的 YouTube 视频中,你将学习如何获取干净且一致的数据及其不同的技术。实时培训将让你了解你将遇到的数据清理挑战。

使用Krish Naik进行机器学习

链接:Krish Naik

机器学习现在非常热门,而且只会变得更大。在你的数据科学学习旅程中,理解机器学习的复杂性非常重要——这就是为什么我会推荐Krish Naik

这个链接的视频是对机器学习的 6 小时讲解。我不期望你一次性看完,但在这 6 小时的视频中,你将学习到机器学习的不同方面,从线性回归算法到聚类算法。在学习这些内容时,你将开始理解为什么理解统计学在数据科学中很重要——事情会开始变得有意义。

使用 Simplilearn 进行数据可视化

链接:Simplilearn

在处理数据时,你的工作不仅仅是学习如何清理数据和生成决策过程中的输出。作为数据科学家的一部分,你还需要将你的输出转化为数据可视化。这是为了以其他形式呈现数据,并满足那些技术能力不强的利益相关者。

在这个 Simplilearn 的 YouTube 系列中,你将学习如何使用 Matplotlib、Seaborn 和 Bokeh 创建数据可视化。系列结束时,你将通过分析数据并直观地发现模式,成为数据可视化的专家。

总结一下

一旦你掌握了数据科学的这 6 个方面,你将拥有大量知识和技能,继续学习更具特色的领域,如深度学习或自然语言处理。

免费开始你的数据科学之旅,观看这些 YouTube 系列!

****尼莎·阿雅****是一名数据科学家、自由技术写作人员,同时也是 KDnuggets 的编辑和社区经理。她特别关注提供数据科学职业建议或教程以及基于理论的数据科学知识。尼莎涵盖了广泛的主题,并希望探索人工智能如何促进人类寿命的不同方式。作为一个热衷学习的人,尼莎致力于拓宽她的技术知识和写作技能,同时帮助指导他人。

更多相关主题

数据科学领域的前 7 大 VSCode 替代品

原文:www.kdnuggets.com/top-7-alternatives-to-vscode-for-data-science

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者使用 Canva 创建

最初发布于Statology


我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织在 IT 方面


在数据科学和机器学习领域,选择合适的代码编辑器可以显著提高生产力和优化工作流程。以下是一些本地和基于云的 Visual Studio Code 替代品,专门针对数据科学需求。

注意: 各种 IDE 的评价基于我的个人观点和经验。

1. Cursor

Cursor已成为我最喜欢的集成开发环境(IDE)。它具备 VSCode 提供的所有功能。整个代码编辑器为希望快速而准确完成任务的开发者打造,借助 AI 的帮助。Cursor 理解你的代码源,并建议更相关的结果。它比 GitHub Copilot 更出色,拥有许多你会立刻爱上的功能。我在数据科学、机器学习、Python 编程和编写教程中使用过 Cursor。它是我解决代码相关问题的主要工具。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2. Jupyter Notebook

如果你刚开始接触数据科学或已经是该领域的专家,你一定会使用Jupyter Notebook进行日常任务。它被专业人士高度推荐用于撰写数据报告、实验 Python 代码、构建和测试机器学习模型,甚至在生产环境中部署笔记本。它简单且功能丰富,使得数据任务变得容易。现在,Jupyter Notebook 还配备了 AI 助手,可以帮助你生成代码和自动完成。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3. RStudio

如果你在进行数据科学项目时使用 R 语言,那么 RStudio是最佳工具。你可以像使用 Jupyter Notebooks 一样运行 R 笔记本,但功能更强大,并且配备了令人惊叹的功能,让数据可视化和算法测试变得有趣且简单。RStudio 非常适合初学者,如果他们从未使用过任何 IDE。它简单,配备了必要的工具,使你的工作更轻松。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4. Kaggle

Kaggle平台提供了云笔记本,让你可以使用由社区成员分享的数据集、模型和 Python 包来进行数据科学项目。它提供了免费的 GPU 和 TPU 计算,并且提供了无限使用 CPU 计算的机会。你可以保存你的笔记本,与他人分享,甚至参加竞赛赢得奖金。Kaggle 平台的主要优势是其免费访问云笔记本,这使得资源有限的人也能轻松入门数据科学。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

5. Deepnote

Deepnote是一个免费的云笔记本,配备了 AI 工具和多种数据集成。它类似于你的本地 IDE,你几乎可以做任何事情:构建应用,生成数据报告,或实验多种机器学习模型。它是我进行代码和数据相关任务的第二个首选工具。它易于使用,配备了令人惊叹的功能,可以让你成为超级数据科学家。我非常喜欢这个平台,希望你也能尝试一下。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

6. Google Colab

如果你在寻找一个简单的 IDE 来处理机器学习和深度学习任务,那么你应该看看Google Colab。它提供了免费的但有限的 GPU 和 TPU 访问,并提供免费的 AI 代码生成工具。数据专业人士广泛使用它,每个新的数据工具都有教程发布在 Google Colab 上。它简单、快速,拥有足够的功能来构建和测试数据应用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

7. Amazon Sagemaker Studio Lab

如果你想提升你的 Google Colab 使用体验,那么你应该查看一下 Amazon Sagemaker Studio Lab。它每天提供 8 小时的免费 CPU 和 4 小时的 GPU 计算,并且提供了所有 JupyterLab 提供的必要工具。它快速且适用于各种机器学习深度学习任务。你可以用它来构建你梦寐以求的 AI 应用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

结论

选择正确的 IDE 很重要,因为它可以帮助你更快地学习数据科学,并帮助你应对在学习数据科学和机器学习过程中出现的各种问题。如果你想听我的建议,我建议你从 Kaggle 笔记本开始。它提供了一个预先构建的环境,意味着你不需要设置任何东西,并且它配有成千上万的数据集,你可以立即开始使用。它是完全免费的,并且有社区集成。在掌握编程语言后,我建议你考虑尝试其他适合你的替代方案。目前,Cursor 对我来说表现得非常出色,但未来可能会根据我的工作需求而有所变化。

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士,喜欢构建机器学习模型。目前,他专注于内容创作和撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为面临心理疾病困扰的学生构建 AI 产品。

更多相关话题

旅游行业的七大数据科学应用案例

原文:www.kdnuggets.com/2019/02/top-7-data-science-use-cases-travel.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 评论

ActiveWizards 提供

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传


我们的三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升您的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持您的组织 IT 部门


数据科学为许多行业带来了新的奇妙机会。与这些可能性同时出现的还有不断变化和挑战。旅游和旅行行业也不例外。

旅游业目前正处于上升期。这可以解释为其已变得对更广泛的受众可负担得起。因此,目标市场发生了显著变化,比以往更为广泛。这不再是富裕和贵族的特权。此外,旅游和旅行已成为全球趋势。

为满足不断增长的消费者需求并处理大量数据,数据科学算法至关重要。大数据成为航空公司、酒店、预订网站等各类服务提供商在提升服务方面的关键工具。让我们探讨几个在旅游行业中广泛应用且高效的数据科学案例。

个性化营销和客户细分

人们在某种程度上倾向于欣赏旅行体验的个性化。客户细分意味着根据客户的偏好将所有客户分开,并调整服务堆栈以满足每个群体的需求。因此,关键思想是找到一种适用于所有情况的解决方案。个性化则是一个能够为特定人提供具体服务的技巧。因而,个性化使这一过程更加深入。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

个性化营销和客户细分涉及收集用户行为和元数据、CRM 数据、地理位置数据、社交媒体数据,以统一、处理并预测用户未来的偏好。对于旅游行业而言,这些知识至关重要。

客户情感分析

情感分析是无监督学习的一个分支,旨在分析文本数据并识别文本中的情感元素。情感分析使公司所有者或服务提供商能够了解客户对其品牌的真实态度。对于旅行行业来说,客户评价起着重要作用。旅行者通常会阅读在各种网络平台和网站上发布的评论,并据此做出决定。这就是为什么许多现代预订网站将情感分析作为其服务包的一部分,提供给那些希望合作的旅行社、酒店和旅馆。

推荐引擎

一些专家常常将这种用例视为最有效和最有前景的之一。重要的旅行和预订网络平台正在积极使用推荐引擎来进行日常工作。

这些推荐通常是通过将客户的愿望和需求与现有的优惠进行匹配来提供的。一般来说,通过应用数据驱动的推荐引擎解决方案,旅行和旅游公司可以根据之前的搜索和偏好提供租赁交易、替代旅行日期、新的路线、目的地和景点。由于推荐引擎,旅行社和预订服务提供商能够向所有客户提出合适的报价。

路线优化

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

路线优化在旅行和旅游行业中扮演着重要角色。考虑到不同的目的地、时间表、工作时间和距离,旅行规划可能非常具有挑战性。这就是旅行路线优化的意义所在。

这一优化的关键目标如下:

  • 旅行成本最小化

  • 时间管理

  • 距离最小化

因此,旅行路线优化在提升客户满意度方面发挥了重要作用。

旅行支持机器人

如今,旅行机器人正在真正改变旅行行业,通过提供卓越的旅行安排协助和客户支持。一个 AI 驱动的旅行机器人可以回答问题,节省用户的时间和金钱,组织旅行并建议新的访问地点。24/7 的可访问模式和多语言支持使得旅行机器人成为客户支持的最佳解决方案。

这里最重要的一点是,这些机器人不断学习,因此它们每天都变得更聪明,更有帮助。因此,聊天机器人能够解决主要的旅行和旅游任务。将机器人集成到您的网站中将非常有利。像 JetBlue、Marriott、Ryanair、Hyatt、Hipmunk、Kayak、Booking 等许多公司对此深信不疑。

分析

在获得竞争优势方面,公司寻求最大限度地利用大数据。在决策和行动中,旅行和旅游公司在很大程度上依赖于分析。实时分析和预测分析在旅行行业中有许多应用。

实时分析

实时分析在旅游业中最生动的应用之一是旅游分析。旅游预测模型可以预测特定时期和客户群体的旅行活动。它们的主要任务是识别长期和短期的新交易机会。通过分析以往客户的活动、偏好和购买,企业可以预测未来的商业扩展机会。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测分析

预测分析在动态定价和公平预测中得到了应用。动态定价和公平预测的实践在旅游业并不陌生。每年,越来越多的公司采用这一技术来吸引尽可能多的客户。

众所周知,价格会随着季节、天气、供应商以及场所、座位和房间的可用性不断变化。借助智能工具,可以同时监控多个网站上的这些价格变化。自学习算法能够收集历史数据,并考虑所有外部因素来预测未来的价格走势。

例如,在酒店行业,这些算法通常用于完成以下任务:

  • 避免对不需要特别促销的日期进行折扣

  • 提高周末的价格

  • 维护官方网站与第三方订票服务提供商之间的信息相关性。

结论

数据科学正在改变旅游业的面貌。它帮助旅游和旅行企业提供独特的旅行体验和高满意度,同时保持个人化的接触。近年来,数据科学已成为最有前途的技术之一,为各个行业带来了变革。它改变了我们的旅行方式和对旅行安排的态度。本文中介绍的用例只是冰山一角。通过应用数据科学和机器学习提供的各种解决方案,旅行业务可以了解客户的需求和偏好,以提供最佳的服务和优惠。

ActiveWizards 是一个专注于数据项目(大数据、数据科学、机器学习、数据可视化)的数据科学家和工程师团队。核心专长领域包括数据科学(研究、机器学习算法、可视化和工程)、数据可视化(d3.js、Tableau 等)、大数据工程(Hadoop、Spark、Kafka、Cassandra、HBase、MongoDB 等)和数据密集型 Web 应用程序开发(RESTful APIs、Flask、Django、Meteor)。

原文。经许可转载。

相关:

  • 实用的 Apache Spark 10 分钟

  • 2018 年数据科学的前 20 个 Python 库

  • 经理的基础数据科学简介

更多相关内容

信任与安全中的前 7 大数据科学应用案例

原文:www.kdnuggets.com/2019/12/top-7-data-science-use-cases-trust-security.html

评论

ActiveWizards提供

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传


我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业道路

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析水平

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织的 IT


信任和安全是什么?在现代世界中,信任和安全的角色是什么?

我们常常在众多网站和平台上遇到“信任与安全”这个词组。它旨在调节访问者与专家之间的互动,以确保其公平和和平。

从电子商务网站到社交网络,所有平台都需要防止欺诈并为访问者提供高水平的安全性。这些平台尽力赢得访问者的信任。安全可靠的平台预计会被各种各样的人群积极访问,他们渴望沟通、购买、学习等。信任和安全这两个词经常一起使用并不奇怪。这些术语本质上紧密相关。信任是一个多维概念。对品牌、来源等的信任增强了潜在用户的信心和安全感。

欺诈检测

消费者的期望增长极快。所有客户都希望获得优质的体验。因此,建立数字信任和安全对众多服务和产品提供商来说变得至关重要。高层管理人员必须尽力组织一个有效的欺诈管理系统,因为如今保持领先于欺诈变得前所未有的困难。

欺诈和网络犯罪使用先进的技术和方法,这些方法难以检测。改进在线非法活动的复杂机制正在不断发展。多年来建立的客户信任可能在信任违规事件后变成浪费时间。

传统的欺诈检测操作涉及欺诈筛查团队与欺诈检测软件合作,以汇总和整合历史数据。得益于数据科学、算法和 AI 驱动的解决方案,欺诈相关损失的发生率可以最小化。

关于一些现实生活中的例子:

  • Sift Science,全球欺诈检测系统,使用机器学习技术来预测欺诈行为。

  • Yelp、Airbnb 和 Jet.com 使用数据洞察来保护自己免受内容和促销滥用、支付欺诈、虚假账户和账户接管等威胁。

通过应用智能数据技术,声誉风险可以显著降低。前瞻性的组织使用这些创新来检测欺诈、减少退款、进行社区管理和社区监控。

行业知识

增强行业知识带来竞争优势,有助于任何业务的成长。跟踪当前趋势、最新新闻和创新将帮助你确保专业成长和客户信任的高水平。

对个人数据不断增长的需求要求发展策略以提高信任和安全。想一想吧。公司希望客户向他们支付费用并分享个人详细信息,包括信用卡号码等。信任与安全团队已经成为许多公司和组织的组成部分——一个不可避免的部分。这些团队通常关注客户数据保护和防止欺诈活动。

数据科学家作为信任与安全团队的宝贵成员,专注于身份、安全和数字互动问题。数据科学家致力于开发和扩展数据基础设施,进行深入分析,优化统计算法和模型,以提升战略决策。

信任与安全团队努力保护和执行信任与安全策略,解决客户争议,促进金融交易等。他们的职责范围通常取决于公司或组织的类型以及他们所代表的业务领域。

价格优化

公司不再能期望迅速实现高销售。客户在购买习惯和决策上变得越来越复杂。提供的商品和服务种类繁多、质量高、价格优惠对决策过程有重大影响。

价格是一个重要的管理决策。应考虑三种类型的因素:支付意愿、增量利润、目标和约束。智能价格优化包括大数据分析解决方案,帮助预测客户对价格变化的反应,以最大化销售和盈利。

在价格优化中,安全性至关重要。计算的可靠性是最关键的问题之一。这里还提供了对价格螺旋的保护。各种智能预测和警报机制被应用于价格优化范围内,以预测和检测负面影响。

高效的价格优化管理系统使公司在客户眼中更具可靠性。

提升你的技能,与数据科学学校一起学习

了解更多

对人工智能的信任

信任对互动至关重要。对人工智能的信任可以显著改善客户体验。人工智能引擎和算法可以经过训练以执行各种任务,并促进信任与安全的改善过程。

将人工智能引入信任和安全改进过程为公司和组织开辟了新的机会。借助人工智能驱动的软件,他们现在可以在用户进行欺诈之前检测并禁止可疑活动。此外,还出现了禁止来自同一来源的 IP 的选项,如果该来源被视为不可靠。

人工智能模型可以通过内部和外部数据来检测各种因素。因此,公司可以防止支付欺诈、账户接管或账户滥用。此外,人工智能的引入还减少了偏见。研究发现,人工智能解决方案能够检测到 人眼可能忽视的隐性偏见,但这些偏见却可能造成严重问题。数据科学家能够防止偏见渗入他们的算法和模型,同时保留有用的偏见。

机器人

近年来,聊天机器人显著提高,已经达到了在对话过程中难以区分聊天机器人和人类的阶段。聊天机器人广泛存在。因此,每分钟都有大量的个人数据在聊天机器人之间传输。

个人身份信息的收集对于聊天机器人的操作至关重要。因此,它们可能成为攻击或欺诈的对象。在这种情况下,限制和隐私边界必须被精确定义。信任在信托者在很大程度上依赖于受托人的情况下至关重要。聊天机器人的可靠性可以通过信任评分来确定。信任评分是一种交易登记机制,包含成功验证的交易。

此外,聊天机器人还必须处理滥用行为。除了识别来自客户的滥用行为外,聊天机器人还必须避免滥用他人。

网络安全

在现代世界中,设备和数据的连接性增加了风险。为了最小化这些风险,组织投资于信任和安全团队。

信任与安全团队努力提供高水平的客户安全,并消除欺诈活动。信任与安全团队的关键利益之一是政策执行。

网络安全是一个较高层次的问题。网络安全涵盖了更广泛的范围和问题。其关键任务是保护所有有价值的数据。因此,信任和安全以及网络安全是相互依存的。网络安全拥有大量技术和措施以确保数据的完整性、机密性和可用性。对这些技术以及大规模数据管理和存储系统的信任问题比以往任何时候都更为重要。在个人和财务数据安全问题上,风险每天都在增加。公司和组织面临着寻找新方法以提供足够的安全水平和鼓励客户信任的需求。

由 AI 增强的高级安全工具、实时分析功能和预测算法扩大了保护网络攻击的行动范围。

分析

高级和预测分析技术和系统在公司或组织的信任和安全水平上起着重要作用。高级和预测分析已应用于安全的各个方面,并证明了其效率。

适当的数据分析策略可以解决许多问题。例如,预测分析可以用于事件预测和数据驱动的决策。

此外,分析有助于确定信任丧失的地方。大数据分析提供了监控和分析以前公司无法看到的过程的机会。大数据安全工具涵盖了安全信息和事件管理技术以及性能和可用性监控技术。因此,大数据分析工具可以快速发现网络上的设备并支持事件响应工作流程。

结论

我们生活在一个个人数据因各种网站、平台、媒体和网络的活跃使用而变得公开的时代。通过注册、进入不同系统、在线支付等过程获得的数据,对客户和公司都具有极大的价值。此外,这些信息也引起了诈骗者和公司竞争对手的兴趣。

鼓励客户信任并确保安全感在当今是一项具有挑战性的任务。数据科学通过其智能算法、模型和创新方法成为这场战争中的可靠武器。

随着在线互动的增加,对信任和安全的数据驱动工具和技术的投资也在增加。信任和安全措施的重要性比以往任何时候都更加关键。

ActiveWizards 是一个由数据科学家和工程师组成的团队,专注于数据项目(大数据、数据科学、机器学习、数据可视化)。核心专长领域包括数据科学(研究、机器学习算法、可视化和工程)、数据可视化(d3.js、Tableau 等)、大数据工程(Hadoop、Spark、Kafka、Cassandra、HBase、MongoDB 等)以及数据密集型网络应用开发(RESTful APIs、Flask、Django、Meteor)。

原文。经许可转载。

相关内容:

  • 能源和公用事业中的前 10 大数据科学用例

  • 金融领域的前 7 大数据科学用例

  • 营销中的前 8 大数据科学用例

更多相关主题

前 7 大扩散基础应用及演示

原文:www.kdnuggets.com/2022/10/top-7-diffusionbased-applications-demos.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

我每天都会看到新颖而激动人心的扩散基础应用,完全无法停下来。我看到用于艺术生成的 Photoshop 插件、提供 AI 编辑的网络应用、替换照片中对象的软件以及 3D 扩散。DALLE-2Stable Diffusion 模型已经永远改变了 AI 领域。


我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google Cybersecurity Certificate - 快速通道进入网络安全职业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google Data Analytics Professional Certificate - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT Support Professional Certificate - 支持你所在组织的 IT


在这篇博客中,你将了解到使用扩散基础模型的前 7 大应用。我还提到了应用演示的链接,以便你可以免费测试它们。

如今,研究人员正使用多模态技术来提升机器学习模型的能力。你可以从这些应用中学习,并为毕业项目、研究论文和产品研究提出独特的想法。

Diffuse The Rest

Diffuse The Rest 允许你绘制图画,并通过使用提示生成高质量的逼真艺术。在下面的示例中,我绘制了两个圆圈,并写下了提示“神奇的雪人”以生成高质量的艺术作品。

你甚至可以深入添加更多的线条和颜色,以获得更好的效果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图像来自 HuggingFace Spaces 演示

Stable Diffusion For Videos

Stable Diffusion For Videos 是一个令人惊叹的项目,它接收两个或更多提示并将其融合以创建视频。它看起来非常真实。它通过探索潜在空间并在文本提示之间变形来构建视频。

你可以在 Hugging Face SpaceReplicate 上测试,或者在 Google Colab 上运行。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

动图来自 Replicate 演示

潜在扩散

Latent Diffusion 是另一种 OG 文本到图像的 Stable Diffusion 模型版本。演示提供了更多的配置能力,如图像大小、图像质量和多样性尺度。对于初学者,你需要写一个描述性的提示,以生成高质量的图像。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 HuggingFace Spaces 演示

Stable Diffusion Infinity

Stable Diffusion Infinity 允许你使用窗口和提示来扩展你的图像或艺术作品。如你所见,创作者生成了连衣裙,并扩展了空间以增加深度。

你应该亲自尝试一下。

这只是一个单一示例。你还可以上传多张图像并尝试将它们融合。如果你在提示中什么也不写,它会自动填充该区域。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

动图来自 lkwq007/stablediffusion-infinity

Stable Diffusion Conceptualizer

一个 Stable Diffusion Conceptualizer 使用提示和风格标签生成具有特定艺术风格的图像。你可以浏览所有不同的风格,将标签复制粘贴到你的提示中,创造出杰作。我玩各种艺术风格时乐趣无穷。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 HuggingFace Spaces 演示

Runway Inpainting

Runway Inpainting 是一个简单但强大的工具,可以删除或替换图像中的对象。它挑战了 Photoshop 的主导地位。你可以通过高亮和编写提示来编辑图像。

如你所见,我已经将男人的脸换成了狮子。效果很干净。你可以去掉帽子、替换鞋子,或者在图像中添加对象。图像编辑的可能性是无限的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源于 HuggingFace Spaces 演示

Whisper To Stable Diffusion

Whisper To Stable Diffusion 是一个方便的工具,用于将语音转换为文本,并利用其生成图像。你甚至可以编辑预测文本以重新运行扩散模型推理。

不用编写长篇提示,你可以直接表达想法,它会为你生成高质量的图像。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自 HuggingFace Spaces 演示的图像

希望你喜欢我关于基于扩散的应用的简短但有趣的博客。

在接下来的几周里,你将找到以下新且更好的应用:

  1. 提示到提示的图像编辑

  2. 使用 2D 扩散的文本到 3D 转换

  3. 3D 形状生成的扩散模型

  4. 人体动作扩散应用

  5. 基于扩散的序列到序列文本生成

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作并撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络构建一个 AI 产品,帮助那些面临心理健康困扰的学生。

更多相关话题

猜你喜欢

转载自blog.csdn.net/wizardforcel/article/details/143443753