KDNuggets 博客中文翻译（二百零五）

原文：KDNuggets

协议：CC BY-NC-SA 4.0

为什么数据库表的物理存储可能很重要

原文：www.kdnuggets.com/2019/05/physical-storage-database-tables-might-matter.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 comments

由 Apoorva Aggarwal 提供，Grofers 的机器学习和数据工程师

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在简化和丰富我们用户的在线购物体验的过程中，我们尝试为每位用户提供个性化的商品推荐。为此，我们以批处理模式操作，预计算了每个用户的相关前 200 项推荐，并将结果存储在我们的 OLTP PostgreSQL 数据库中的一张表里，以便实时提供这些推荐。对此表的查询时间过长，导致用户体验不佳。

缩小问题范围

为所有曾经在我们平台上交易的用户预计算了推荐，表的大小接近 12 GB。使用简单的 SELECT 查询从这张表中检索推荐。

db=> SELECT *
FROM personalized_recommendations 
WHERE customer_id = 1;
...

db=> \d personalized_recommendations
           Table "public.personalized_recommendations"
    Column    |       Type       | Collation | Nullable | Default
--------------+------------------+-----------+----------+---------
 customer_id  | integer          |           | not null |
 product_id   | integer          |           | not null |
 score        | double precision |           | not null |
 ...
Indexes:
    "personalized_recommendations_temp_customer_id_idx1" btree (customer_id)

在 customer_id 列上创建了 BTree 索引以实现更快的查找。但即便如此，有时查询时间仍然大约为 ~1 s。

查看查询计划：

EXPLAIN ANALYZE 
SELECT * 
FROM personalized_recommendations 
WHERE customer_id = 25001;

QUERY PLAN
— — — — — — — — — — — — —
Index Scan using personalized_recommendations_temp_customer_id_idx on personalized_recommendations (cost=0.57..863.90 rows=214 width=38) (actual time=10.372..110.246 rows=201 loops=1)
 Index Cond: (customer_id = 25001)
Planning time: 0.066 ms
Execution time: 110.335 ms

隔离原因

尽管查询规划器使用了创建的索引，查询时间仍然非常长。这迫使我们深入探讨“索引”究竟意味着什么？索引如何帮助更快地获取查询结果？让我们重新审视索引的基本构造。

PostgreSQL 默认索引类型是 BTree，它由索引条目的 BTree 或平衡树和存储索引条目物理地址的索引叶节点组成。

索引查找需要三个步骤：

树遍历
跟随叶子节点链
获取表数据

上述步骤详细解释这里。

树遍历是访问块数量有上限的唯一步骤——即索引深度。其他两个步骤可能需要访问许多块——它们的上限可以大到完全表扫描的程度。¹

索引扫描执行 B-tree 遍历，遍历叶子节点以查找所有匹配的条目，并提取对应的表数据。这类似于 INDEX RANGE SCAN 随后进行 TABLE ACCESS BY INDEX ROWID 操作。

跟随叶子节点链需要获取符合 customer_id 条件的 ROWID：在我们的案例中，它的最大限制是 200 个行 ID。由于这些索引叶节点以排序方式存储，它们的访问上限由这条链的长度或表中的总行数决定。

下一步是TABLE ACCESS BY INDEX ROWID操作。它使用ROWID从前一步获取所有列的行。从表中检索行时，数据库引擎必须逐个获取行，访问页面中的每条记录，并将其加载到内存中进行检索。除了读取操作外，还涉及随机访问 IO。

我们决定可能值得查看这些查询结果行在物理内存中的分布。在 postgres 中，行的位置由ctid给出，它是一个元组。ctid的类型是tid（元组标识符），在 C 代码中称为ItemPointer。根据文档：

这是系统列*ctid*的数据类型。一个元组 ID 是一个（块编号，块内元组索引）对，标识了表中行的物理位置。

分布情况如下：

customer_id | product_id | ctid
 — — — — — — -+ — — — — — — 
 1254 | 284670 | (3789,28)
 1254 | 18934 | (7071,73)
 1254 | 14795 | (8033,19)
 1254 | 10908 | (9591,60)
 1254 | 95032 | (11017,83)
 1254 | 318562 | (11134,65)
 1254 | 18854 | (11275,54)
 1254 | 109943 | (11827,76)
 1254 | 105 | (16309,104)
 1254 | 3896 | (18432,8)
 1254 | 3890 | (20062,90)
 1254 | 318550 | (20488,84)
 1254 | 37261 | (20585,62)
 ...

显然，特定客户 ID 的行在磁盘上相距很远。这似乎解释了包含customer_id的 WHERE 子句查询的高执行时间。数据库引擎正在访问磁盘上的页面以检索每一行。随机访问 IO 很高。如果我们能将特定客户的所有行放在一起会怎样？如果做到这一点，数据库引擎可能能够一次性检索结果集中的所有行。

可能的根本原因及可行性探索

Postgres 提供了一个[CLUSTER](https://www.postgresql.org/docs/9.1/static/sql-cluster.html)命令，它根据给定的列在磁盘上物理地重新排列行。但是，由于需要在表上获取 READ WRITE 锁并且需要 2.5 倍的表大小，这使得使用起来很棘手。我们开始探索是否可以按客户 ID 行的排序方式写入表。写入这些行的应用程序是一个使用协同过滤算法来推导推荐产品的 Spark 应用程序。

试图从源头解决问题

了解 Spark 如何写入表

这个问题要求我们深入探讨 Spark 如何写入 Postgres。它是按[partition](https://jaceklaskowski.gitbooks.io/mastering-apache-spark/spark-rdd-partitions.html)分区的。那么，这个分区是什么呢？

Spark 作为一个分布式计算框架，将特定的数据框分配到其工作节点的分区中。它允许你根据分区键显式地对数据框进行分区，以确保最小化数据的重新分布（将分区从一个工作节点转移到另一个节点进行读取/写入操作）。通过代码我们发现，我们在特定的转换操作中对product_id进行了分区。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Spark 数据框的分区。注意包含特定产品 ID 的行位于一个分区中

这意味着写入我们 Postgres 表的数据应该按product_id分类，即所有推荐为特定产品 ID 的客户 ID 的行应该被聚集在一起。我们通过查看以下结果来测试我们的假设：

SELECT *, ctid FROM personalized_recommendations WHERE product_id = 284670
 product_id | customer_id |   ctid
------------+-------------+----------
     284670 |        1133 | (479502,71)
     284670 |        2488 | (479502,72)
     284670 |        3657 | (479502,73)
     284670 |        2923 | (479502,74)
     284670 |        6911 | (479502,75)
     284670 |        9018 | (479502,76)
     284670 |        4263 | (479502,77)
     284670 |        1331 | (479502,78)
     284670 |        3242 | (479502,79)
     284670 |        3661 | (479502,80)
     284670 |        9867 | (479502,81)
     284670 |        7066 | (479502,82)
     284670 |       10267 | (479502,83)
     284670 |        7499 | (479502,84)
     284670 |        8011 | (479502,85)

确实，表中所有特定产品 ID 的行都在一起。所以如果我们改为按customer_id分区，我们的目标就是将所有属于一个customer_id的结果行集中在一起。这可以通过重新分区数据框来实现。这个帖子详细讨论了重新分区。

尝试对齐数据

我们按以下方式重新分区了数据框：

df.repartition($”customer_id”)

然后将最终的数据框写入 Postgres。现在我们检查了行的分布情况。

db=> SELECT product_id,customer_id,ctid FROM personalized_recommendations WHERE customer_id = 28460
limit 20;
 customer_id | product_id | ctid
 — — — — — — + — — — — — — -+ — — — — — 
 28460 | 1133 | (0,24)
 28460 | 2488 | (4,7)
 28460 | 3657 | (9,83)
 28460 | 2923 | (18,54)
 28460 | 6911 | (20,42)
 28460 | 9018 | (31,59)
 28460 | 4263 | (35,79)
 28460 | 1331 | (38,14)
 28460 | 3242 | (40,41)
 28460 | 3661 | (55,105)
 28460 | 9867 | (57,21)
 28460 | 7066 | (61,28)
 28460 | 10267 | (62,63)
 28460 | 7499 | (66,8)

可惜的是，表仍然没有以customer_id为中心进行透视。我们做错了什么？

显然，数据重新排列的默认分区数量是 200。但由于不同的客户 ID 数量超过了 200（约 1000 万），这意味着单个分区将包含超过 1 个客户的推荐产品，如下图所示。在这种情况下，接近（~1000 万/200=50,000）个客户。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

重新分区的数据框。注意一个产品 ID 的所有行都在一个分区中

当这个特定的分区写入数据库时，这仍然不能确保所有属于一个customer_id的行被一起写入。于是我们在分区内按customer_id对行进行了排序：

df.repartition($”customer_id”).sortWithinPartitions($”customer_id”)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分区后按customer_id键排序的数据框

对 Spark 来说，这是一项昂贵的操作，但对我们来说却是必要的。我们进行了这项操作，并再次写入数据库。接下来，我们检查了分布情况。

customer_id | product_id | ctid
 — — — — — — -+ — — — — — — + — — — — — -
 1254 | 284670 | (212,95)
 1254 | 18854 | (212,96)
 1254 | 18850 | (212,97)
 1254 | 318560 | (212,98)
 1254 | 318562 | (212,99)
 1254 | 318561 | (212,100)
 1254 | 10732 | (212,101)
 1254 | 108 | (212,102)
 1254 | 11237 | (212,103)
 1254 | 318058 | (212,104)
 1254 | 38282 | (212,105)
 1254 | 3884 | (212,106)
 1254 | 31 | (212,107)
 1254 | 318609 | (215,1)
 1254 | 2 | (215,2)
 1254 | 240846 | (215,3)
 1254 | 197964 | (215,4)
 1254 | 232970 | (215,5)
 1254 | 124472 | (215,6)
 1254 | 19481 | (215,7)
 …

看！现在它以customer_id为中心（喜极而泣：,-)）。

测试解决方案

最终的测试仍然存在。查询执行现在是否会更快？让我们看看查询规划器怎么说。

EXPLAIN ANALYZE 
SELECT * 
FROM personalized_recommendations 
WHERE customer_id = 25001;

QUERY PLAN

Bitmap Heap Scan on personalized_recommendations(cost=66.87..13129.94 rows=3394 width=38) (actual time=2.843..3.259 rows=201 loops=1)
 Recheck Cond: (customer_id = 25001)
 Heap Blocks: exact=2
 -> Bitmap Index Scan on personalized_recommendations_temp_customer_id_idx (cost=0.00..66.02 rows=3394 width=0) (actual time=1.995..1.995 rows=201 loops=1)
 Index Cond: (customer_id = 25001)
 Planning time: 0.067 ms
 Execution time: 3.322 ms

执行时间从~100 毫秒降至~3 毫秒。

这种优化确实帮助我们使用个性化推荐服务各种用例，如为超过 20 万用户的不断增长的消费群体生成定向广告推送等。首次启动时，数据的大小约为 12 GB。现在过去一年，它增长到了约 22GB，但重新排列表中的记录有助于将数据库检索延迟保持到最低。虽然现在生成这些推荐、排列数据框和写入数据库所需的时间增加了很多倍，但由于这些操作是在批处理模式下进行的，因此仍然可以接受。

随着平台用户规模的增长，数据也在每天增长，处理这些数据并使其对数据驱动的决策有用的挑战也在增加。如果你喜欢在大规模下解决类似问题，我们始终在寻找新的人才。可以在这里查看空缺职位。

脚注：

[1]. use-the-index-luke.com/sql/anatomy/slow-indexes

个人简介： Apoorva Aggarwal 是 Grofers 的机器学习和数据工程师。

最初发布于 Grofers 工程博客。经许可转载。

相关：

掌握 SQL 的 7 个步骤 — 2019 版
PostgreSQL 查询优化的简单技巧
将 PB 级数据从 Postgres 加载到 BigQuery

我们的 3 个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升您的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持您的组织进行 IT

如何将物理学教给机器学习模型？

原文：www.kdnuggets.com/2019/05/physics-machine-learning-models.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传评论

由Vegard Flovik，Axbit AS 首席数据科学家

在我的其他文章中，我讨论了诸如：异常检测和状态监测的机器学习、机器学习如何用于生产优化以及如何避免机器学习在时间序列预测中的常见陷阱等主题。

但你知道吗，你也可以将机器学习和基于物理的建模结合起来？在这里，我将描述如何做到这一点，以及如何“教物理学”给机器学习模型。

机器学习与基于物理的建模

作为一名物理学家，我喜欢创建数学模型来描述我们周围的世界。通过足够的信息，一个制作良好的基于物理的模型使我们能够理解复杂的过程并预测未来的事件。这些模型已经在我们现代社会中广泛应用于各种不同的过程，比如预测大型火箭的轨道或纳米级物体的行为，这些物体是现代电子学的核心。

预测能力也是机器学习（ML）的重要应用之一。一个常见的关键问题是如何在基于物理的模型和数据驱动的 ML 模型之间做出选择。答案取决于你想解决的问题。在这种情况下，主要有两类问题：

1) 我们对系统没有直接的理论知识，但我们有大量关于其行为的实验数据。

比如说，如果你对一个系统的行为没有直接的了解，你就无法制定任何数学模型来描述它并做出准确的预测。

幸运的是，一切并非丧失。如果你有大量的例子结果，你可以使用基于 ML 的模型。只要有足够的例子结果（训练数据），一个 ML 模型应该能够学习你所拥有的关于系统的信息（输入变量）与你希望预测的结果（输出变量）之间的任何潜在模式。

一个例子可能是预测一个城市的房价。如果你有足够多的类似房子的售价样本，你应该能够对一套待售房子的价格做出合理的预测。

2) 我们对系统有很好的理解，并且也能用数学来描述它。

如果一个问题可以用基于物理的模型很好地描述，这种方法通常是一个好的解决方案。

这并不意味着机器学习对任何可以用基于物理的建模描述的问题毫无用处。相反，将物理与机器学习结合在混合建模方案中是一个非常激动人心的前景。实际上，它如此激动人心，以至于正在深入研究。与我的工作相关，我最近也在深入探索机器学习与基于物理的建模之间的交集。

混合分析：结合机器学习和基于物理的建模

即使一个系统在原则上可以用基于物理的模型来描述，这也不意味着机器学习的方法不起作用。机器学习模型通过经验学习的能力意味着它们也可以学习物理：给定足够的物理系统行为的例子，机器学习模型可以学习这种行为并做出准确的预测。

这种通过经验而非数学方程学习物理的能力对许多人来说是熟悉的，尽管我们可能没有意识到。例如，如果你曾经踢过足球，你可能会尝试完美射门。为了做到这一点，你必须准确预测球的轨迹。这是一个相当复杂的物理问题，包括几个变量，如踢球的力量、脚的角度、球的重量、空气阻力、草地的摩擦等等。

然而，当一名足球运动员踢球时，这并不是因为他在短短一秒钟内进行了复杂的物理计算。相反，他从经验中学到了正确的动作，并对完美的射门有了直觉。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(插图来源：Deviant Art)

机器学习模型或算法从经验中学习的事实在原则上类似于人类的学习方式。一类名为人工神经网络的机器学习模型是受大脑如何处理信息和从经验中学习的启发而创建的计算系统。

这种从经验中学习的能力也激励了我和我的同事尝试教机器学习模型物理：我们不是使用数学方程，而是通过向模型展示输入变量和正确解决方案的例子来训练它。

为什么在我们已经有基于物理的模型时还要使用机器学习？

一个重要的问题是，当我们有一个能够描述相关系统的基于物理的模型时，我们为什么还要实施基于机器学习的方法。

其中一个关键方面是模型的计算成本：我们可能能够使用基于物理的模型详细描述系统。但解决这个模型可能复杂且耗时。因此，如果我们希望建立一个能够对实时数据进行预测的模型，基于物理的方法可能会崩溃。

在这种情况下，基于机器学习的更简单模型可能是一个选项。机器学习模型的计算复杂度主要体现在训练阶段。一旦模型完成训练，对新数据进行预测是直接的。这就是结合机器学习和基于物理建模的混合方法变得非常有趣的地方。

通过混合建模方案进行虚拟流量计量

例如，我们考虑了这种方法用于油井中的虚拟流量计量任务，如下图所示。多个传感器可以提供井下的温度和压力测量值 P_dh, T_dh，以及井口上游的 P_uc, T_uc 和下游的 P_dc, T_dc。我们要解决的问题是油、气和水的流量如何依赖于这些测量值：即描述多相流速的函数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是一个复杂的建模任务，但使用最先进的模拟工具，我们可以以高精度完成这项任务。

该模型捕捉了来自生产井的油、气和水的多相流的热力学和流体力学。利用这一点，我们可以生成大量模拟训练数据用于机器学习模型，并将其与来自实际井的数据相结合。

这种方法的优势在于，我们可以离线执行所有计算密集型的部分，在那里进行快速的实时预测不是问题。通过从基于物理的模型生成大量训练数据，我们可以教会机器学习模型问题的物理特性。

训练好的机器学习模型可以仅使用来自实际井的传感器测量值，即压力和温度，同时预测油、气和水的流量。更重要的是，它可以在不到一秒的时间内做出这些预测，使其成为处理生产井实时数据的理想应用。

这种方法使我们能够为生产设施上的所有井实现虚拟多相流量计。我相信它将成为监测和生产优化的极其宝贵的工具。

你认为还有哪些领域会从机器学习中受益？

我相信，未来机器学习将会以我们今天难以想象的方式被广泛应用。你认为它会对各个行业产生怎样的影响？我很期待在下方评论区看到你的想法。

简介：Vegard Flovik 是 Axbit As 的首席数据科学家。

原文。经许可转载。

相关内容：

我们的 3 大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业的快车道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你组织的 IT 工作

挑选示例以理解机器学习模型

原文：www.kdnuggets.com/2022/11/picking-examples-understand-machine-learning-model.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 Skylar Zilka 提供，来源于 Unsplash

评估模型的相关性不仅仅是测量其性能。了解模型如何得出这些预测结果也很重要，这有助于更好地理解模型，向非数据专家解释其工作原理，检查偏差和模型一致性，以及调试等。

我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 工作

机器学习模型可以通过局部可解释性或全局可解释性来解释。

在本文中，我们将通过结合可解释性和样本挑选来采用一种互补方法。

样本挑选 是一个具有巨大附加值的过程，有助于更好地理解模型及其优缺点。为了解释这种方法，我们将回答三个问题：

为什么选择样本？你想分析什么样的样本？在这些样本中分析什么？

局部和全局可解释性

在此之前，让我们简要回顾一下局部和全局可解释性的概念。

经典的局部可解释性形式是基于权重的方法。

通过分解机器学习模型中每个特征的权重来解释给定样本的预测。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

全局可解释性包括测量特征对模型预测的重要性。这种可解释性通常如下所示：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

现在我们已经快速介绍了可解释性的概念，让我们回到关于挑选的疑问。

为了说明这一点，我们使用了Shapash，这是一个关于可解释性的开源 Python 库。你可以在这篇文章中找到 Shapash 的一般介绍。

下面的插图基于著名的 Kaggle 数据集：“泰坦尼克号”（用于分类）和**“房价”**（用于回归）。

为什么选择样本？

解释模型如何工作以及单个示例或子人群的特征。

例如，我们可以以基于这些特征的房价回归模型为例。

你将能够向买家解释为什么房子会被定价在这个价格。或者模型如何估计面积更大的房子，位于特定社区，并且是用木头建造的。

为了更好地理解错误预测

这可能会引发以下问题：问题是否出在数据质量上？

如果我们有一个非常低的实际价格，而我们估计它会更高，因为房子的面积很大，这可能会质疑“Surface”特征的质量。

额外的特征能改善预测吗？

如果房地产代理提供了买家最喜欢的文本描述。即使在预测时没有这个文本变量，我们也可以用它来交叉验证样本上的预测错误与买家的反馈。

为了说明模型的正确预测

我们可以通过示例来解释机器学习模型的预测。当最相关的示例被突出显示时，这一过程更容易。

选择样本以进行数据质量验证或验证结果

作为数据科学家，你可以对模型应该估计的一些销售价格有个大致了解。探索其局部可解释性也会给你提供潜在的理由来合理化估计。然后你可以观察你自己的想法与局部可解释性之间的差异。基于此，你可能会验证或不验证数据质量、模型预测以及可解释性。

与熟悉使用案例的专家一起研究示例。

通过选择销售数据，你将能够与房地产代理一起查看他对价格预测和特征对价格重要性的看法。

你想分析什么样的样本？

可以分析：

原始模型预测
正确预测/错误（通过将预测与已知目标状态关联）
一个子集，根据模型预测的输出概率、待预测目标、解释特征的值

为什么不选择随机样本？

为了节省时间并获得全面的视角，由于我们通常不会评估数百个样本，随机选择可能最终随机选择到类似的样本，从而可能会错过潜在的有趣案例。

数据选择：如何轻松可靠地选择有意义的示例？

自Shapash 版本 2.2.0以来，你可以通过绘制每个样本的模型概率，以其真实标签为函数来识别这些样本，例如：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1 作者提供的图像

对于模型输出概率在 0 和 1 之间的二分类问题，我们可以选择一个预测良好的类别 1 样本。在这种情况下，这个类别 1 样本显示了一个如预期的高概率（如图 1 示例 A 所示）。

相反，我们也可以选择一个错误预测的类别 1 样本。这里这个样本应被预测为 0，但其在类别 1 的概率很高（如图 1 示例 B 所示）。

对于回归分析，将预测值与真实值绘制在一起有助于直接识别和研究模型返回的最佳或最差预测。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2 作者提供的图像

选择子集可以使理解群体行为变得更加容易：

对于二分类问题，子集可以集中在所有被预测为类别 1 但实际上是类别 0 的点（即“假阴性”子群体）。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图像

对于回归分析，关注一组估计良好、过度或不足估计的值可能是有趣的。

你还可以根据解释变量的特征选择一个子集。

例如，在房价问题上，你可以选择建筑日期在 2000 年之后的房屋，或者根据房屋的位置进行选择。

在这些样本中要分析什么？

当你想解释一个单独的样本时，查看其局部可解释性是很有意义的。

例如，使用 shapash webapp，你可以在本地图中选择一个你想分析的样本：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图像

索引为“206”的样本的生存概率为 0.99，但其真实标签是“死亡”。对于这个个体，局部可解释性表明，该概率主要由年龄（2 岁）和性别（女性）决定。

相反，索引为“571”的样本的生存概率为 0.005，但其真实标签是“生存”。在这里，局部可解释性再次表明，该概率主要由年龄（62 岁）和性别（男性）决定。

在这两种情况下，与模型的全局功能相关，我们理解模型出现错误是正常的。例如，检查“年龄”数据是否正确收集，或者询问是否有其他数据可以解释为什么年长的男性幸存下来。我们也可以思考这些类型的个体是否在数据集中经常出现。确实，如果只有少量示例，模型将无法有效学习可靠的规则。

在其他情况下，可能有助于质疑数据选择、数据质量或是否需要收集其他特征。

当你想了解一个子群体时，你可以查看该子群体的全局可解释性，并将其与全局人口进行比较。

例如，如果你想在这个应用中放大“假阴性”：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

你可以查看子集的特征重要性是否与整体人口相似。

对于“假阴性”子群体，“性别”特征对预测的影响（灰色 vs 黄色条形图）有所下降。这可能是由于女性在这个子集中代表性不足。由于“性别”特征的影响减小，其他特征开始发挥作用。我们可以看到许多错误预测依赖于“年龄”变量，对于 20 至 30 岁之间的个体。

选择子集而非单一样本的优点在于，我们可以推广错误或正确的预测，特别是查看它们在整个群体中的全局可解释性。

在这个例子中，额外的特征可能有助于更好地分类二十多岁的男性。

结论

选择 单一样本 或子集是一种补充的方法，有助于数据科学家理解他们的模型。

这些方法可以作为强大的工具来向非数据技术人员解释模型。它提供了对样本预测的可靠解释，以说明模型的工作原理。

子群体也可以通过聚类方法进行描述和定性分析。

如果你使用选择技术来帮助理解模型，请随时在评论中解释！

托马斯·布施 是 MAIF 的数据科学家。

Pip Install YOU: 创建 Python 库的初学者指南

原文：www.kdnuggets.com/pip-install-you-a-beginners-guide-to-creating-your-python-library

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者 | Canva

作为程序员，我们经常依赖各种外部库来解决不同的问题。这些库由技术娴熟的开发者创建，提供节省时间和精力的解决方案。但你是否想过，“我也可以创建自己的库吗？” 答案是肯定的！本文解释了完成这一目标的必要步骤，无论你是专业开发者还是刚入门。从编写和结构化代码到文档和发布，本指南涵盖了所有内容。

我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速入门网络安全职业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你组织的 IT

创建库的逐步指南

第 1 步：初始化你的项目

首先为你的项目创建一个根目录。

multiples_library/

第 2 步：为你的包创建目录

multiples_library/
└──multiples/

第 3 步：添加 `init.py`

现在，在你的包目录中添加 __init.py__ 文件。这个文件是 Python 识别其所在目录是一个包的主要标志。它包含初始化代码（如果有的话），并在包或其任何模块被导入时自动执行。

multiples_library/
└── multiples/
    └──__init__.py

第 4 步：添加模块

现在，你需要将模块添加到包的目录中。这些模块通常包括类和函数。给每个模块一个描述其目的的有意义名称是一种良好的实践。

multiples_library/
│
└── multiples/
    ├── __init__.py
    ├── is_multiple_of_two.py
    └── is_multiple_of_five.py

第 5 步：编写模块

在这一步，你需要定义每个模块的功能。例如，在我的案例中：

模块：multiple_of_two.py

def is_multiple_of_two(number):
    """ Check if a number is a multiple of two. """
    return number % 2 == 0

模块：multiple_of_five.py

def is_multiple_of_five(number):
    """ Check if a number is a multiple of five. """
    return number % 5 == 0

第 6 步：添加 setup.py

下一步是向你的包目录中添加另一个名为 setup.py 的文件。

multiples_library/
│
├── multiples/
│   ├── __init__.py
│   ├── is_multiple_of_two.py
│   └── is_multiple_of_five.py
│
└──setup.py

该文件包含有关你的包的元数据，如名称、依赖项、作者、版本、描述等。它还定义了要包含的模块，并提供了构建和安装包的说明。

from setuptools import setup, find_packages

setup(
    name='multiples_library',  # Replace with your package’s name
    version='0.1.0',
    packages=find_packages(),
    install_requires=[
        # List your dependencies here
    ],
    author='Your name',  
    author_email='Your e-mail',
    description='A library for checking multiples of 2 and 5.',
    classifiers=[
        'Programming Language :: Python :: 3',
        'License :: OSI Approved :: MIT License',  # License type
        'Operating System :: OS Independent',
    ],
    python_requires='>=3.6',

)

第 7 步：添加测试及其他文件 [可选]

这一步不是必需的，但如果你想构建一个没有错误且专业的库，这是一种良好的实践。在这一步，项目结构是最终的，看起来有些像这样：

multiples_library/
│
├── multiples/
│   ├── __init__.py
│   ├── is_multiple_of_two.py
│   └── is_multiple_of_five.py
│
│
├── tests/ 
│   ├── __init__.py   
│   ├── test_is_multiple_of_two.py
│   └── test_is_multiple_of_five.py
│
├── docs/
│
├── LICENSE.txt
├── CHANGES.txt
├── README.md
├── setup.py
└── requirements.txt

现在我将向你解释根目录中提到的可选文件和文件夹的目的：

tests/: 包含你的库的测试用例，以确保它按预期运行。
docs/: 包含你的库的文档。
**LICENSE.txt：**包含其他人使用你代码的许可条款。
**CHANGES.txt：**记录对库的更改。
**README.md：**包含你的包的描述和安装说明。
requirements.txt：列出了你的库所需的外部依赖项，你可以通过单个命令 (pip install -r requirements.txt) 安装这些包。

这些描述相当直接，你很快就能理解可选文件和文件夹的目的。不过，我想稍微讨论一下可选的测试目录，以澄清其用法。

tests/ 目录

重要的是要注意，你可以在根目录中添加一个测试目录，即 \multiples_library，或者在包的目录中，即 \multiples。选择权在你，但我喜欢把它放在根目录的顶层，因为我认为这样更好地模块化你的代码。

有几个库可以帮助你编写测试用例。我将使用最著名的且我个人最喜欢的“unittest”。

is_multiple_of_two 的单元测试

该模块的测试用例包含在 test_is_multiple_of_two.py 文件中。

import unittest
import sys
import os

sys.path.insert(0, os.path.abspath(os.path.join(os.path.dirname(__file__), '..')))

from multiples.is_multiple_of_two import is_multiple_of_two

class TestIsMultipleOfTwo(unittest.TestCase):

	def test_is_multiple_of_two(self):
		self.assertTrue(is_multiple_of_two(4))
if __name__ == '__main__': 
      unittest.main()

is_multiple_of_five 的单元测试

该模块的测试用例包含在 test_is_multiple_of_five.py 文件中。

import unittest
import sys
import os
sys.path.insert(0, os.path.abspath(os.path.join(os.path.dirname(__file__), '..')))

from multiples.is_multiple_of_five import is_multiple_of_five

class TestIsMultipleOfFive(unittest.TestCase):

	def test_is_multiple_of_five(self):
		self.assertTrue(is_multiple_of_five(75)) 

if __name__ == '__main__':
      unittest.main()

上述单元测试相当直接，但我将解释两个函数以进一步澄清。

self.assertTrue(expression) 检查表达式是否计算为“True”。只有当表达式的结果是“True”时，测试才会通过。
调用 unittest.main() 函数以运行文件中定义的所有测试用例。

步骤 8：使用 PyPI 分发你的包

为了使你的库对他人更易访问，你可以将它上传到 PyPI。请按照以下步骤分发你的包：

在 PyPI 上创建一个帐户并启用双重身份验证。
通过提供一个令牌名称并将范围选择为“整个帐户”来创建一个 API 令牌。然后小心地复制它，因为它只会出现一次。
现在，你需要创建一个 .pypirc 文件。

对于MacOS/Linux，打开终端并运行以下命令：

cd ~
touch .pypirc

对于Windows，打开命令提示符并运行以下命令：

cd %USERPROFILE%
type NUL > .pypirc

在 MacOS/Linux 的情况下，该文件被创建并位于 ~/.pypirc，而在 Windows 的情况下则位于 %USERPROFILE%/.pypirc。

通过复制并粘贴以下配置来编辑 .pypirc 文件：

[distutils]
index-servers =
    pypi

[pypi]
username = __token__
password = pypi-<your-api-token></your-api-token>

将****替换为你从 PyPI 生成的实际 API 令牌。不要忘记包括 pypi-前缀。

确保你的项目根目录中有一个 setup.py 文件。运行以下命令以创建分发文件：

python3 setup.py sdist bdist_wheel

Twine 是一个用于将包上传到 PyPI 的工具。通过运行以下命令来安装 twine：

pip install twine

现在通过运行以下命令将你的包上传到 PyPI：

twine upload dist/*

第 9 步：安装并使用库

你可以通过以下命令安装该库：

pip install [your-package]

在我的情况下：

pip install multiples_library

现在，你可以如下使用该库：

from multiples.is_multiple_of_five import is_multiple_of_five
from multiples.is_multiple_of_two import is_multiple_of_two

print(is_multiple_of_five(10))
**# Outputs True**
print(is_multiple_of_two(11))
**# Outputs False**

总结

总之，创建一个 Python 库非常有趣，而将其分发则使其他人能够使用它。我尽量将创建 Python 库所需的内容解释得尽可能清晰。然而，如果你在任何环节遇到困难或困惑，请随时在评论区提问。

Kanwal Mehreen**** Kanwal 是一位机器学习工程师和技术作家，对数据科学以及人工智能与医学的交汇处充满热情。她共同编写了电子书《利用 ChatGPT 最大化生产力》。作为 2022 年亚太地区的 Google Generation Scholar，她倡导多样性和学术卓越。她还被认可为 Teradata 技术多样性奖学金获得者、Mitacs Globalink Research 奖学金获得者以及哈佛 WeCode 奖学金获得者。Kanwal 是变革的坚定倡导者，创办了 FEMCodes，以赋能女性在 STEM 领域的发展。

S2DS 是一个为期 5 周的数据科学训练营，帮助分析型博士从学术界转向工业界。

原文：www.kdnuggets.com/2019/04/pivigo-s2ds-data-science-bootcamp.html

赞助帖子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT 工作

找到第一份数据科学家的职位非常困难，这就是为什么我们创建了 S2DS，一个为期 5 周的数据科学训练营，帮助分析型博士从学术界转向工业界。参与者在团队中为巴克莱、Ted Baker、KPMG、热门初创公司等企业进行真实的数据科学项目，学习如何在商业环境中使用数据科学技术和技能，并在整个过程中获得业务和内部团队的指导。

这些项目使你在雇主审核简历时脱颖而出，并为面试提供了令人印象深刻且具体的话题。你将获得的沟通技能和商业头脑是与利益相关者和非技术人员沟通的必备技能。

我们在整个训练营期间，与实践中的数据科学家举办多个网络活动和定期的社交活动。毕业后，我们会举办庆祝晚宴，你将被纳入我们不断壮大的 S2DS 校友社区，这是一个由数百名实践中的数据科学家组成的网络。

我们通过举办 Meetups、Hackathons 和年度聚会来支持我们的社区，并且根据你的兴趣和技能推荐付费的数据科学项目。

你不需要担心住宿问题，我们提供整个伦敦校园期间的免费住宿，距离 Northwick Park 车站仅几分钟路程，你可以在晚上和周末探索首都的美丽。

我们庆祝多样性，校友来自 60 多个国家，女性参与者超过 40%。

进入第 6 年，我们已经帮助了数百名数据科学家开启职业生涯。你可以在这里阅读他们对课程和体验的评价。

我们每年举办两次虚拟版课程（3 月和 10 月），开放给博士和硕士学位持有者，您可以通过这里了解更多信息。

我们还为每位成功申请者提供£100 的推荐奖励。

申请截止日期为 2019 年 4 月 22 日。立即申请，成为数据科学家吧。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

扩展 MLOps 的手册

原文：www.kdnuggets.com/2023/06/playbook-scale-mlops.html

作者：Mike Caravetta 和 Brendan Kelly

为您的团队扩展 MLOps

我们的三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升您的数据分析水平

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持您的组织进行 IT 工作

MLOps 团队面临着提升其能力以扩展 AI 的压力。在 2022 年，我们看到 AI 和 MLOps 在组织内外的热潮爆炸。2023 年承诺带来更多的炒作，伴随着 ChatGPT 的成功和模型在企业中的受欢迎程度。

MLOps 团队寻求在满足业务迫切需求的同时扩展他们的能力。这些团队在 2023 年开始时有一长串决议和计划，以改善他们如何工业化 AI。我们如何扩展 MLOps 的组件（部署、监控和治理）？我们团队的首要任务是什么？

AlignAI 与福特汽车合作编写了这本手册，以指导 MLOps 团队，根据我们看到的成功经验来进行扩展。

MLOps 的含义是什么？

首先，我们需要一个有效的 MLOps 定义。MLOps 是组织从交付少量 AI 模型转向可靠地大规模交付算法的过渡。这一过渡需要一个可重复和可预测的过程。MLOps 意味着更多的 AI 及其相关的投资回报。团队在 MLOps 上取得成功，当他们专注于协调过程、团队和工具时。

扩展 MLOps 的基础组件

让我们通过来自福特汽车的示例和一些帮助您入门的想法来逐一了解每个领域。

测量与影响：团队如何跟踪和衡量进展。
部署与基础设施：团队如何扩展模型部署。
监控：维持生产中模型的质量和性能。
治理：围绕模型创建控制和可见性。
推广 MLOps：教育业务和其他技术团队了解为什么以及如何利用 MLOps 方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

测量与影响

一天，一位商业高管走进了福特的 MLOps 指挥中心。我们回顾了一个模型的使用指标，并就使用量下降的原因进行了富有成效的讨论。对模型的影响和采纳情况的可见性对于建立信任和响应业务需求至关重要。

对于利用 AI 并投资于 MLOps 能力的团队来说，一个基本问题是我们如何知道自己是否在进步？

关键在于使我们的团队对我们如何为客户和业务利益相关者提供价值达成一致。团队专注于量化他们提供的业务影响和支持这一影响的操作指标。衡量影响能捕捉我们如何产生效果的全貌。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

启动的想法：

你如何衡量当前模型在开发或生产中的价值？你如何追踪业务利益相关者的使用和参与情况？
当前你们的模型在生产中的操作或工程指标是什么？谁负责这些指标的改进？你如何让人们查看这些指标？
人们如何知道用户行为或解决方案使用情况是否发生了变化？谁来回应这些问题？

部署与基础设施

团队在 MLOps 中面临的第一个障碍是将模型部署到生产环境中。随着模型数量的增长，团队必须创建一个标准化的流程和共享平台来处理增加的工作量。使用 20 种不同模式部署的 20 个模型管理起来会非常繁琐。企业团队通常会围绕 X 个模型创建集中式基础设施资源。选择合适的架构和基础设施在模型和团队之间可能是一场艰巨的战斗。然而，一旦建立起来，它将为构建监控和治理能力提供坚实的基础。

在福特，我们使用 Kubernetes、Google Cloud Platform 以及一个支持团队创建了一个标准部署功能。

Lucid Link

为你的团队提供的想法：

你将如何集中管理模型的部署？你能否创建或指定一个集中团队和资源来管理这些部署？
使用哪些部署模式（REST、批处理、流式处理等）？
你打算如何定义并与其他团队共享这些功能？
对你的建模团队来说，哪些方面最耗时或最困难，以将模型投入生产？如何设计集中部署系统以缓解这些问题？

监控

机器学习的一个独特而具有挑战性的方面是模型在生产中漂移和变化的能力。监控对建立与利益相关者的信任至关重要，以便使用这些模型。谷歌的机器学习规则建议“实践良好的警报管理，如使警报可操作”。这要求团队定义监控领域以及如何生成这些警报。一个具有挑战性的部分是使这些警报具有可操作性。需要建立一个调查和缓解生产问题的过程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在福特，模型操作中心是一个集中展示信息和数据的地方，用于了解模型是否在近实时中达到了我们的预期。

这是一个简化的仪表盘示例，用于监测使用量或记录数量是否降到设定阈值以下。

监控指标

以下是考虑用于模型的监控指标：

延迟：返回预测的时间（例如，处理 100 条记录的批处理时间）。
统计性能：模型在给定测试数据集上的正确或接近正确预测的能力（例如，均方误差、F2 等）。
数据质量：对预测或训练数据的完整性、准确性、有效性和及时性的量化（例如，缺少某个特征的预测记录百分比）。
数据漂移：数据分布随时间变化（例如，计算机视觉模型的光照变化）。
模型使用：模型预测被用于解决业务或用户问题的频率（例如，作为 REST 端点部署的模型预测次数）。

给团队的建议：

所有模型应如何进行监控？
每个模型需要包含哪些指标？
是否有标准工具或框架来生成这些指标？
我们将如何管理监控警报和问题？

治理

创新本质上会带来风险，特别是在企业环境中。因此，成功引领创新需要在系统中设计控制措施以降低风险。主动出击可以节省大量麻烦和时间。MLOps 团队应该主动预测和教育利益相关者关于风险及其缓解方法。

发展主动的治理方法有助于避免对业务需求的被动响应。策略的两个关键部分是控制对敏感数据的访问以及捕获血统和元数据以便于可视化和审计。

治理在团队扩展时提供了很好的自动化机会。等待数据是数据科学项目中的持续动力杀手。在福特，一种模型能够以 97%的准确率自动确定数据集中是否存在个人身份信息。机器学习模型还帮助处理访问请求，将处理时间从几周减少到 90%的案例中的几分钟。

另一个方面是跟踪模型生命周期中的元数据。扩展机器学习需要扩展对模型本身的信任。大规模的 MLOps 需要内置的质量、安全性和控制，以避免生产中的问题和偏差。

团队可能会陷入有关治理的理论和意见中。最佳的做法是从清晰的用户访问权限和控制开始。

从那里开始，元数据的捕获和自动化是关键。下表概述了收集元数据的领域。在可能的情况下，利用管道或其他自动化系统自动捕获这些信息，以避免人工处理和不一致性。

需要收集的元数据

这里是每个模型需要收集的项目：

版本/训练模型工件：训练模型工件的唯一标识符。
训练数据 - 用于创建训练模型工件的数据。
训练代码 - 推断的 Git 哈希或源代码链接。
依赖项 - 训练中使用的库。
预测代码 - 推断的 Git 哈希或源代码链接。
历史预测 - 为审计目的存储推断结果。

团队的想法：

我们在项目中遇到了哪些问题？
我们的业务利益相关者正在经历或关注哪些问题？
我们如何管理数据的访问请求？
谁来批准它们？
是否有自动化的机会？
我们的模型管道或部署创造了哪些漏洞？
我们需要捕获哪些元数据？
它是如何存储和提供的？

推广 MLOps

许多技术团队陷入了“如果我们建造它，他们就会来”的误区。解决问题不仅仅是构建解决方案，还涉及到分享和宣传解决方案以增加组织影响力。MLOps 团队需要分享最佳实践以及如何解决组织工具、数据、模型和利益相关者的独特问题。

MLOps 团队中的任何人都可以通过与业务利益相关者合作，展示他们的成功案例来成为布道者。展示来自你组织的示例可以清楚地说明好处和机会。

组织中希望工业化 AI 的人需要教育、文档和其他支持。午餐学习会、入职培训和导师计划都是很好的起点。随着组织的扩展，更多正式化的学习和入职培训程序以及支持文档可以加速组织的转型。

团队的想法：

你如何为 MLOps 创建一个社区或持续的学习和最佳实践？
我们需要建立和分享哪些新的角色和能力？
我们解决了哪些可以分享的问题？
你如何提供培训或文档以与其他团队分享最佳实践和成功故事？
我们如何为数据科学家、数据工程师和业务相关者创建学习项目或检查清单，以学习如何与 AI 模型合作？

开始使用

MLOps 团队和领导者面临着大量机会，同时平衡工业化模型的紧迫需求。每个组织面临的挑战各不相同，取决于其数据、模型和技术。如果 MLOps 很容易，我们可能就不会喜欢解决这个问题了。

挑战总是优先排序。

我们希望这本行动指南能激发你的团队产生新的想法和探索领域。第一步是为你的团队在 2023 年生成一个大机会列表。然后根据对客户的最大影响来无情地进行优先排序。团队还可以根据新兴基准定义和衡量他们的成熟进展。谷歌的这份指南可以为你的团队提供一个框架和成熟度里程碑。

给你的团队的想法：

我们在 MLOps 方面推进成熟度或复杂性的最大机会是什么？
我们如何捕捉和跟踪在推进成熟度方面的项目进展？
为本指南和你的团队生成任务列表。根据实施时间和预期收益进行优先排序。制定一个路线图。

参考文献

迈克·卡拉维塔 利用分析技术创造了数亿美元的商业价值。他目前负责推进福特在制造业的 MLOps 扩展和复杂性降低。

布伦丹·凯利，AlignAI 的联合创始人，帮助了几十个组织加速了银行、金融服务、制造业和保险行业的 MLOps。

Ploomber 与 Kubeflow：让 MLOps 更简单

原文：www.kdnuggets.com/2022/02/ploomber-kubeflow-mlops-easier.html

在这篇简短的文章中，我将尝试总结 MLops 工具Ploomber和Kubeflow之间的主要区别。我们将讨论 Ploomber、Kubeflow 管道的背景信息，以及为什么我们需要这些工具来让我们的生活更轻松。

我们将从 3 个主要领域来看这些差异：

易用性
协作与快速迭代
调试、测试和可重现性

所以让我们深入了解吧！

背景

让我们从对常见数据/机器学习工作流的简要解释开始，了解为什么我们需要协调，它将如何帮助你更好更快地完成工作。

通常，当一个组织拥有数据并希望从中产生见解或预测（以推动业务结果）时，他们会聘请数据科学家或机器学习工程师来探索数据、准备数据并生成模型。这 3 项任务随后可以统一成一个数据管道，其中包括相关的任务：获取数据、清洗数据和训练模型。这种架构对数据管道来说相当基础，我们将为每个任务设定输入和输出，这就是定义管道内依赖关系的方式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ML-Basic 架构：我们运行的所有任务的示例（获取数据、工程化特征、合并数据），以适应我们的模型。（我发现用图表来解释要比深入代码更容易，“一图胜千言”）

什么是协调，为什么我们需要它？

一旦我们向流程中添加更多任务，它会突然变得更加复杂。在某些情况下，特别是在生产环境中，流程可能有并行任务，这些任务可以有一对多的输入和输出，但它总是从一个地方开始，结束于另一个地方。这通常被称为有向无环图（DAG）。DAG 是机器学习工作流的表示方式，在今天大多数常见的框架中，如 Ploomber、Kubeflow、Airflow、MLflow 等，它是控制和展示数据管道的方式。是的，这就是你在算法课程中学到的相同的 DAG 概念！（那些上过这门课的人）。一旦定义了每个任务的表示，协调器将遵循其顺序并执行每个任务、它的依赖项和输出，并在必要时重试（我们可以参考上面的 DAG）。

Kubeflow 与 Ploomber

现在进入主要内容，我们对基本的数据管道、常见结构和概念有了一些了解，了解了为什么我们需要这些。我们将从 4 个不同的角度审视这两种工具，以了解它们之间的差异，以及在何时需要使用每种工具。

易用性

我认为工具的价值来自于整体体验——设置、额外步骤、维护以及每个步骤的使用便利性。当我需要部署 Kubeflow 集群时，我遇到的第一个障碍是文档，大量页面和部署选项，此外，我后来发现我不能在我的笔记本电脑上本地运行，如果你想在考虑生产之前测试你的工作，这是一种相当基本的要求。大多数数据科学项目以“研究实验”开始，是否能够进入生产是不确定的。第一个问题之一是数据是否正确，我们是否有足够的数据？这里的最佳想法是通过启动本地环境而不是庞大的设置，迅速迭代这些问题。

现在回到设置上，我还发现安装后有两个版本，所以我继续使用旧版本（我不打算再经历一次漫长的安装过程）。一旦在我为其开设的云账户上配置了集群，我意识到我必须使用复杂的 Python API，并且在 Docker 上运行有一些限制（必须将任务保持为自由文本）。在这个过程中，我尝试了一个应该能简化这一切的框架，特别是在笔记本方面，Kale，但没有成功。另一方面，使用 Ploomber 从本地开始是直接的，我只需运行 pip install ploomber，然后可以从模板管道开始，在我的笔记本上进行开发。文档的结构方式是每个用例都有一本食谱，概念在一个地方得到解释。它支持本地和云端部署，所以一旦迭代完成，我可以直接提交任务到我的 Kubeflow 集群。对于基本操作有 CLI API，对于更高级的用户有 Python API。

协作和快速迭代

在 Kubeflow 中，当我每次需要通过容器运行时，它会拉取镜像，并且大约需要 1 分钟才能开始运行任务。此外，我无法真正登录到容器中查看发生了什么，像使用哪个镜像、当前使用了哪些依赖等基本信息都不可见。容器中的输出非常困难，有一个特定的位置可以保存它们，而完全没有参数化。最终，我不得不使用云存储来加快迭代速度。在 Ploomber 中，我可以简单地使用 pip 虚拟环境/conda 并以我想要的方式锁定版本（在生产环境中，这一点非常相关，因为 Jupyter 对新包的访问有限）。此外，由于代码通过 Python 在本地运行，我可以迭代每个任务并确切了解发生了什么，而无需为此创建整个新管道或更改代码。你可以准确地定义输出的保存位置，无论是本地还是云端。此外，由于笔记本代码被转换为脚本，我可以将代码推送到 Git 中，并与数据科学团队的其他成员协作。

调试、测试和可重现性

由于 Kubeflow（或者至少是我运行的 MiniKF）运行在云集群上，并且代码在容器内运行，因此调试和测试代码相当困难。我在他们的文档中找不到如何登录到容器并开始调试会话的说明。这使得测试代码非常困难。除此之外，由于无法登录到运行环境中查看当前的数据帧和不同的工件，因此几乎不可能重现每次运行。另一方面，在 Ploomber 中，不仅可以立即开始调试会话，而且还可以登录到你的 Docker 容器中，了解依赖关系。当代码是模块化的时，测试起来要容易得多，你不需要等待整个管道运行完成。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 Jupyter 实例内部的交互式会话示例中，查看 dag 及其任务与远程运行的黑箱相比。

当 Kubeflow 变得有意义时

如果你已经准备好一个管道，并且在寻找一个高性能集群来部署它，经过所有的交互式数据探索、分析和迭代后，那么 Kubeflow 是一个不错的用例。当你在早期阶段，需要快速迭代数据和调整管道时，Ploomber 将是更好的选择，因为它简化了这一过程。你可以快速迭代你的工作流程，动作更快，当你准备好时，Kubeflow 连接器将允许你无缝部署最终的数据管道。

结论

总体而言，这是一次启发性的经历，让我理解了现有 Kubeflow 架构中的所有缺口，并通过 Ploomber 提供了解决方案。我相信数据科学和 MLops 的工作应该是简单、可维护和可重用的。我理解 Kubeflow 的定位，希望 V2 能为用户提供更顺畅的体验。在开发工具和基础设施中，选择不仅能解决问题的工具，还要容易上手且维护友好（如 Ploomber！），毕竟，工具在几个月内被替换的可能性不高。

感谢您一直读到这里！如果您正在寻找更好的解决方案来协调工作流程，不妨尝试一下 Ploomber。

Ido Michael 共同创办了 Ploomber，以帮助数据科学家提高工作效率。他曾在 AWS 领导数据工程/科学团队。在与客户合作期间，他和团队单独构建了数百条数据管道。来自以色列的他来到纽约，攻读哥伦比亚大学的硕士学位。在发现项目通常将大约 30% 的时间用于将开发工作（原型）重构为生产管道后，他专注于建设 Ploomber。

我们的三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升您的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持您的组织进行 IT 工作

Plotly Express 数据可视化备忘单

原文：www.kdnuggets.com/2023/03/plotly-express-data-visualization-cheat-sheet.html

展现自我

情况是这样的：你需要可视化，但对 Matplotlib 感到厌倦。你想要一些高级的、快速且简单的工具，同时也能生成吸引人的结果。你还希望有互动选项。

我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织 IT

鉴于以上内容，可以很好的证明 Plotly Express 的价值。你肯定已经知道 Plotly，这是一个在数据科学家中很受欢迎的低级交互式可视化库。但你对它的兄弟库熟悉吗？

Plotly Express 提供了超过 30 个用于创建不同类型图形的函数。这些函数的 API 被精心设计，使其尽可能一致且易于学习，使你在数据探索过程中从散点图切换到条形图，再到直方图或旭日图变得简单。

如果你想开始使用 Plotly Express 创建高质量的可视化，请查看我们的最新备忘单。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Plotly Express 是一个基于 Plotly 的高级数据可视化库，Plotly 是一个用于创建交互式可视化的低级库。它提供了一个简单且富有表现力的 API，用于创建各种互动图表。

备忘单首先介绍了入门内容，如安装库和基本语法。接下来，资源涵盖了使用 Plotly Express 创建常见图表类型，包括：

散点图
直方图
密度热图
饼图
箱线图

最终，你将获得一些图表自定义的经验，包括调整标记和布局。

不要继续使用那些单调乏味的可视化方式来分享你的发现。开始使用 Plotly Express，并将备忘单随时放在手边，以便在学习过程中参考。

立即查看，并且请随时回来查看更多内容。

绘图和数据可视化在数据科学中的应用

原文：www.kdnuggets.com/2022/06/plotting-data-visualization-data-science.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由艾萨克·史密斯提供，发布于 Unsplash

关键要点

大多数希望进入数据科学领域的初学者总是担心数学要求。
数据科学是一个非常定量的领域，需要高级数学知识。
但要入门，你只需掌握几个数学主题。
在这篇文章中，我们讨论了绘图和数据可视化在数据科学和机器学习中的重要性。

我们的三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求

绘图和数据可视化

大部分基本的数据科学关注的是找到特征（预测变量）和目标变量（结果）之间的关系。预测变量也称为自变量，而目标变量是因变量。

绘图和数据可视化可以在特征与目标变量之间讲述不同类型的故事，例如比较不同的数量、研究趋势、量化关系或展示比例。绘图或数据可视化是数据科学中最古老且最重要的分支。

在这篇文章中，我们探讨了数据科学和机器学习中使用的各种类型的图表。

生成图表的基本组件

一个好的图表或数据可视化由几个组件组成，这些组件需要组合在一起以生成最终产品：

数据组件：决定如何可视化数据的一个重要第一步是了解数据的类型，例如，分类数据、离散数据、连续数据、时间序列数据等。
几何组件：在这里，你决定什么样的可视化适合你的数据，例如，散点图、折线图、条形图、直方图、Q-Q 图、平滑密度图、箱线图、对角图、热力图、饼图等。
映射组件：在这里，你需要决定使用哪个变量作为自变量**（x-变量）以及使用哪个变量作为因变量（y-变量）。这很重要，特别是当你的数据集是多维的，具有多个特征时。
**尺度组件：**在这里，你决定在图中使用什么样的尺度，例如线性尺度、对数尺度等。
**标签组件：**这包括诸如轴标签、标题、图例、字体大小等内容。
**伦理组件：**在这里，你要确保你的可视化讲述了真实的故事。你需要在清理、总结、操控和生成数据可视化时注意你的行为，确保不会利用你的可视化误导或操控观众。

重要的数据可视化工具包括 Python 的 matplotlib 和 seaborn 包，以及 R 的 ggplot2 包。

绘图和数据可视化示例

在本节中，我们讨论了数据科学和机器学习中使用的几种图表。每个图表的说明中包含一个链接，该链接将带你到原始文章，在那里你可以找到更多细节，如生成图表所用的数据集和源代码。

1. 条形图用于比较不同的数量

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1. 数据集分布。N=1050：812（男性）和 238（女性）身高。这显示我们有一个非常不平衡的数据集，男性身高占 77%，女性身高占 23%。来源：贝叶斯定理解释。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2. 2016 年选定国家电动车市场份额。图片由 Benjamin O. Tayo 提供。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3. 2020 年全球按技能分类的工作数量使用 LinkedIn 搜索工具。图片由 Benjamin O. Tayo 提供。

2. 密度图用于研究变量的分布

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4. 使用蒙特卡洛模拟的均匀分布样本均值的概率分布。图片由 Benjamin O. Tayo 提供。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5. 男性和女性身高的概率分布。显示男性的平均身高高于女性。

3. 散点图用于研究关系

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6. 使用多元回归分析的理想和拟合图。图片由 Benjamin O. Tayo 提供。外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 7. 不同回归模型的均值交叉验证分数。图片由 Benjamin O. Tayo 提供。

4. 用于量化关系的热图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 8. 选定科技股票的协方差矩阵图。

5. 用于研究趋势的时间依赖图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 9. 2021 年 4 月前 16 天特斯拉股票价格。

6. 显示比例的饼图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 10. 展示投资组合中各种资产类别的饼图。

总结

大多数数据科学问题归结为研究特征变量与目标变量之间的数学关系。
绘图或数据可视化是量化特征变量与目标变量之间关系的第一步。
良好的数据可视化具有几个基本组成部分，如数据组件、几何组件、映射组件、刻度组件、标签组件和伦理组件。
有几种类型的图表，如比较图、用于研究趋势的图、显示比例的图等。
在确定适合数据的图表或可视化方式之前，理解给定的数据集是很重要的。

Benjamin O. Tayo 是一位物理学家、数据科学教育者和作家，也是 DataScienceHub 的创始人。此前，Benjamin 曾在中欧大学、大峡谷大学和匹兹堡州立大学教授工程学和物理学。

KDnuggets 读者表示，人工通用智能（AGI）将在不到 50 年的时间内实现

原文：www.kdnuggets.com/2018/01/poll-agi-50-years.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传评论人工通用智能（AGI）被定义为

机器能够成功执行任何人类能够完成的智力任务的智能。

AGI 承诺带来巨大的好处，例如治愈疾病、提供充足的休闲时间、消除交通事故等。但它也对人类构成生存风险，正如埃隆·马斯克和斯蒂芬·霍金所警告的那样。AGI 是否可能实现？如果是，我们距离 AGI 还有多远？

随着 AlphaGo Zero（及后来的 AlphaZero）在围棋、国际象棋和其他游戏中取得超人类表现，且计算机现在能够识别图像、理解语音、驾驶汽车、诊断医学影像，且能力与人类相当或更好，AGI 似乎越来越近了。

注意：是否技术奇点（当智能将指数级增长时）会在 AGI 之后到来是一个单独的问题，此调查未涉及。

最新的 KDnuggets 调查问卷询问了

AGI（人工通用智能）将何时实现？

根据 1200 多次投票的结果：

在 10 年或更短时间内：22.5%的受访者
在 11-20 年内，20.1%
在 21-50 年内，23.9%
在 51-100 年内，14.3%
在 100 年或更久，7.5%
永远不会，11.7%

67%的 KDnuggets 读者认为 AGI 将在不到 50 年内实现，最常见的答案（也是中位答案）是 21 至 50 年。仅约 12%的人认为 AGI 永远不会实现。

下面的图表显示了总体答案以及三个受访者最多的地区的答案。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1：AGI（人工通用智能）的预期年限，总体和各地区

我们注意到，美国/加拿大和欧洲地区的预测相似。

亚洲受访者对 AGI 的预测更加乐观，60%的人认为 AGI 将在 20 年内实现。

其他地区的受访者预测类似，AGI 的中位预测在 21-50 年范围内。

20 至 50 年的范围与其他专家的预测一致，例如

人工智能越来越聪明：机器何时会让我们望尘莫及？，《卫报》，2017 年
第一台机器何时会变得超级智能？，顶级 AI 专家的预测，《Medium》，2016 年

区域参与情况是

美国/加拿大，33%
欧洲，32%
亚洲 23%
拉丁美洲，4.4%
非洲/中东，3.9%
澳大利亚/新西兰，3.1%

精选评论：

阿米特·谢思，AGI 或奇点

我怀疑任何阅读此推文的人会经历#奇点——一直是霍夫施塔特的粉丝，无法更同意 qz.com/1088714

twitter.com/amit_p/status/920361898226446338

trylks，奇点不会来临

创造技术奇点的限制不在技术上，而在人类及其经济体系中。亚马逊机械土耳其人可以做同样的事情（因为他们是人类），而且比创建技术奇点更具盈利性。

如果在我们当前的经济体系中奇点是可能的，创造一个如此类似于神的存在，然后被一个公司拥有，将是对人类的最坏结果：回到古埃及，那时少数（奇点股东）将拥有一切，而其他人则成为他们的奴隶。

幸运的是，没有通往奇点的捷径和最低可行产品的路径，因此没有人正在朝这个方向努力。

更多文本（但可能没有更多意义），带有大量链接，见此：trylks.wordpress.com/2017/12/19/the-technological-singularity-is-beyond-human-capabilities/

相关文章：

关于此主题的更多信息

分析、数据科学、机器学习软件调查中的新领导者、趋势和惊喜

原文：www.kdnuggets.com/2017/05/poll-analytics-data-science-machine-learning-software-leaders.html/2

完整结果和 3 年趋势

% 单独使用 是仅使用该工具的投票者的百分比，仅显示那些拥有 5% 或更多投票的工具。例如，11.4% 的 RapidMiner 用户仅使用 RapidMiner。

你在过去 12 个月内用于实际项目的分析、数据大数据、数据挖掘、数据科学软件有哪些？ [2881 票]

| 工具（票数） | 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2017 年用户 % 2016 年用户 %

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2015 年用户 % |

Python (1516)
R 语言 (1502)
SQL 语言 (1006)
RapidMiner (946)，单独使用 13.6%
Excel (810)
Spark (654)
Anaconda (629)	na
Tensorflow (581)	na
scikit-learn (561)
Tableau (560)
KNIME (551)
Hadoop: 开源工具 (431)
Java (399)
Microsoft SQL Server (334)
SQL on Hadoop 工具 (298)
Microsoft Power BI (295)
Weka (281)
Unix shell/awk/gawk (278)
Keras (274)	na na
PyCharm (260)	na na
Dataiku (235)，单独占 12.8%
Hadoop: 商业工具 (218)	na na
Scala (214)
MATLAB (214)
SAS Base (204)
其他编程和数据语言 (196)
IBM SPSS Statistics (196)
Microsoft Azure 机器学习 (184)
IBM SPSS Modeler (182)
C/C++ (181)
H2O.ai (179)
Theano (167)
SAS Enterprise Miner (162)
Alteryx (152)
Other free analytics/data mining tools (139)
Other Deep Learning Tools (138)
MLlib (130)
Microsoft R Server (125)	na na
IBM Watson / Watson Analytics (125)
QlikView (121)
Orange (115), 6.1% alone
Microsoft CNTK (98)	na
Caffe (89)
IBM DSX (87), 6.9% alone	na na
PyTorch (86)	na na
Rattle (74)
TIBCO Spotfire (72)
Teradata (69)	na na
Gnu Octave (69)
Other paid analytics/data mining/data science software (66)
Microsoft other ML/Data Science tools (64)	na
DL4J (62)
IBM Cognos (61)
DataRobot (54), 9.3% alone	na
JMP (53)
Pentaho (52)
mxnet (51)	na
Oracle Adv. Analytics (51), 11.8% alone
Amazon Machine Learning (49)
Perl (49)
Minitab (42)	na na
DataScience.com (40), 10.0% alone	na na
Mathematica (40)
C4.5/C5.0/See5 (36)
Torch (34)
SAP HANA (34)	na
Stata (33)
Julia (32)
MicroStrategy (32)
Vowpal Wabbit (32)
SAP BusinessObjects Predictive Analytics (31), 单独占 6.5%
Angoss (29), 单独占 34.5%
BigML (29)
Lasagne (27)	na na
XLMiner (19)	na
Domino Data Labs (18), 单独占 11.1%	na na
F# (16), 单独占 12.5%
Quest (前身为 Statistica/ Dell/ StatSoft) (13), 单独占 7.7%
Lisp (11), 单独占 9.1%
BayesiaLab (11)
Salford SPM/CART/RF/MARS/TreeNet (11)
Clojure (8)
RapidInsight/Veera (7)
FICO (6)
Ontotext GraphDB (6)
Ayasdi (5)
Lavastorm (5)
Turi (前身为 Dato/GraphLab) (5)
Alpine Data Labs (4)
Birst (3)
Skytree (3)
Actian (3)
Sisense (2)

公正公平

与许多其他“评价”网站不同，这确实是查看特定软件/编程语言在数据科学社区中的定位的好方法。例如，我曾见过一些网站，明确看到人们对某个工具给出了 10/10 的评分，但后来发现他们是为该编辑器工作的（这不是很合理吗？）。

在我看来，实际上并不存在任何“负面”偏见，因为他们并没有要求意见、评分或类似的东西。投票只是询问我们是否使用了某个特定的工具。事实上，我是从 Ingo 发来的特定 RapidMiner 邮件中被重定向到这里的，那封邮件完全没有任何指示性，而且很好。我只是陈述了我使用过 RapidMiner 的事实，但也提到我还使用过列表中的其他工具，如 Hadoop 和 Qlik（为了说明我的观点）。（如果你想把这称为投票的额外推销，那就随便吧 ;））。

一些投票数量也很有趣——但更重要的是，我要感谢 Gregory 举办这个调查，因为它让我们可以通过对比年度调查来观察行业的演变。

JP，供应商请求

我也收到了来自 RapidMiner 的邮件，要求完成调查。另一个评论建议这是“一个公平的要求”，但只有在所有供应商都这样做时才算公平。某些“供应商”甚至根本做不到这一点，这对他们没有帮助。

作为这项调查的注册投票者，我会接受后续调查，询问是谁联系我填写调查。

只是一个说明，公司鼓励用户投票不一定是负面的。这可能只是表明他们与社区紧密联系，并且对他们的产品感到自豪。这些都是好事。

以下是之前 KDnuggets 关于分析、数据挖掘、数据科学软件的调查结果：

R 和 Python 争夺最佳分析、数据科学软件，2016
R 领先于 RapidMiner，Python 紧追其后，大数据工具增长，Spark 点燃，2015
RapidMiner 继续领先，2014
RapidMiner 和 R 争夺第一名，2013
KDnuggets 2012 调查：使用的分析、数据挖掘、大数据软件
KDnuggets 2011 调查：使用的数据挖掘/分析工具
KDnuggets 2010 调查：使用的数据挖掘/分析工具
KDnuggets 2009 调查：使用的数据挖掘工具
KDnuggets 2008 调查：使用的数据挖掘软件
KDnuggets 2007 调查：数据挖掘/分析软件工具

我们的前三课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析水平

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织的 IT

你在 2018/2019 年实际应用中使用了哪些数据科学/机器学习方法和算法？

原文：www.kdnuggets.com/2019/04/poll-data-science-machine-learning-methods-algorithms-use-2018-2019.html

最新的 KDnuggets 调查询问读者：

你在 2018/2019 年实际应用中使用了哪些数据科学/机器学习方法和算法？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源

我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业轨道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你组织的 IT

此投票已结束 - 以下是结果：

2018 年、2019 年使用的顶级数据科学和机器学习方法

相关：

Mitchell 范式下的学习算法简明解释
对有志数据科学家的关键算法和统计模型
数据科学家使用的顶级算法和方法

10 年后数据科学家的需求会如何？数据科学家会灭绝吗？

原文：www.kdnuggets.com/2021/06/poll-demand-data-scientists-10-years.html

Mikhail Mew 最近的一篇文章，数据科学家将在 10 年内灭绝，认为我们所知的数据科学家角色将在大约十年内消失。取而代之的将是“能够将深厚领域知识注入分析的商业专家和主题专家，无论他们是否能够编码。”

Ahmar Shah 在他的文章数据科学在 10 年内不会灭绝中提出了相反的观点，他表达了对数据科学领域即将崩溃的挫败感。他明确表示：“如果有哪个领域你最有可能真正退休，那就是数据科学。”

我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你组织的 IT

这让我们再次思考数据科学和数据科学家的未来，注意到以上仅仅是两个例子，这个话题上有各种各样的意见。我们想知道我们的读者对数据科学家需求的未来有什么看法。

以下是 KDnuggets 调查的结果：

放松！数据科学家在 10 年内不会灭绝，但角色会发生变化

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由 Gregory Piatetsky 创建。恐龙图片来自维基百科。

你在 2020/2021 年应用了哪些分析、数据科学和机器学习？

原文：www.kdnuggets.com/2021/05/poll-did-apply-analytics-data-science-machine-learning-2020-2021.html

最新的 KDnuggets 调查问卷询问：

你在 2020/2021 年应用了哪些分析、数据科学和机器学习？

我们的三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持组织的 IT

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是结果和分析：

主要变化：2020/21 年分析、数据科学、机器学习的应用情况

查看上次我们进行此调查的结果和分析。

新调查：你在 2020 年最常使用的 Python IDE / 编辑器是什么？

原文：www.kdnuggets.com/2020/09/poll-python-ide-editor.html

最新的 KDnuggets 调查问卷：

你在 2020 年最常用的 Python IDE / 编辑器是什么？

我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你组织的 IT

以下是调查结果：

这里是最受欢迎的 Python IDEs/编辑器

鉴于 Python 在数据科学家及相关专业人士中作为主要编程语言之一的持续流行和相对重要性，回顾一下最受欢迎或使用最多的开发工具，就像我们在 2018 年 11 月所做的，似乎是一个值得的练习。我们将可能的选择限制为 3 个，因此，如果你经常使用多个编辑器或 IDE，请选择你在 2020 年至今使用的前三个工具。

R 领先，RapidMiner 紧随其后，Python 赶上，大数据工具增长，Spark 激发

原文：www.kdnuggets.com/2015/05/poll-r-rapidminer-python-big-data-spark.html

作者 Gregory Piatetsky，KDnuggets，2015 年 5 月 25 日，Actian，Apache Spark，数据挖掘软件，H2O，Knime，调查，Python，R，RapidMiner，SQL 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传评论

第十六届年度 KDnuggets 软件调查继续受到分析和数据挖掘社区以及供应商的广泛关注，吸引了约 2,800 名选民，他们从创纪录的 93 种不同工具中进行选择。

R 是数据挖掘和数据科学领域中最受欢迎的整体工具，但 Python 的使用增长更快，预计在 2-3 年内将赶上。RapidMiner 仍然是最受欢迎的数据挖掘/数据科学套件，但相比去年得票减少。Hadoop/大数据工具的使用显著增加（29%，相比 2014 年的 17%），主要受到 Spark 使用份额增长超过三倍的推动。（请参见 KDnuggets 对 Spark 创始人 Matei Zaharia 的独家采访）。其他增长强劲的工具包括 H2O (0xdata)、Actian、MLlib 和 Alteryx。

本报告有 5 个部分

顶级分析工具和趋势
Hadoop/大数据工具
深度学习工具
编程语言
完整结果和表格

按地区参与情况：美国/加拿大（41.5%），欧洲（38.4%），亚洲（8.2%），拉丁美洲（6.3%），澳大利亚/新西兰（3.1%），非洲/中东（2.5%）。

顶级分析工具和趋势

以下是按使用份额排名前十的工具：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按用户份额排名前十的工具为

R，46.9%（2014 年为 38.5%）
RapidMiner，31.5%（2014 年为 44.2%）
SQL，30.9%（2014 年为 25.3%）
Python，30.3%（2014 年为 19.5%）
Excel，22.9%（2014 年为 25.8%）
KNIME，20.0%（2014 年为 15.0%）
Hadoop，18.4%（2014 年为 12.7%）
Tableau，12.4%（2014 年为 9.1%）
SAS，11.3%（2014 年为 10.9%）
Spark，11.3%（2014 年为 2.6%）

与 2014 年分析/数据挖掘软件调查相比，Tableau 和 Spark 成为前十名的新成员，取代了 Weka 和 Microsoft SQL Server。

工具的平均数量跃升至 4.8，较 2014 年的 3.7 和 2013 年的 3.0 增长。

商业软件和免费软件之间的区别越来越难以界定，许多工具同时拥有免费/社区版和商业/企业版。我们根据最新版本的主要类型对每个工具进行了分类，因此将 RapidMiner 归类为商业类别，将 KNIME 归类为免费软件类别。

许多供应商要求用户投票并甚至在推特上发布投票，但我们未发现任何机器人或非法投票，也未需删除任何投票。

今年，91%的选民使用了商业软件，73%使用了免费软件。约 27%仅使用商业软件，只有 9%使用免费软件。首次出现 64%的选民同时使用免费和商业软件，高于 2014 年的 49%。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在至少有 10 票的工具中，2014 年最大的增长为

H2O（0xdata），增长 1210%，至 2.0%市场份额（55 票），从 2014 年的 0.2%
Actian，增长 345%，至 2.0%（56 票），从 2014 年的 0.5%起
Spark，增长 326%，至 11.3%（311 票），从 2014 年的 2.6%
MLlib，增长 228%，至 3.3%（91 票），从 2014 年的 1.0%
Alteryx，增长 79%，至 5.6%（155 票），从 2014 年的 3.1%
Python，增长 56%，至 30.3%（837 票），从 2014 年的 19.5%
TIBCO Spotfire，增长 56%，至 4.3%（119 票），从 2014 年的 2.8%
Pig，增长 54%，至 5.4%（150 票），从 2014 年的 3.5%
SAS Enterprise Miner，增长 53%，至 10.9%（302 票），从 2014 年的 7.2%
Splunk/Hunk，增长 49%，至 1.1%（30 票），从 2014 年的 0.7%

连续两年在市场份额上增长至少 20%的工具包括 Alteryx、Hadoop、KNIME、Python、Qlikview、SAS Enterprise Miner、Tableau 和 TIBCO Spotfire。

2015 年获得至少 20 票的新分析工具包括

scikit-learn，8.3%（229 票）
Microsoft Azure ML，3.7%（102 票）
Microsoft Power BI，3.6%（98 票）
IBM Watson Analytics，2.1%（57 票）
Ayasdi，2.0%（56 票）
Dataiku，2.0%（56 票）
Lexalytics，1.3%（35 票）
Vowpal Wabbit，1.3%（35 票）
Microstrategy，0.9%（24 票）
Amazon Machine Learning，0.7%（20 票）

在 2014 年获得至少 20 票的工具中，2015 年最大的下降发生在这些工具上，这包括可能是免费工具如 Orange 的受欢迎程度下降，以及今年某些商业工具的选民驱动不足。

Predixion Software，下降 90%（0.4%市场份额），从 2014 年的 3.7%
BayesiaLab，下降 86%，至 0.6%，从 4.1%
Alpine Data Labs，下降 82%，至 0.5%，从 2.7%
Oracle Data Miner，下降 64%，至 0.8%从 2.2%
RapidInsight/Veera，下降 60%，至 0.2%从 0.5%
Revolution Analytics（现为 Microsoft 的一部分），下降 57%，至 4.0%从 9.1%
SAP（包括前 KXEN），下降 57%，至 3.0%从 6.8%
Orange，下降 44%，至 1.9%，从 3.4%
Gnu Octave，下降 41%，至 2.3%从 3.9%

Hadoop/Big Data 工具

Hadoop/Big Data 工具的使用在选民中跃升至 29%，从 2014 年的 17%和 2013 年的 14%起

这可能是由于许多基于云的 Big Data 工具的可用性和低成本。特别显著的是 Spark 市场份额跃升至 11.3%。

然而，大多数数据分析仍然在“中等”及小数据上进行。

最受欢迎的 Hadoop/大数据工具包括

Hadoop，18.4%的份额（507 票）
Spark，11.3%（311）
Hive，10.2%（282）
SQL on Hadoop 工具，7.2%（198）
Pig，5.4%（150）
HBase，4.6%（127）
其他 Hadoop/HDFS 基础工具，4.5%（125）
MLlib，3.3%（91）
Mahout，2.8%（76）
Datameer，0.8%（23）

深度学习工具

今年新增了一个深度学习工具类别，最受欢迎的工具包括：

Pylearn2（55 用户）
Theano（50）
Caffe（29）
Cuda-convnet（17）
Deeplearning4j（12）
Torch（27）

然而，这一类别正在迅速增长，以上列表并不完整，因为在这个类别中，其他深度学习工具的数量最多（106）。

另见

深度学习简述 - 它是什么，如何运作，为什么要关心？
哪里可以学习深度学习 - 课程、教程、软件
深度学习 - 重要的学习和理解资源
KDnuggets 故事标签：深度学习

编程语言

Python 的流行程度显著上升。Java 是分析/数据挖掘任务中第二常用的语言。这里是

Python，30.3%的份额（837 票），较 19.5%有所上升
Java，14.2%（392），2014 年未列入
C/C++，9.4%（260），2014 年未列入
Unix shell/awk/gawk，8.0%（221），较 5.8%有所上升
其他编程语言，5.1%（140）
Scala，3.5%（96），2014 年未列入
Perl，2.9%（79），较 3.0%有所下降
Ruby，1.2%（33），2014 年未列入
Julia，1.1%（31），较 0.8%有所上升
F#，0.7%（18），较 0.5%有所上升
Clojure，0.5%（13），与 0.5%相同
Lisp，0.4%（10），较 0.3%有所上升

完整结果和三年趋势

以下表格详细展示了投票结果。

% alone 是指仅使用该工具的投票者百分比。例如，只有 3.6%的 R 用户仅使用 R，而 13.7%的 RapidMiner 用户表示他们仅使用该工具。

您在过去 12 个月内为真实项目使用过哪些分析、大数据、数据挖掘、数据科学软件？ [2759 位投票者]

| 图例：红色：免费/开源工具绿色：商业工具

Fuchsia：Hadoop/大数据工具 | 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2015 年用户百分比 2014 年用户百分比

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2013 年用户百分比 |

R（1293），3.6%仅用
RapidMiner（870），13.7%仅用
SQL（853），单独使用 0%	未列入
Python (837)，0% 单独使用
Excel (631)，0% 单独使用
KNIME (553)，6.7% 单独使用
Hadoop (507)，0% 单独使用
Tableau (341)，0% 单独使用
SAS base (313)，0.6% 单独使用
Spark (311)，0% 单独使用	na
Weka (310)，0% 单独使用
SAS Enterprise Miner (302)，3.6% 单独使用
Microsoft SQL Server (268)，0% 单独使用
MATLAB (243)，0% 单独使用
scikit-learn (229)，0% 单独使用	na na
Unix shell/awk/gawk (221)，0% 单独使用	na
IBM SPSS Statistics (213)，0% 单独使用
IBM SPSS Modeler (197)，7.1% 单独使用
Alteryx (155)，39.4% 单独使用
Pig (150)，0% 单独使用	na
其他编程语言 (140)，0% 单独使用	na
其他免费分析/数据挖掘工具 (138)，0% 单独使用
其他 Hadoop/HDFS 基于的工具 (125)，0% 单独使用	na
TIBCO Spotfire (119)，11.8% 单独使用
Rattle (117)，0.9% 单独使用
QlikView (116)，0% 单独使用
Revolution Analytics（现为微软的一部分） (109)，0% 单独使用
Microsoft Azure ML (102)，1.0% 单独使用	na na
Microsoft Power BI (98)，0% 单独使用	na na
MLlib (91)，0% 单独使用	na
JMP (86)，0% 单独使用
SAP（包括前身 KXEN） (82)，26.8% 单独使用
Perl (79)，0% 单独使用	na
Mahout (76)，0% 单独使用	na
Pentaho (74)，0% 单独使用	na
其他付费分析/数据挖掘/数据科学软件 (66)，6.1% 单独使用
Salford SPM/CART/随机森林/MARS/TreeNet (64)，43.8% 单独使用
Gnu Octave (64)，0% 单独使用
IBM Watson Analytics (57)，0% 单独使用	na na
Ayasdi (56)，10.7% 单独使用	na na
Dataiku (56)，7.1% 单独使用	na na
Actian (56)，7.1% 单独使用	na
H2O (0xdata) (55)，0% 单独使用	na
Orange (53)，0% 单独使用
Mathematica (52)，0% 单独使用
IBM Cognos (51)，0% 单独使用
Dell (包括 StatSoft) (47)，19.1% 单独使用
XLSTAT for Excel (42)，0% 单独使用
Stata (36)，2.8% 单独使用
Lexalytics (35)，28.6% 单独使用	na na
Vowpal Wabbit (35)，0% 单独使用	na na
C4.5/C5.0/See5 (35)，0% 单独使用
Julia (31)，3.2% 单独使用	na
Splunk/ Hunk (30)，0% 单独使用	na
Datameer (26)，0% 单独使用	na
MicroStrategy (24)，0% 单独使用	na na
BigML (23)，0% 单独使用	na
Zementis (22), 31.8% 单独使用
Miner3D (22), 9.1% 单独使用
Oracle Data Miner (22), 0% 单独使用
Amazon Machine Learning (20), 5.0% 单独使用	na na
F# (18), 0% 单独使用
BayesiaLab (16), 12.5% 单独使用
Dato (前身为 Graphlab) (15), 6.7% 单独使用	na
Clojure (13), 0% 单独使用	na
Alpine Data Labs (13), 0% 单独使用	na
Angoss (11), 18.2% 单独使用
Lavastorm (10), 0% 单独使用
Lisp (10), 0% 单独使用	na
Predixion Software (10), 0% 单独使用
WordStat (9), 0% 单独使用
Megaputer Polyanalyst/TextAnalyst (8), 0% 单独使用
WPS: World Programming System (7), 0% 单独使用	na
GoodData (6), 0% 单独使用	na
MetaMind (5), 0% 单独使用	na na
SiSense (5), 0% 独立使用	na
RapidInsight/Veera (5), 0% 独立使用
Skytree (3), 0% 独立使用	na na
Birst (2), 0% 独立使用	na na
Ontotext (1), 0% 独立使用	na na
FICO Model Builder (1), 0% 独立使用	na

其他未包含但在评论中提到的工具包括

Daniel Soto: ETL：Anatella；预测分析：TIMI modeler。
Henrique Pinto: 提议将 SAP 技术分为建模工具（SAP Predictive Analytics，合并了 SAP PA + KXEN）和作为底层平台的 SAP HANA，就像你有 SAS Miner 和 SAS Base 一样。HANA 有其自身的编程逻辑（基于 SQL，称为 SQLScript），可以用于原生开发预测模型，或者你可以使用 SAP Predictive Analytics 的高级建模功能来支持不太具备开发能力的用户。
另一个工具建议：Domino（DominoLabs），复杂企业的分析中心：帮助组织更快地开发、跟踪和部署分析模型，同时通过保持工作集中、可共享和可审计来促进最佳实践。
Roberto Lopez: Neural Designer，一款高性能的预测分析工具。
Julian GV: Experian Strategy Management，包括集成在软件中的辅助设计分析模块。这是我在过去 12 个月中使用的解决方案。
Universal Platform, UP

这里是过去投票的结果

KDnuggets 第 15 届年度分析、数据挖掘、数据科学软件投票：RapidMiner 继续领先
KDnuggets 2013 软件投票：RapidMiner 和 R 争夺第一名。
KDnuggets 2012 投票：分析、数据挖掘、大数据软件使用情况
KDnuggets 2011 投票：使用的数据挖掘/分析工具
KDnuggets 2010 投票：使用的数据挖掘/分析工具
KDnuggets 2009 投票：使用的数据挖掘工具
KDnuggets 2008 投票：使用的数据挖掘软件
KDnuggets 2007 投票：数据挖掘/分析软件工具

Python 取代 R：2018 年分析、数据科学、机器学习的顶级软件：趋势与分析

原文：www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html/2

区域参与情况

各地区的参与情况为：

欧洲，37.5%
美国/加拿大，36.6%
亚洲，11.7%
拉丁美洲，6.6%
非洲/中东，4.5%
澳大利亚/新西兰，3.1%

与 2017 年相比，主要变化是来自欧洲的参与度更高（从 35.5%上升），而来自美国/加拿大的参与度较低（从 41.5%下降）。

完整结果和三年趋势

下表详细展示了投票结果

KDnuggets 2018 民意调查：你在过去 12 个月中用于真实项目的分析、大数据、数据科学、机器学习软件

| 工具（2018 年投票人数） | 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 % 2018 年的投票者 % 2017 年的投票者

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2016 年的投票者百分比 |

Python (1347)
RapidMiner (1081)
R (996)
SQL (813)
Excel (803)
Anaconda (686)
Tensorflow (614)
Tableau (542)
scikit-learn (500)
Keras (456)	na
Apache Spark (442)
Java (309)
Microsoft SQL Server (283)
PyCharm (276)	na
Microsoft Power BI (257)
KNIME (252)
Spark SQL (240)	na na
Weka (233)
Hadoop: Open Source Tools (225)
SQL on Hadoop 工具 (209)
MATLAB (191)
Unix shell/awk/gawk (188)
其他免费分析/数据挖掘工具 (170)
IBM SPSS Statistics (164)
其他编程和数据语言 (142)
C/C++ (140)
PyTorch (132)	na
Dataiku (130)
H2O.ai (126)
Scala (121)
Hadoop: 商业工具 (116)	na
Microsoft Azure Machine Learning (113)
SAS Base (112)
IBM SPSS Modeler (100)
Theano (100)
其他深度学习工具 (100)
SAS Enterprise Miner (89)
QlikView (89)
Orange (85)
Alteryx (83)
MLlib (77)
DeepLearning4J (69)
Amazon Machine Learning (67)
IBM Watson / Watson Analytics (64)
TIBCO Spotfire (63)
Microsoft Cognitive Toolkit（之前称 CNTK） (62)
其他付费分析/数据挖掘/数据科学软件 (50)
Gnu Octave (44)
Teradata (44)	na
Microsoft Machine Learning Server（前身为 R Server） (43)	na
Rattle (41)
Minitab/Salford Systems (36)
JMP (35)
MicroStrategy (35)
Pentaho (33)
Mathematica (32)
Apache MXnet (31)
Stata (31)
Caffe (30)
IBM Cognos (30)
IBM Data Science Experience (29)	na
SAP Analytics/预测分析 (28)
Microsoft 其他 ML/数据科学工具 (27)
SAP HANA (27)
Solver (前身为 XLMiner) (27)
DataRobot (26)
TIBCO Statistica (26)
Databricks Unified Analytics Platform (25)	na na
Caffe2 (24)	na na
TFLearn (23)	na na
Perl (21)
Oracle Advanced Analytics (21)
C4.5/C5.0/See5 (20)
Torch (20)
BigML (18)
Julia (14)
DataScience.com (12)	na
BayesiaLab (12)
Vowpal Wabbit (9)
Lasagne (7)	na
RapidInsight/Veera (7)
Angoss/Datawatch (6)
Lisp (6)
Clojure (4)
Domino Data Labs (3)	na
F# (3)
Ontotext GraphDB (3)

这是之前 KDnuggets 调查中关于分析、数据挖掘、数据科学软件的结果：

分析、数据科学、机器学习软件的最新领导者、趋势和惊喜，2017 年
R 和 Python 竞争顶级分析、数据科学软件，2016 年
R 领先 RapidMiner，Python 追赶，大数据工具增长，Spark 引发关注，2015 年
RapidMiner 持续领先，2014 年
RapidMiner 和 R 争夺第一，2013 年
KDnuggets 2012 年调查：使用的分析、数据挖掘、大数据软件
KDnuggets 2011 年调查：使用的数据挖掘/分析工具
KDnuggets 2010 年调查：使用的数据挖掘/分析工具
KDnuggets 2009 年调查：使用的数据挖掘工具
KDnuggets 2008 年投票：数据挖掘软件使用情况
KDnuggets 2007 年投票：数据挖掘/分析软件工具

Jean-Francois Puget, @JFPuget :

我有点失望，最新的@kdnuggets调查没有包括任何关于使用 XGBoost 或其他梯度提升机器的选项。这错过了 #MachineLearning 中的一个真实趋势。

Miyuru，WSO2 Stream Processor WSO2 Stream Processor 是一个开源、可扩展且功能丰富的流处理平台，目前被许多全球企业使用。它可以从 Kafka、HTTP 请求、消息代理中获取数据，并可以使用“流 SQL”语言查询数据流。仅用两台普通服务器就能提供高可用性，并能处理 100K+ TPS 吞吐量。它可以在 Kafka 上扩展到数百万 TPS。WSO2 Stream Processor 是使用 Siddhi 库构建的，执行流处理和复杂事件处理。请参见 https://wso2.com/analytics, https://github.com/wso2/siddhi

纳文·古德·博布里，

RStudio 也不在我每天使用的列表中

我们的三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你所在组织的 IT