SKIL/工作流程/资源

资源

当今世界,我们收集越来越多的增长和复杂的数据集,这些数据集往往需要使用复杂的模型。更重要的是,大型和非结构化的数据并没有一个适合所有存储解决方案。

要在有趣的现实问题上进行机器学习,需要适应大量(分布式)数据库、云服务和连接器。随着大型数据集的出现,需要大量的计算能力。

鉴于上述问题,模型开发平台必须具备必要的工具来利用外部存储和计算资源,以帮助数据科学家更快地获得结果。

从1.2版开始,SKIL支持在外部资源上运行spark作业。外部资源可以是本地拥有的Spark集群,也可以是云服务提供商资源,如AWS弹性Map Reduce、S3或谷歌DataProc等。

以下是与SKIL资源相关的重要概念:

 

资源

资源提供了一种使用主要云平台或本地Spark集群执行训练和推理作业的简单方法。SKIL中的资源分为两类:

  1. 计算
    • EMR - AWS 弹性Map Reduce
    • DataProc - Google 太数据计算引擎
    • HDInsight - Azure计算
    • Local Spark - 使用YARN作业调度 
  2. 存储
    • S3 - AWS简单存储服务
    • Google Storage - Google 云存储
    • Azure Storage - Azure 块存储
    • HDFS - 本地Hadoop

资源与其相应的凭证连接,SKIL需要与其连接的存储和计算资源,才能成功执行作业。
请注意,为了执行作业,存储资源和计算资源都应该属于同一个供应商。例如,作业可以使用AWS资源(EMR用于计算,S3用于存储),但不能将Google的DataProc与S3一起作为计算资源。

 

资源组
资源组是资源的逻辑分组,通常用于组织和访问管理。资源和资源组之间为多对多关系。即一个资源组可以包含多个资源,一个资源可以属于多个资源组。

注意

请注意,资源名称和资源ID是全局唯一的-资源组名称和组ID也是如此

 

作业

作业是在连接的SKIL资源的后台运行的计算。作业可以有两种类型:

  1. 训练
  2. 推理

 

凭证
凭证存储在一起(在JSON文件或数据库中),用于使用相应的资源API对连接的资源执行特权请求。例如,要与S3和EMR通信,凭证文件应具有以下格式的访问密钥和关联的安全密钥:

{
  "accessKey": "<access_key>",
  "secretKey": "<secret_key>" 
}

 

猜你喜欢

转载自blog.csdn.net/bewithme/article/details/89397102