storlet用例

storlet用例

Queriable “Secondary Storage” Data（可查询的“二级存储数据）

据说，对象存储的主要用例是作为二级存储。随着收集和分析的数据量的增加（有人说IoT？），这些数据的大部分将进入二级存储。

保存在二级存储上并不意味着数据不再被查询：最近发现的趋势是可能会在移动到二级存储的旧数据中进行搜索。Storlets允许对Swift中的数据进行有效和简单的查询。

另一个密切相关的用例是聚合。在数据变老时汇总数据是众所周知的做法（即聚合旧数据）。 Storlets可以作为“in place”数据聚合器。

下面是更具体的用例，这些用例属于高效可列出的二级存储数据的定义。

Pushing down SQL filtering from Spark（从spark中推送SQL过滤条件到storlet中执行）

Apache Spark是一种最流行的分析引擎，它具有多种用于各种分析工作负载的插件。此外，Spark可以与各种后端存储系统配合使用，Swift是其中之一。 Spark SQL是一个Spark插件，可以分析结构化数据。 Spark SQL的核心是一个称为“Catalyst”的SQL引擎。 给定一个SQL查询后“Catalyst”可以标识其过滤部分。因此，过滤部分可以向下推到Storlet。 这个想法在东京Openstack峰会上提出，可以在[1]中看到。

Analysis over binary data（在二进制数据上进行分析）

分析通常在文本数据上完成。在某些情况下，数据以二进制格式嵌入。 Storlets可用于从二进制对象中提取文本数据，从而节省了在提取之前下载文本数据的需要。 一个这样的例子是jpegs中的exif元数据。这个想法在巴黎Openstack峰会上提出，可以在[2]中看到。

1. https://www.youtube.com/watch?v=v9KCh–6Zw8

2. https://www.youtube.com/watch?v=7tqMT0arV2k

Data Privacy

共享包含敏感信息的数据是worthwhile的，只要这些信息被模糊化。一些例子是：
1. 属于病人的医疗记录可以提供给研究人员，但要将身份信息模糊化。
2. 金融交易日志就可以提供给分析应用程序，只要将有关的识别信息掩盖。
3. 智能电表可以将原始数据提供给使用情况分析应用程序，但要将数据平均，原始数据是敏感的，因为它可以揭示居民在家的时间。
4. 有人在内的景观图片可以提供给例如Google地球，只要脸部是模糊的。
5. 可以向制造商提供3D设计，只要将切片进行有损变换后。

Storlets可以屏蔽敏感信息，而不会使数据离开存储系统。一个PoC，如果概念是在ForgetIT EU reasearch项目的背景下进行的，那么可以在[1]看到

1. https://www.youtube.com/watch?v=3rXeNbps8wo&t=105

The Chip Bakers Use Case

the chip bakers用例的核心是观察到将更多的处理能力投入存储机器而不是投资于高带宽管道会使得成本更加便宜。

这种用例的具体示例是云中的媒体处理。原始媒体文件很大，随着分辨率的不断提高而变得更大。处理这些文件包括各种类型的特征提取、格式转换和元数据丰富。这种处理的某些部分在CPU上很重，但是带宽可能更重（PS: 耗费很大的传输带宽）。

这个用例在巴黎Openstack峰会上发布，被列为super user story，可以在[1]中看到。

1.http://superuser.openstack.org/articles/docker-meets-swift-a-broadcaster-s-experience

openstack storlet文档（二）