Storm中Trident State详解

一、Trident State概述

我们知道Trident的计算都是以batch为单位的，但是batch中的tuple在处理过程中有可能会失败，所以基于一致性语义的规则，对于失败之后bach又有可能会被重播的情况，我们如何提交，保存，更新 Trident的计算结果。那么Trident State给出了方案。
在这里插入图片描述
Batch处理分成两个阶段：

1、processing阶段：这个阶段很多batch可以并行计算。
2、commit阶段：这个阶段各个batch之间需要有强顺序性的保证。所以第二个batch必须要在第一个batch成功提交之后才能提交。

在这里插入图片描述

二、Transactional Spouts详解

storm应该能够提供不同的容错级别，因为某些情况下我们并不需要强一致性。为了更灵活的处理，Trident提供了三类spout，分别是：

Transactional spouts : 事务spout，提供了强一致性
Opaque Transactional spouts： 不透明事务spout，提供了弱一致性
No-Transactional spouts： 非事务spout，对一致性无法保证

所有的Trident Spout都是以batch的形式发送数据，每个batch也都会分配一个唯一的txid，决定它们有不同性质的地方在于它们对各自的batch提供了什么样的保证

Transactional spouts，也叫事务spout，提供了强一致性，有如下三点保障：

1.一个txid对应一个batch，如果一个batch被重发，txid不变
2.任意两个batch中不会有tuple相同
3.每个tuple都会被放到一个batch中，不会有tuple被漏掉

在这里插入图片描述

三、Opaque Transactional Spout详解

并不是所有情形下都需要保证强一致性。例如在TransactionalTridentKafkaSpout中，如果它的一个batch中的tuples来自一个topic的所有partitions，如果要满足Transactionnal Spout语义的话，一旦这个 batch因为某些失败而被重发，重发batch中的所有tuple必须与这个batch中的完全一致，而恰好kafka集群某个节点down掉导致这个topic其中一个partition无法使用，那么就会导致这个batch无法凑齐所有tuple（无法获取失败partition上的数据），整个处理过程被挂起。而Opaque Transactional spouts就可以解决这个问题。
Opaque Transactional spouts提供了如下保证：
每个tuple只在一个batch中被成功处理，如果一个batch中的tuple处理失败的话，会被后面的batch继续处理。

其实OpaqueTransactional spout和Transactional spouts基本差不多，只是在Opaque Transactional spout中，相同txid的 batch中的tuple集合可能不一样。OpaqueTridentKafkaSpout就是符合这种特性的spout的，所以它可以容忍kafka节点失败。因为重播的Batch中的tuple集合可能不一样，所以对于Opaque Transactional Spout，就不能根据txid是否一致来决定是否需要更新状态了。我们需要在数据库中保存更多的状态信息，除了单词名，数量、txid之外，我们还需要保存一个pre-value来记录前一次计算的值。

在这里插入图片描述

四、Trident中Spout与State的关系

在这里插入图片描述
总的来说， Opaque transactional states即有一定的容错性又能保证数据一致性，但它的代价是需要在数据库中保存更多的状态信息（txid和preValue）。Transactional states虽然需要较少的状态信息(txid)，但是它需要transactional spouts的支持。non-transactional states需要在数据库中保存最少的状态信息但难以保证“数据只被处理一次”的语义。

因此，在实际应用中，spout和state类型的选择需要根据我们具体应用需求来决定，当然在容错性和增加存储代价之间也需要做个权衡。

五、事务性Spout的实现机制

事务性的spout需要实现ITransactionalSpout，这个接口包含两个内部类Coordinator 和Emitter。在topology运行的时候，事务性的spout内部包含一个子的topology,其中 coordinator是spout，emitter是bolt。coordinator为事务性batch发射tuple，Emitter负责为每个batch实际发射tuple。

在这里插入图片描述