需要实现一个简单的缓存结构,具有以下特定要求:
- 缓存数百万个小对象(平均 100 字节)
- 速度至关重要(包括写入和读取),预期操作时间约为几微秒
- 只有一个线程访问此缓存,因此缓存可以全部存在内存中(不需要持久性)
- 密钥是 MD5 哈希值(如果重要的话)
- 缓存具有全局过期时间,每个密钥应在过期时间后从缓存中删除,从第一次写入的时间开始计算
现在,重点是如何实现过期机制,因为其他所有操作都可以使用简单的字典来完成。最简单的解决方案是定期迭代所有数据并删除过期的密钥,但这可能会长时间锁定整个缓存。可以改进的方法是使用每个清理进程迭代部分数据,但仍然需要一些时间(或无法足够快地清除数据)。此外,逐个删除密钥看起来像 CPU 的浪费,因为它们可以批量删除(不必在到期后立即删除,我们可以负担一些额外的 RAM 来将过期的密钥保持更长时间)。
在检索期间检查密钥是不够的(尽管仍然应该这样做,以不返回过期的密钥),因为许多密钥可能永远不会被检索,然后它们将永久存在(或只是太久)。大多数针对该问题的答案都建议使用 memcached,但我认为这会浪费 CPU,特别是当我保留的对象可以通过引用放入字典时,但使用 memcached 它们必须进行(反)序列化。
我们有一些想法来实现这一点:将数据分成时间片,实际上有几个字典,例如,如果过期时间为 60 秒,那么我们最多有 4 个字典,每 20 秒我们添加一个新的字典,其中放入新的密钥,并删除第四个字典,其中包含在 60 秒前添加的密钥。这使得清除非常快速,但以检索时间为代价,在检索时您需要在 4 个字典中查找,而不是一个字典(并且 RAM 使用量增加了 33%)。
- 解决方案
以下是另一个简单的想法:按到达顺序将所有密钥链接到链表中。每次检索密钥时,从列表的开头开始迭代,从列表和字典中删除所有过期的项。
class Node:
def __init__(self, key, value):
self.key = key
self.value = value
self.next = None
class Cache:
def __init__(self, max_size, expire_time):
self.head = None
self.tail = None
self.size = 0
self.max_size = max_size
self.expire_time = expire_time
self.key_map = {
}
def put(self, key, value):
node = Node(key, value)
node.timestamp = time.time()
if self.size == 0:
self.head = node
self.tail = node
else:
self.tail.next = node
self.tail = node
self.key_map[key] = node
self.size += 1
if self.size > self.max_size:
self.remove_expired_keys()
def get(self, key):
if key not in self.key_map:
return None
node = self.key_map[key]
if time.time() - node.timestamp > self.expire_time:
self.remove_node(node)
return None
return node.value
def remove_expired_keys(self):
while self.head and time.time() - self.head.timestamp > self.expire_time:
self.remove_node(self.head)
def remove_node(self, node):
if node == self.head:
self.head = node.next
if node == self.tail:
self.tail = node.prev
if node.prev:
node.prev.next = node.next
if node.next:
node.next.prev = node.prev
del self.key_map[node.key]
self.size -= 1
cache = Cache(1000000, 60)
cache.put("key1", "value1")
cache.put("key2", "value2")
cache.put("key3", "value3")
print(cache.get("key1"))
print(cache.get("key2"))
print(cache.get("key3"))
最终的解决方案取决于您的特定用例和性能要求。