Python遍历列表删除多个元素或者重复元素

在遍历list的时候，删除符合条件的数据，结果不符合预期

num_list = [1, 2, 2, 2, 3]
print(num_list)

for item in num_list:
    if item == 2:
        num_list.remove(item)
    else:
        print(item)

print(num_list)

结果是

[1, 2, 2, 2, 3]
1
[1, 2, 3]

或者有：

num_list = [1, 2, 3, 4, 5]
print(num_list)

for i in range(len(num_list)):
    if num_list[i] == 2:
        num_list.pop(i)
    else:
        print(num_list[i])

print(num_list)

结果报错：

[1, 2, 3, 4, 5]
Traceback (most recent call last):
1
4
5
  File "tes.py", line 5, in <module>
    if num_list[i] == 2:
IndexError: list index out of range

Process finished with exit code 1

原因是，删除list中的元素后，list的实际长度变小了，但是循环次数没有减少，依然按照原来list的长度进行遍历，所以会造成索引溢出。

1.把列表拷贝，然后对原列表进行删除操作就没问题了

num_list = [1, 2, 2, 2, 3]
print(num_list)

for item in num_list[:]:
    if item == 2:
        num_list.remove(item)
    else:
        print(item)

print(num_list)

结果：

[1, 2, 2, 2, 3]
1
3
[1, 3]

num_list[:]是对原始的num_list的一个拷贝，是一个新的list，所以，我们遍历新的list，而删除原始的list中的元素，则既不会引起索引溢出，最后又能够得到想要的最终结果。此方法的缺点可能是，对于过大的list，拷贝后可能很占内存。

2.从后往前遍历列表，删除

3.filter函数

例子 list中去空字符（配合lambda表达式）：

condition = lambda t: t != "" (判断符合条件很复杂就不能使用lambda，自己写方法吧)

filter_list = list(filter(condition, list)

Python的List的底层是实现是一个PyObject*数组。如果每次增加一个元素都扩张内存的话效率太低，在增加元素的时候所以会有预申请内存。同理删除元素的时候也不是马上就减小内存空间，他会按照一定的策略减小。而这种减小不太好预测。
再加上删除后索引如何调整并没有明确定义。比如一个长度为3的List你删除了第2个那么第三个下标应该是2还是3，等等可能会引发歧义。如果这个时候内存达到了需要减小的条件，迭代器就不太好判断新的索引究竟是多少。
所以Python为了通用性和安全性考虑就禁止在遍历时删除元素了。

Python 去除列表中重复的元素

比较容易的是用内置的set

l1 = ['b','c','d','b','c','a','a']
l2 = list(set(l1))
print l2

还有一种据说速度更快的，没测试过两者的速度差别

l1 = ['b','c','d','b','c','a','a']
l2 = {}.fromkeys(l1).keys()
print l2

这两种都有个缺点，祛除重复元素后排序变了：

['a', 'c', 'b', 'd']

如果想要保持他们原来的排序：

用list类的sort方法

l1 = ['b','c','d','b','c','a','a']
l2 = list(set(l1))
l2.sort(key=l1.index)
print l2

也可以这样写

l1 = ['b','c','d','b','c','a','a']
l2 = sorted(set(l1),key=l1.index)
print l2

也可以用遍历

l1 = ['b','c','d','b','c','a','a']
l2 = []
for i in l1:
if not i in l2:
l2.append(i)
print l2

上面的代码也可以这样写

l1 = ['b','c','d','b','c','a','a']
l2 = []
[l2.append(i) for i in l1 if not i in l2]
print l2

这样就可以保证排序不变了：

['b', 'c', 'd', 'a']