上QQ阅读APP看书,第一时间看更新
3.1.3 序列去重并保持顺序
从序列中删除元素或删除重复元素是非常频繁的操作,若需要在删除的同时保持序列中元素的顺序,怎样操作可以更优雅且高效地完成删除?
如果序列上的值都是hashable类型,那么可以简单地利用集合或者生成器来解决这个问题,代码(sequence_delete_exp.py)示例如下:
def dedupe_1(items): seen = set() for item in items: if item not in seen: yield item seen.add(item) sequence_v = [1, 2, 3, 5, 2, 3] print(list(dedupe_1(sequence_v)))
执行py文件,输出结果如下:
[1, 2, 3, 5]
当序列中元素为hashable类型时,上述处理方法没有问题;当序列中元素不是hashable类型时(比如dict类型),这种写法就做不到去重。
如果元素不可哈希,要消除序列中重复元素,需要将上述代码稍做改变,代码(sequence_delete_exp.py)示例如下:
def dedupe_2(items, key=None): seen = set() for item in items: # val = item if key is None else key(item) if (val := item if key is None else key(item)) not in seen: yield item seen.add(val) sequence_v = [{'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}] print(list(dedupe_2(sequence_v, key=lambda d: (d['x'],d['y'])))) print(list(dedupe_2(sequence_v, key=lambda d: d['x'])))
执行py文件,输出结果如下:
[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}] [{'x': 1, 'y': 2}, {'x': 2, 'y': 4}]
示例代码中使用了Python3.8的新特性——赋值表达式(:=),在后续的很多地方会用到该表达式。
代码中的key参数指定了一个函数,用于将序列元素转换成hashable类型。
如果想基于单个字段、属性或者某个更大的数据结构来消除重复元素,该方案同样可以胜任。如果只是想消除重复元素,简单地构造一个set集合即可实现。使用set集合不能维护元素的顺序,生成的结果中的元素位置会被打乱。
上面示例中使用了生成器函数,使得定义的函数更加通用。