Python进阶编程:编写更高效、优雅的Python代码
上QQ阅读APP看书,第一时间看更新

3.1.3 序列去重并保持顺序

从序列中删除元素或删除重复元素是非常频繁的操作,若需要在删除的同时保持序列中元素的顺序,怎样操作可以更优雅且高效地完成删除?

如果序列上的值都是hashable类型,那么可以简单地利用集合或者生成器来解决这个问题,代码(sequence_delete_exp.py)示例如下:


def dedupe_1(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)


sequence_v = [1, 2, 3, 5, 2, 3]
print(list(dedupe_1(sequence_v)))

执行py文件,输出结果如下:


[1, 2, 3, 5]

当序列中元素为hashable类型时,上述处理方法没有问题;当序列中元素不是hashable类型时(比如dict类型),这种写法就做不到去重。

如果元素不可哈希,要消除序列中重复元素,需要将上述代码稍做改变,代码(sequence_delete_exp.py)示例如下:


def dedupe_2(items, key=None):
    seen = set()
    for item in items:
        # val = item if key is None else key(item)
        if (val := item if key is None else key(item)) not in seen:
            yield item
            seen.add(val)

sequence_v = [{'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]
print(list(dedupe_2(sequence_v, key=lambda d: (d['x'],d['y']))))
print(list(dedupe_2(sequence_v, key=lambda d: d['x'])))

执行py文件,输出结果如下:


[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]
[{'x': 1, 'y': 2}, {'x': 2, 'y': 4}]

示例代码中使用了Python3.8的新特性——赋值表达式(:=),在后续的很多地方会用到该表达式。

代码中的key参数指定了一个函数,用于将序列元素转换成hashable类型。

如果想基于单个字段、属性或者某个更大的数据结构来消除重复元素,该方案同样可以胜任。如果只是想消除重复元素,简单地构造一个set集合即可实现。使用set集合不能维护元素的顺序,生成的结果中的元素位置会被打乱。

上面示例中使用了生成器函数,使得定义的函数更加通用。