Python入门到脱坑经典案例—列表去重

off999 2025-06-15 18:36 79 浏览 0 评论

列表去重是Python编程中常见的操作，下面我将介绍多种实现列表去重的方法，从基础到进阶，帮助初学者全面掌握这一技能。

方法一：使用集合(set)去重（最简单）

python

def remove_duplicates_set(lst):
    """使用集合去重（不保持原始顺序）"""
    return list(set(lst))

# 示例
original_list = [3, 5, 2, 3, 8, 5, 9, 2]
result = remove_duplicates_set(original_list)
print(f"原始列表: {original_list}")
print(f"去重后: {result}")

方法二：保持顺序的去重方法

def remove_duplicates_ordered(lst):
    """保持原始顺序的去重方法"""
    seen = set()
    return [x for x in lst if not (x in seen or seen.add(x))]

# 示例
original_list = [3, 5, 2, 3, 8, 5, 9, 2]
result = remove_duplicates_ordered(original_list)
print(f"原始列表: {original_list}")
print(f"保持顺序去重后: {result}")

方法三：使用字典键去重（Python 3.7+保持插入顺序）

def remove_duplicates_dict(lst):
    """使用字典键去重（Python 3.7+保持顺序）"""
    return list(dict.fromkeys(lst))

# 示例
original_list = ['apple', 'banana', 'apple', 'orange', 'banana']
result = remove_duplicates_dict(original_list)
print(f"原始列表: {original_list}")
print(f"字典键去重后: {result}")

方法四：使用enumerate和列表推导式

def remove_duplicates_enumerate(lst):
    """使用enumerate去重（保持顺序）"""
    return [x for i, x in enumerate(lst) if x not in lst[:i]]

# 示例
original_list = [1, 2, 3, 2, 4, 3, 5]
result = remove_duplicates_enumerate(original_list)
print(f"原始列表: {original_list}")
print(f"枚举去重后: {result}")

方法五：使用pandas库（适合大数据量）

import pandas as pd

def remove_duplicates_pandas(lst):
    """使用pandas去重（保持顺序）"""
    return pd.unique(lst).tolist()

# 示例
original_list = [10, 20, 30, 20, 40, 10, 50]
result = remove_duplicates_pandas(original_list)
print(f"原始列表: {original_list}")
print(f"pandas去重后: {result}")

方法六：使用numpy库

import numpy as np

def remove_duplicates_numpy(lst):
    """使用numpy去重（不保持顺序）"""
    return np.unique(lst).tolist()

# 示例
original_list = [7, 5, 7, 3, 5, 9, 3]
result = remove_duplicates_numpy(original_list)
print(f"原始列表: {original_list}")
print(f"numpy去重后: {result}")

方法七：处理复杂对象的去重（基于某个属性）

ef remove_duplicates_objects(lst, key=None):
    """复杂对象去重（基于某个属性）"""
    seen = set()
    return [x for x in lst if not (key(x) in seen or seen.add(key(x)))]

# 示例
class Product:
    def __init__(self, id, name):
        self.id = id
        self.name = name
        
    def __repr__(self):
        return f"Product({self.id}, '{self.name}')"

products = [
    Product(1, "Apple"),
    Product(2, "Banana"),
    Product(1, "Apple"),
    Product(3, "Orange")
]

result = remove_duplicates_objects(products, key=lambda x: x.id)
print("原始产品列表:")
for p in products:
    print(p)
print("\n基于ID去重后:")
for p in result:
    print(p)

方法八：使用itertools.groupby（需要先排序）

from itertools import groupby

def remove_duplicates_groupby(lst):
    """使用groupby去重（需要先排序）"""
    lst.sort()
    return [key for key, _ in groupby(lst)]

# 示例
original_list = [5, 3, 5, 2, 3, 8, 5]
result = remove_duplicates_groupby(original_list)
print(f"原始列表: {original_list}")
print(f"groupby去重后: {result}")

性能比较

import timeit

original_list = list(range(1000)) * 3  # 创建包含重复项的大列表

def test_set():
    return list(set(original_list))

def test_ordered():
    seen = set()
    return [x for x in original_list if not (x in seen or seen.add(x))]

print("集合去重耗时:", timeit.timeit(test_set, number=1000))
print("保持顺序去重耗时:", timeit.timeit(test_ordered, number=1000))