[pymongo] 특정 컬럼을 기준으로 중복데이터 제거하기
특정 컬럼을 기준으로 중복값이 들어가있는지 확인하고, 중복데이터를 제거하는 방법입니다. 일단 중복되는 값이 2개 이상인 데이터들만 가져옵니다! cursor = db.collection.aggregate( [ {"$group": {"_id": "$컬럼명", "unique_ids": {"$addToSet": "$_id"}, "count": {"$sum": 1}}}, {"$match": {"count": { "$gte": 2 }}} ] ) cursor를 list형으로 변환해서 출력해보면, 중복데이터들이 딕셔너리형태로 리스트 안에 들어있습니다. cursor list의 length가 길어질수록 중복데이터가 많이 나타난 것입니다. count는 특정컬럼명의 값이 동일한 데이터의 개수에요. 아래는 count가 2개인 ..