主页 > 知识库 > pandas中DataFrame检测重复值的实现

pandas中DataFrame检测重复值的实现

热门标签:河北防封卡电销卡 天津电话机器人公司 应电话机器人打电话违法吗 电销机器人的风险 开封语音外呼系统代理商 开封自动外呼系统怎么收费 手机网页嵌入地图标注位置 地图标注线上如何操作 400电话办理哪种

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df 

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录,通过布尔索引
df[df.duplicated()]

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:
  • Pandas实现Dataframe的重排和旋转
  • Pandas实现Dataframe的合并
  • pandas中DataFrame数据合并连接(merge、join、concat)
  • 教你漂亮打印Pandas DataFrames和Series
  • 使用pandas忽略行列索引,纵向拼接多个dataframe
  • Pandas.DataFrame转置的实现
  • Pandas中DataFrame交换列顺序的方法实现
  • 详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据
  • Pandas中两个dataframe的交集和差集的示例代码
  • Pandas DataFrame求差集的示例代码
  • 浅谈pandas dataframe对除数是零的处理
  • Pandas中DataFrame数据删除详情

标签:兰州 成都 六盘水 江苏 山东 驻马店 常州 宿迁

巨人网络通讯声明:本文标题《pandas中DataFrame检测重复值的实现》,本文关键词  pandas,中,DataFrame,检测,重复,;如发现本文内容存在版权问题,烦请提供相关信息告之我们,我们将及时沟通与处理。本站内容系统采集于网络,涉及言论、版权与本站无关。
  • 相关文章
  • 下面列出与本文章《pandas中DataFrame检测重复值的实现》相关的同类信息!
  • 本页收集关于pandas中DataFrame检测重复值的实现的相关信息资讯供网民参考!
  • 推荐文章