当前位置: 首页 > news >正文

网站域名申请怎么做综合管理平台系统

网站域名申请怎么做,综合管理平台系统,58同城招聘 招聘网,iis安装wordpresspandas读取excel数据并对重复数据进行标记或者删除​mp.weixin.qq.compandas通常在读取excel数据之后#xff0c;如果需要进行去重#xff0c;有两种方式#xff0c;一种是进行标记#xff0c;另一种是在pandas中直接去重如下图所示#xff0c;excel数据#xff1a;…pandas读取excel数据并对重复数据进行标记或者删除​mp.weixin.qq.compandas通常在读取excel数据之后如果需要进行去重有两种方式一种是进行标记另一种是在pandas中直接去重如下图所示excel数据1使用drop_duplicates(subsetNone, keep‘first’, inplaceFalse)删除重复项参数解释Parameters----------subset : column label or sequence of labels, optionalOnly consider certain columns for identifying duplicates, bydefault use all of the columns指定列标记默认当每一条行记录完全相同时才会认定为重复行keep : {‘first’, ‘last’, False}, default ‘first’- first : Drop duplicates except for the first occurrence.- last : Drop duplicates except for the last occurrence.- False : Drop all duplicates.删除重复行时保留first还是last还是全部删除inplace : boolean, default FalseWhether to drop duplicates in place or to return a copy直接替换还是保留副本 import pandas as pddf pd.read_excel(rC:UsersliuchaoDesktopStudents.xlsx, Sheet1)dfID Name Test_1 Test_2 Test_3 0 0 Student_001 41 31 54 1 1 Student_002 86 22 59 2 2 Student_003 54 25 68 3 3 Student_004 82 36 92 4 4 Student_001 41 31 93 # 如上图所示df中其实是没有重复的因此在做删除时是不会删除任一行的df.drop_duplicates()ID Name Test_1 Test_2 Test_3 0 0 Student_001 41 31 54 1 1 Student_002 86 22 59 2 2 Student_003 54 25 68 3 3 Student_004 82 36 92 4 4 Student_001 41 31 93 # 删除Name中的相同数据并保留最后重复中的最后一行记录df1 df.drop_duplicates([Name], keeplast)df1ID Name Test_1 Test_2 Test_3 1 1 Student_002 86 22 59 2 2 Student_003 54 25 68 3 3 Student_004 82 36 92 4 4 Student_001 41 31 93 # 只有当Name, Test_1中两列重复时才删除重复行df2 df.drop_duplicates([Name, Test_1], keepfirst)df2ID Name Test_1 Test_2 Test_3 0 0 Student_001 41 31 54 1 1 Student_002 86 22 59 2 2 Student_003 54 25 68 3 3 Student_004 82 36 92 # 由于此时inreplace默认为false因此df并不会发生变化dfID Name Test_1 Test_2 Test_3 0 0 Student_001 41 31 54 1 1 Student_002 86 22 59 2 2 Student_003 54 25 68 3 3 Student_004 82 36 92 4 4 Student_001 41 31 932使用df.duplicated(subsetNone, keep‘first’)对重复行进行标记 df[res] df.duplicated([Name], keeplast)dfID Name Test_1 Test_2 Test_3 res 0 0 Student_001 41 31 54 True 1 1 Student_002 86 22 59 False 2 2 Student_003 54 25 68 False 3 3 Student_004 82 36 92 False 4 4 Student_001 41 31 93 False # 这样便对原数据进行了标记可以将结果输入到excel中做进一步处理df.to_excel(rC:UsersliuchaoDesktopStudents.xlsx, Sheet2, indexNone)哈哈以上就是对pandas如何处理重复数据的学习如果您有兴趣欢迎关注python小工具。一起让办公变得更方便吧
http://www.huolong8.cn/news/2098/

相关文章: