做网站怎么添加图片,比较放得开的几个直播平台,网站做qq链接代码,wordpress如何添加首页图片数据建模之前#xff0c;我们从数据部门拿到数据#xff0c;但是这些数据的格式往往并不是我们可以直接使用的#xff0c;比如下面表中的数据#xff08;左#xff1a;原数据格式#xff09;。
原数据格式id自成一列#xff0c;这个很好#xff0c;但是标签和标签的置…数据建模之前我们从数据部门拿到数据但是这些数据的格式往往并不是我们可以直接使用的比如下面表中的数据左原数据格式。
原数据格式id自成一列这个很好但是标签和标签的置信度这个id属于这个标签的可能性 都在一个单元格里仅用空格分隔开来这对数据处理的过程中很不方便。
我们需要将数据转化成右图格式右所需数据格式这有利于我们用id和其他表格中的数据匹配。
原数据格式id标签所需数据格式idtagtag置信度222201数学老师 0.67 父亲 0.87 儿子 0.77222201数学老师0.67222202全职太太 0.56 孕妈 0.45222202全职太太0.56222203大学生 0.33 服务员 0.48 社团主席 0.68222203大学生0.33222204父亲 0.79 服务员 0.56222204父亲0.79222205语文老师 0.89 222205语文老师0.89222206年级长 0.86 数学老师 0.74222206年级长0.86222207大学生 0.65 222207大学生0.65
Python代码
import pandas as pddatafile uD:\\pythondata\\learn\\split.xlsx
data pd.read_excel(datafile)n 3 #n表示一个id最多有多少个标签
namesdata[标签].str.split( ,expandTrue) #将标签列按照空格分割数据
names.columns[tag,tag置信度] * n #分割为多列之后为列重命名data_total pd.DataFrame(columns[id, tag, tag置信度])#设置一个空的DataFrame
for i in range(n):data_0i pd.concat([data.iloc[:,:1], names.iloc[:,i*2:(i1)*2]], axis 1, joinouter, sortFalse)data_0i data_0i.dropna()#删除包含空值的行data_total pd.concat([data_total, data_0i],axis0)#向下合并数据data_total data_total.reset_index(drop True)#重新建立索引代替原有的索引
print(data_total)
在实现这个格式转化的过程中我们涉及到分割函数 split、合并函数 concat、删除缺失值函数 dropna、建立索引 reset_index备忘over