删除在Linux下大型数据文件中重复字段的一部分的方法

删除在Linux下大型数据文件中重复字段的一部分的方法
评论:如果你找Linux,你找不到合适的工具。SED /呆呆的等流处理工具只能处理一行或一列,你不能找到重复的行字段。它有自己的Python程序,突然想起了MySQL,所以宇宙的巨大转变

数据采集程序最近写生成线包含100万个数据文件,从4场分量的数据,按照第二场的要求需要删除重复行,zhaolaizhaoqu Linux没有找到合适的工具,SED /呆呆的只有一行处理流处理工具,并不能找到字段重复的行。它有自己的Python程序,突然想起了MySQL,所以宇宙的巨大转变:

1。使用mysqlimport --当地dbname data.txt导入数据到表中,与表名与文件名一致
2。执行下面的SQL语句(所需的唯一领域uniqfield)
复制代码代码如下所示:
在使用;
tablename表添加ROWID int auto_increment不空;
创建表的选择min(rowid)为ROWID字段组;
创建表的表名,表名是T2选择T rowid =。从t.rowid;
滴表;
重命名表T2表;

tag:字段数据文件删除方法电脑软件

相关内容