频道导航

python – 从txt文件中删除重复的行

2019-05-24 Linux 前端之家

前端之家收集整理的这篇文章主要介绍了python – 从txt文件中删除重复的行，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我正在处理包含由行分隔的数据的大型文本文件(~20MB).
大多数数据条目是重复的,我想删除这些重复只保留一个副本.

此外,为了使问题稍微复杂一些,重复一些条目并附加额外的信息.在这种情况下,我需要保留包含额外信息的条目并删除旧版本.

例如
我需要离开这个：

BOB 123 1DB
JIM 456 3DB AX
DAVE 789 1DB
BOB 123 1DB
JIM 456 3DB AX
DAVE 789 1DB
BOB 123 1DB EXTRA BITS

对此：

JIM 456 3DB AX
DAVE 789 1DB
BOB 123 1DB EXTRA BITS

NB.最后的订单无关紧要.

有效的方法是什么？

我可以使用awk,python或任何标准的linux命令行工具.

谢谢.

最佳答案

如何(在Python中)：

prev = None
for line in sorted(open('file')):
  line = line.strip()
  if prev is not None and not line.startswith(prev):
    print prev
  prev = line
if prev is not None:
  print prev

如果您发现内存使用存在问题,可以使用Unix排序(即disk-based)将排序作为预处理步骤进行排序,并更改脚本以使其不会将整个文件读入内存.

上一篇：strdup在传递NULL时转储核心下一篇：编译器如何知道您使用的函数是系统

猜你在找的Linux相关文章

文件查找---find

文件查找（find） 1 find 简单的说，就是实时查找指定的内容或条件。特点：最新、最快、最...

作者：Sunzz 时间：2024-09-28

非交互式添加分区

非交互式添加分区方法一添加/deb/sdb 下的分区，其实位置为1到1000M，第二个分区位置为1...

作者：Sunzz 时间：2024-09-28

编译安装httpd

编译安装httpd 1 去官网下载源码包为避免非法软件，一定要去官网下载http://www.apache.o...

作者：Sunzz 时间：2024-09-28

磁盘分区-gdisk用法

gdisk用法 gdisk - InteractiveGUIDpartitiontable (GPT) manipulator GPTfdisk (akagdisk...

作者：Sunzz 时间：2024-09-28

Linux常用快捷按键

1 一定用快捷键这里简单的说下几个常用的快捷按键。 1.1 移动光标快捷键 Crtl + a 光...

作者：Sunzz 时间：2024-09-28

文件的压缩与解压

文件的压缩与解压常用命令和参数 1 gzip -c 将压缩或解压的结果输出至标准输出 -d 解压缩...

作者：Sunzz 时间：2024-09-28

合并 CentOS 6.8 的两个ISO镜像

合并 CentOS 6.8 的两个ISO镜像 1、创建相关目录：说明： /mnt/dvd1和/mnt/dvd2 用于挂载...

作者：Sunzz 时间：2024-09-28

常用的文件查看命令

常用的文件查看命令 1 cat 常用参数 -n 显示行号 -E 显示行尾结束符 $ -b 显示非空行编号 ...

作者：Sunzz 时间：2024-09-28

mount 1 挂载mount 基本概念挂载：将额外文件系统与根文件系统现存的目录建立起关联关系，...

作者：Sunzz 时间：2024-09-28

部署DNS服务

DNS，全称Domain Name System，即域名解析系统。 DNS功能主机名到IP地址的映射有两种方式...

作者：Sunzz 时间：2024-09-28

编程分类

Linux Windows CentOS Ubuntu Nginx WebService Scala Memcache Apache Redis Docker Bash Azure Tomcat LNMP Shell 数据结构服务器运维网络安全

最新文章