频道导航

linux – 如何编辑300 GB文本文件(基因组数据)？

2019-05-15 Linux 前端之家

前端之家收集整理的这篇文章主要介绍了linux – 如何编辑300 GB文本文件(基因组数据)？，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我有一个300 GB的文本文件,其中包含超过250k记录的基因组数据.有些记录包含不良数据,我们的基因组程序’Popoolution’允许我们用星号注释掉“坏”记录.我们的问题是我们找不到将加载数据的文本编辑器,以便我们可以注释掉不良记录.有什么建议？我们有Windows和Linux盒子.

更新：更多信息

程序Popoolution(https://code.google.com/p/popoolation/)在达到“坏”记录时崩溃,向我们提供我们可以注释掉的行号.具体来说,我们从Perl收到一条消息“F#€& Scaffolding”.手册建议我们可以使用星号来注释坏线.可悲的是,我们必须多次重复这个过程……

还有一个想法……是否有一种方法可以让我们在不打开整个文本文件的情况下将星号添加到行中.鉴于我们必须重复该过程未知次数,这可能非常有用.

最佳答案

根据您的更新：

One more thought… Is there an approach that would allow us to add
the asterisk to the line without opening the entire text file at once.
This could be very useful given that we will have to repeat the
process an unknown number of times.

在这里你有一个方法：如果你知道行号,你可以在该行的开头添加一个星号说：

sed 'LINE_NUMBER s/^/*/' file

看一个例子：

$cat file
aa
bb
cc
dd
ee
$sed '3 s/^/*/' file
aa
bb
*cc
dd
ee

如果添加-i,则会更新该文件：

$sed -i '3 s/^/*/' file
$cat file
aa
bb
*cc
dd
ee

即使我一直认为重定向到另一个文件更好

sed '3 s/^/*/' file > new_file

这样您就可以保留原始文件的完整性并将更新的文件保存在new_file中.

上一篇：在Linux中运行R时出错下一篇：linux – 在两个不同的文件中显示

猜你在找的Linux相关文章

文件查找---find

文件查找（find） 1 find 简单的说，就是实时查找指定的内容或条件。特点：最新、最快、最...

作者：Sunzz 时间：2024-09-28

非交互式添加分区

非交互式添加分区方法一添加/deb/sdb 下的分区，其实位置为1到1000M，第二个分区位置为1...

作者：Sunzz 时间：2024-09-28

编译安装httpd

编译安装httpd 1 去官网下载源码包为避免非法软件，一定要去官网下载http://www.apache.o...

作者：Sunzz 时间：2024-09-28

磁盘分区-gdisk用法

gdisk用法 gdisk - InteractiveGUIDpartitiontable (GPT) manipulator GPTfdisk (akagdisk...

作者：Sunzz 时间：2024-09-28

Linux常用快捷按键

1 一定用快捷键这里简单的说下几个常用的快捷按键。 1.1 移动光标快捷键 Crtl + a 光...

作者：Sunzz 时间：2024-09-28

文件的压缩与解压

文件的压缩与解压常用命令和参数 1 gzip -c 将压缩或解压的结果输出至标准输出 -d 解压缩...

作者：Sunzz 时间：2024-09-28

合并 CentOS 6.8 的两个ISO镜像

合并 CentOS 6.8 的两个ISO镜像 1、创建相关目录：说明： /mnt/dvd1和/mnt/dvd2 用于挂载...

作者：Sunzz 时间：2024-09-28

常用的文件查看命令

常用的文件查看命令 1 cat 常用参数 -n 显示行号 -E 显示行尾结束符 $ -b 显示非空行编号 ...

作者：Sunzz 时间：2024-09-28

mount 1 挂载mount 基本概念挂载：将额外文件系统与根文件系统现存的目录建立起关联关系，...

作者：Sunzz 时间：2024-09-28

部署DNS服务

DNS，全称Domain Name System，即域名解析系统。 DNS功能主机名到IP地址的映射有两种方式...

作者：Sunzz 时间：2024-09-28

编程分类

Linux Windows CentOS Ubuntu Nginx WebService Scala Memcache Apache Redis Docker Bash Azure Tomcat LNMP Shell 数据结构服务器运维网络安全

最新文章