频道导航

[Linux] 大数据库导出大文件统计并去重

2021-02-02 Linux 前端之家

前端之家收集整理的这篇文章主要介绍了[Linux] 大数据库导出大文件统计并去重，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

1. 把数据库表导出到文本文件中

MysqL -h主机 -P端口 -u用户 -p密码 -A 数据库 -e "select email,domain,time from ent_login_01_000" > ent_login_01_000.txt

总共要统计最近3个月的登陆用户,按月份分表,并且每月有128张表,全部导出到文件中,总共有80G

2. grep 查出所有的2018-12 2019-01 2019-02

find ./ -type f -name "ent_login_*" |xargs cat |grep "2018-12" > 2018-12.txt
find ./ -type f -name "ent_login_*" |xargs cat |grep "2019-01" > 2019-01.txt
find ./ -type f -name "ent_login_*" |xargs cat |grep "2019-02" > 2019-02.txt

3.使用awk sort 和 uniq 只取出前面的用户,并且先去一下重复行

cat 2019-02.txt|awk -F " " '{print $1"@"$2}'|sort -T /mnt/public/PHPdev/187_test/tmp/|uniq > 2019-02-awk-sort-uniq.txt

cat 2019-01.txt|awk -F " " '{print $1"@"$2}'|sort -T /mnt/public/PHPdev/187_test/tmp/|uniq > 2019-01-awk-sort-uniq.txt

cat 2018-12.txt|awk -F " " '{print $1"@"$2}'|sort -T /mnt/public/PHPdev/187_test/tmp/|uniq > 2018-12-awk-sort-uniq.txt

uniq 只去除连续的重复行,sort可以把行排成连续的 -T是因为默认占用/tmp的临时目录,根目录我的不够用了,因此改一下临时目录

这几个文件占用了100多G

上一篇：[Linux] scp本地服务器和远程服务器下一篇：[Linux] awk与posix字符集

猜你在找的Linux相关文章

文件查找---find

文件查找（find） 1 find 简单的说，就是实时查找指定的内容或条件。特点：最新、最快、最...

作者：Sunzz 时间：2024-09-28

非交互式添加分区

非交互式添加分区方法一添加/deb/sdb 下的分区，其实位置为1到1000M，第二个分区位置为1...

作者：Sunzz 时间：2024-09-28

编译安装httpd

编译安装httpd 1 去官网下载源码包为避免非法软件，一定要去官网下载http://www.apache.o...

作者：Sunzz 时间：2024-09-28

磁盘分区-gdisk用法

gdisk用法 gdisk - InteractiveGUIDpartitiontable (GPT) manipulator GPTfdisk (akagdisk...

作者：Sunzz 时间：2024-09-28

Linux常用快捷按键

1 一定用快捷键这里简单的说下几个常用的快捷按键。 1.1 移动光标快捷键 Crtl + a 光...

作者：Sunzz 时间：2024-09-28

文件的压缩与解压

文件的压缩与解压常用命令和参数 1 gzip -c 将压缩或解压的结果输出至标准输出 -d 解压缩...

作者：Sunzz 时间：2024-09-28

合并 CentOS 6.8 的两个ISO镜像

合并 CentOS 6.8 的两个ISO镜像 1、创建相关目录：说明： /mnt/dvd1和/mnt/dvd2 用于挂载...

作者：Sunzz 时间：2024-09-28

常用的文件查看命令

常用的文件查看命令 1 cat 常用参数 -n 显示行号 -E 显示行尾结束符 $ -b 显示非空行编号 ...

作者：Sunzz 时间：2024-09-28

mount 1 挂载mount 基本概念挂载：将额外文件系统与根文件系统现存的目录建立起关联关系，...

作者：Sunzz 时间：2024-09-28

部署DNS服务

DNS，全称Domain Name System，即域名解析系统。 DNS功能主机名到IP地址的映射有两种方式...

作者：Sunzz 时间：2024-09-28

编程分类

Linux Windows CentOS Ubuntu Nginx WebService Scala Memcache Apache Redis Docker Bash Azure Tomcat LNMP Shell 数据结构服务器运维网络安全

最新文章