[Linux] 大数据库导出大文件统计并去重

前端之家收集整理的这篇文章主要介绍了[Linux] 大数据库导出大文件统计并去重前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

1. 把数据库表导出到文本文件中@H_502_1@

MysqL -h主机 -P端口 -u用户 -p密码 -A 数据库 -e "select email,domain,time from ent_login_01_000" > ent_login_01_000.txt@H_502_1@

总共要统计最近3个月的登陆用户,按月份分表,并且每月有128张表,全部导出到文件中,总共有80G@H_502_1@

 @H_502_1@

@H_502_1@@H_502_1@

2. grep 查出所有的2018-12 2019-01 2019-02@H_502_1@

find ./ -type f -name "ent_login_*" |xargs cat |grep "2018-12" > 2018-12.txt
find ./ -type f -name "ent_login_*" |xargs cat |grep "2019-01" > 2019-01.txt
find ./ -type f -name "ent_login_*" |xargs cat |grep "2019-02" > 2019-02.txt@H_502_1@

3.使用awk  sort 和 uniq 只取出前面的用户,并且先去一下重复行@H_502_1@

cat 2019-02.txt|awk -F " " '{print $1"@"$2}'|sort -T /mnt/public/PHPdev/187_test/tmp/|uniq > 2019-02-awk-sort-uniq.txt@H_502_1@

cat 2019-01.txt|awk -F " " '{print $1"@"$2}'|sort -T /mnt/public/PHPdev/187_test/tmp/|uniq > 2019-01-awk-sort-uniq.txt@H_502_1@

cat 2018-12.txt|awk -F " " '{print $1"@"$2}'|sort -T /mnt/public/PHPdev/187_test/tmp/|uniq > 2018-12-awk-sort-uniq.txt@H_502_1@

uniq 只去除连续的重复行,sort可以把行排成连续的 -T是因为默认占用/tmp的临时目录,根目录我的不够用了,因此改一下临时目录@H_502_1@

这几个文件占用了100多G@H_502_1@

 @H_502_1@

猜你在找的Linux相关文章