简介

awk 是一种对立的编程语言，集成于所有UNIX/Linux中，这个名字是它创建者的名字首字母组成的 Alfred Aho,Peter Weinberger,and Brian Kernighan。

awk的基本语法

普通模式

awk '/pattern/{action}' files

其中patter是一个正则表达式，action又是一系列命令，对于满足匹配的文本执行一些动作，files表示待操作的文件，如果不指定，则输入是STDIN。如果不指定pattern，则对所有文件的每一行都执行action。

表达式模式

当在awk中使用比较操作符时，使用下面的语法模式，详见后面。

awk '(expression){action}' files

有如下一个示例文件

zdd.txt包含如下内容

Fruit Price/lbs
Banana 0.89
Paech 0.79
Kiwi 1.50
Pineapple 1.29
Apple 0.99

显示一个文件的所有行

awk '{ print ; }' zdd.txt

分号表示命令结束，这个例子没有pattern，只有action

域编辑

awk自动将读入的行分割成域（field），域是由一个或多个分隔符分割开的字符集，缺省的分隔符是tab和空格，访问域可以用$1，$2,... $n的形式，域都是从1开始的，而$0表示整个行（以行本来的面目呈现）

格式化输出水果及价格

awk '{ printf "%-15s %s\n",$1,$2 ;}' zdd.txt

输出如下

Fruit           Price/lbs
Banana          0.89
Paech            0.79
Kiwi              1.50
Pineapple      1.29
Apple            0.99

使用其他的域分隔符

awk的-F参数可以制定其他的域分隔符，比如下面的代码将打印D

echo A:B:C:D | awk -F: '{print $4}'

多个命令同时执行

在价格高于1美元的水果后面加* 以引起注意，这里包含了两个模式和动作对，直接书写即可，不必像sed那样加-e参数

awk '/[1-9]\.[0-9][0-9]$/ { print $0,"*"} /0\.[1-9][1-9]/ {print ;}' zdd.txt

输出如下

Banana 0.89
Paech 0.79
Kiwi 1.50 *
Pineapple 1.29 *
Apple 0.99
bash-3.2$

比较操作

awk中可以执行的比较操作有

<
>
<=
>=
!=
value ~ /pattern/
value !~ /pattern/

比较操作基本语法

awk '(expression){action}' files

其中expression是一个比较表达式，通常将其用括弧括起来。

在价格大于1美元的水果后面打印expensive

awk '$2 >= 1.0 { printf "%s\t%s\n",$0,"Expensive" ; }' zdd.txt

输出

Fruit Price/lbs Expensive
Kiwi 1.50       Expensive
Pineapple 1.29  Expensive

复合表达式

可以使用&&或||连接多个表达式，表达式用()扩起

(expr1) && (expr2)
(expr1) ||(expr)

next命令
看一个例子

awk '
$3 <= 75 { printf "%s\t%s\n","REORDER" ; }
$3 > 75 { print $0 ; }
' zdd.txt

这个命令的执行过程如下
(1) 读入一行，检查价格是否小于等于75，如果为真，则打印出REORDER
(2) 检查该行是否大于75，如果大于则直接打印
(3) 处理下一行
可见如果条件(1)满足，则不必再判断条件(2)了，如果避免这个多余的操作呢？使用next即可

awk '
$3 <= 75 { printf "%s\t%s\n","REORDER" ; next ; }
$3 > 75 { print $0 ; }
' zdd.txt

BEGIN和END

基本与法

awk '
    BEGIN { actions }
    /pattern/ { actions }
    /pattern/ { actions }
    END { actions }
' files

注意BEGIN对应的模式必须是第一个模式，而END对应的模式必须是最后一个模式。这两者都不参与文本行的处理，只是做一些初始化及善后工作。

BEGIN可以用来打印表头或者列名等，如下

BEGIN{
-F":"
printf "----------------------------------------------------------------\n"
printf "%-20s%-16s  Jan  |  Feb  |  Mar  |Total Donated\n ","NAME","PHONE"
printf "----------------------------------------------------------------\n"
}

7 以STDIN作为输入
打印文件名及大小，在ls命令的输出中，文件名位于第9列，而大小位于第5列

ls -l | awk '{ printf "%15s%15s\n",$9,$5}'
          ipck           1853
     ipcrm.exe           5632
      ipcs.exe          14336
      join.exe          52224
      kill.exe          10240
      less.exe         168960
  lessecho.exe           6144
   lesskey.exe           9728
      link.exe          42496
     lkbib.exe          52224
        ln.exe         114688
    locate.exe         122880
     login.exe          20992
   logname.exe          41472
   lookbib.exe          51712
       lpr.exe         299008
        ls.exe         122368
  makeinfo.exe         191488
       man.exe          37376
       man2dvi            409
  man2html.exe          45568
       manlint           7098

流控制

if

基本格式

if (expression1) {
    action1
} else if (expression2) {
    action2
} else {
    action3
}

一个例子，根据每行的特征字，在行末加注释。

awk '{ 
    print "%s\t",$0;
    if ($1 ~ /d/) {
        print "Directory\n";
    }
    else if ($NF ~ /\.pl/){
        print "Perl script\n";
    }
    else if ($NF ~ /\.bcp/) {
        print "BCP file\n";
    }
    else {
        print "\n";
    }
}'

while

for

awk中的for与C语言中的for类似。

awk '{ 
    for (x = 1; x <= NF; x++){
        printf "%s ",$x;
    }
    print "\n";
}' input_file ;

特殊技巧

NR==FNR

这条语句只有在输入是多个文件的时候才有意义，用来判断当前正在处理第一个文件。

NR 处理过的文件行数，多个文件累加。

FNR 处理过的文件行数，仅限当前文件。

所以，NR >= FNR。看一个例子

#cat a
张三|000001
李四|000002

#cat b
000001|10
000001|20
000002|30
000002|15

想要得到的结果是将用户名，帐号和金额在同一行打印出来,如下:

张三|000001|10
张三|000001|20
李四|000002|30
李四|000002|15

awk -F'|' 'NR==FNR{a[$2]=$0;next}{print a[$1] FS $2}' a b
awk -F'|' '{a[$2]=$0}NR>FNR{print a[$1] FS $2}' a b

[解析]
由NR=FNR成立,判断当前读入的是第一个文件a,然后使用{a[$2]=$0;next}循环将a文件的每行记录都存入数组a,并使用$2作为下标引用.next,不在执行后面的语句.
由NR=FNR不成立,判断当前读入了第二个文件b,然后跳过{a[$2]=$0;next},对第二个文件b的每一行都无条件执行{print a[$1]FS$2},此时变量$1为第二个文件的第一个字段,与读入第一个文件时,采用第一个文件的$2为数组下标相同.因此可以在此输出该数组的值。下面那种写法是不是更短呢？

awk应用

按条件打印文件

awk配合ls命令可以打印文件指定的某一列，ls -l的输出入下

-rwxr-xr-x   1 user1     staff       1805 Dec  4 22:59 abc.sh
drwxr-xr-x   3 user2     staff        512 Dec  4 22:59 test_report
-rwxr-xr-x   1 user3     staff      12526 Feb  1 03:12 test.pl
drwxr-xr-x   3 user1     staff        512 Feb  1 03:19 xyz

如果只想打印文件名（第九列），那么可以使用下面的方法，$9表示文本行的第九列。

ls -l | awk '{print $9;}'

如果只想打印user1创建的文件名，可以使用下面的方法，这里/user1/是一个pattern，表示只处理包含user1的文本行。

ls -l | awk '/user1/{print $9;}'

格式化打印

awk支持printf格式化打印。

只打印文件名和文件大小（文件名位于第9列，文件大小位于第5列）

ls -l | awk '{print $9,$5;}'

上面的代码虽然能打印，但是格式很乱，可以使用printf格式化一下。

%s参数，用来打印字符串，可以指定宽度，不足的补空格，正数表示右对齐，负数表示左对齐。%3s表示字符串宽度为3列，右边对齐，如果字符串实际宽度大于3，那么取实际宽度。

文件名左对齐，大小左对齐

ls -l | awk '{printf "%-16s%\t%-16s\n",$5;}'

文件名左对齐，大小右对齐

ls -l | awk '{printf "%-16s%\t%16s\n",$5;}'

文件名右对齐，大小左对齐

ls -l | awk '{printf "%16s%\t%-16s\n",$5;}'

文件名右对齐，大右左对齐

ls -l | awk '{printf "%16s%\t%16s\n",$5;}'

按行打印环境变量PATH

echo $PATH | awk -F: ' {
    for (i = 1; i <=NF; i++) {
        printf "%s\n",$i;
    }
}'

删除某个用户的所有文件

删除用户zdd的所有文件，注意-rf后面有一个空格。

@H_122_301@ls -l | awk '/zdd/{print "rm -rf " $9} | sh

Shell编程-awk

简介