正则表达式 – shell脚本 如何使用正则表达式提取字符串

前端之家收集整理的这篇文章主要介绍了正则表达式 – shell脚本 如何使用正则表达式提取字符串前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我是shell脚本的新手。我想使用curl发送一个http请求,然后使用正则表达式提取一些字符串。例如,如何从HTTP响应中提取域名? (这个例子只是为了学习目的)
#!/bin/bash
name=$(curl google.com | grep "www\..*com")
echo "domain name is"
echo $name
使用 bash regular expressions
re="http://([^/]+)/"
if [[ $name =~ $re ]]; then echo ${BASH_REMATCH[1]}; fi

编辑 – OP要求解释语法。 Regular expression syntax是一个很大的话题,我无法在这里全面解释,但我会尝试解释足够的理解这个例子。

re="http://([^/]+)/"

这是存储在bash变量中的正则表达式,即 – 您希望输入字符串匹配,并希望提取一个子字符串。打破它:

> http://只是一个字符串 – 输入字符串必须包含正则表达式匹配的这个子字符串
> []通常使用方括号表示“匹配括号内的任何字符”。所以c [ao] t将匹配“猫”和“婴儿床”。 []中的^字符修改为“匹配除方括号内的任何字符”,因此在这种情况下,[^ /]将匹配除“/”之外的任何字符。
>方括号表达式只匹配一个字符。添加到最后它说“匹配1个或更多的前一个子表达式”。所以[^ /]匹配一个或多个所有字符的集合,不包括“/”。
>在子表达式周围放置()括号表示您要保存与该子表达式匹配的任何后续处理。如果您使用的语言支持功能,它将提供一些检索这些子匹配的机制。对于bash,它是BASH_REMATCH数组。
>最后,我们对“/”进行完全匹配,以确保我们匹配完全限定域名的所有方式和以下“/”

接下来,我们必须根据正则表达式测试输入字符串,看看它是否匹配。我们可以使用bash条件来做到这一点:

if [[ $name =~ $re ]]; then
    echo ${BASH_REMATCH[1]}
fi

在bash中,[[]]指定扩展条件测试,并且可以包含=〜bash正则表达式运算符。在这种情况下,我们测试输入字符串$ name是否与正则表达式$ re匹配。如果它匹配,那么由于正则表达式的构造,我们保证我们将有一个子匹配(从括号()),我们可以使用BASH_REMATCH数组访问它:

>该数组的元素0 $ {BASH_REMATCH [0]}将是正则表达式匹配的整个字符串,即“http://www.google.com/”。
>该数组的后续元素将是子匹配的后续结果。注意,您可以在正则表达式中有多个submatch() – BASH_REMATCH元素将按顺序对应于这些。所以在这种情况下,$ {BASH_REMATCH [1]}将包含“www.google.com”,我认为这是你想要的字符串。

请注意,BASH_REMATCH数组的内容只适用于上次使用正则表达式=〜operator的时候。所以如果你继续做更多的正则表达式匹配,你必须每次从这个数组保存你需要的内容

这可能看起来像一个漫长的描述,但我真的掩盖了正则表达式的复杂性。他们可以是非常强大的,我相信体面的表现,但正则表达式语法是复杂的。正则表达式实现也有所不同,因此不同的语言将支持不同的功能,并且可能在语法上有微妙的差异。特别是正则表达式中的字符的转义可能是一个棘手的问题,特别是当这些字符在给定语言中具有其他不同的含义时。

请注意,不必在单独的行上设置$ re变量,而是在条件中引用此变量,您可以将正则表达式直接置于条件中。然而在bash 3.2,关于是否需要这种文字正则表达式的引号,这些规则被改变了。将正则表达式放在一个单独的变量中是一个简单的方法,这样就可以在所有支持=〜match运算符的bash版本中按预期运行。

猜你在找的正则表达式相关文章