前端之家收集整理的这篇文章主要介绍了
正则表达式 – 从网页中删除所有HTML标记,
前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我正在用curl做一些BASH
shell脚本.如果我的curl命令返回任何文本,我知道我有一个
错误. curl返回的这个文本通常是
HTML格式.我想如果我可以
删除所有HTML
标记,我可以将结果文本
显示为
错误消息.
我在考虑这样的事情:
sed -E 's/<.*?>//g' <<<$output_text
但我得到了sed:1:“s /<.*?> //”:RE错误:重复操作符操作数无效
如果我更换*?与*,我没有得到错误(我也没有得到任何文本).如果我删除global(g)标志,我会得到相同的错误.
这是在Mac OS X上.