用正则表达式清除各类符号

前端之家收集整理的这篇文章主要介绍了用正则表达式清除各类符号前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

一篇文章,先转为单词为元素的列表。

分解时遇到的第一个问题,就是如果去除各类标点符号

import re

line='asdf fjdk;;;; s afred,fjek.asdf,foo^ sdkk'

re.split(r'[;^,.\s]*',line) # 表示后面的字符串没有转义符。【这里面是要作为分隔的各类符号】,外面的*表示重复也算。

运算结果,['asdf','fjdk','afred','fjek','asdf','foo','sdkk']

在得到分解LIST后,就可以进行单词分析了。要用到Counter工具。

words = [

'look','into','my','eyes','look',

'the','the','not','around',255);"> 'eyes',"don't",255);"> 'my',"you're",'under'

]

from collections import Counter

word_counts = Counter(words)

top_three = word_counts.most_common(3)

print(top_three)

# Outputs [('eyes',8),('the',5),('look',4)]

猜你在找的正则表达式相关文章