python 爬取歌曲评论的简单示例

前端之家收集整理的这篇文章主要介绍了python 爬取歌曲评论的简单示例前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
感兴趣python 爬取歌曲评论的简单示例的小伙伴,下面一起跟随编程之家 jb51.cc的小编来看看吧。<br>
一、抓数据
要想做成词云图表,首先得有数据才行。于是需要一点点的爬虫技巧。
基本思路为:抓包分析、加密信息处理、抓取热门评论信息
1.抓包分析
我们首先用浏览器打开网易云音乐的网页版,进入薛之谦《摩天大楼》歌曲页面,可以看到下面有评论。接着F12进入开发者控制台(审查元素)。
接下来就要做的是,找到歌曲评论对应的url,并分析验证其数据跟网页现实的数据是否吻合
整理思路,分析api并模拟发送请求,获取json解析就好了
2.加密信息处理
然后经过测试,直接把浏览器上这俩数据拿过来就可以。但是要想真正的解决这个加密处理,还需要有点加解密的只是存储
3.抓取热门评论信息

二、数据可视化
在获得相关评论数据后,我们将其做成图表与词云图,将让人看起来更直观。
接下来需要在自己电脑上安装需要相关的安装包: pyecharts(图表包)、matplotlib(绘图功能包)、 WordCloud(词云包)

pyecharts:https://github.com/pyecharts/pyecharts(下载源码解压到python目录cmd进入pyecharts目录输入命令python setup.py install)
WordCloud官网:https://amueller.github.io/word_cloud/index.html
WordCloud下载地址:https://github.com/amueller/word_cloud
其中,pyecharts 是一个用于生成 Echarts 图表的类库。 Echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化,同时pyecharts 兼容 Python2 和 Python3
 
# 编程之家  (jb51.cc) 

import requests
import json
from pyecharts import Bar
from wordcloud import WordCloud
import matplotlib.pyplot as plt
 
url = 'http://music.163.com/weapi/v1/resource/comments/R_SO_4_551816010?csrf_token=568cec564ccadb5f1b29311ece2288f1'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/64.0.3282.140 Safari/537.36','Referer':'http://music.163.com/#/album?id=38388012','Origin':'http://music.163.com','Host':'music.163.com'
}
#加密数据,直接拿过来用
user_data = {
    'params': 'vRlMDmFsdQgApSPW3Fuh93jGTi/ZN2hZ2MhdqMB503TZaIWYWujKWM4hAJnKoPdV7vMXi5GZX6iOa1aljfQwxnKsNT+5/uJKuxosmdhdBQxvX/uwXSOVdT+0RFcnSPtv','encSecKey': '46fddcef9ca665289ff5a8888aa2d3b0490e94ccffe48332eca2d2a775ee932624afea7e95f321d8565fd9101a8fbc5a9cadbe07daa61a27d18e4eb214ff83ad301255722b154f3c1dd1364570c60e3f003e15515de7c6ede0ca6ca255e8e39788c2f72877f64bc68d29fac51d33103c181cad6b0a297fe13cd55aa67333e3e5'
}
response = requests.post(url,headers=headers,data=user_data)
data = json.loads(response.text)
hotcomments = []
for hotcommment in data['hotComments']:
    item = {
        'nickname':hotcommment['user']['nickname'],'content':hotcommment['content'],'likedCount':hotcommment['likedCount']     
    }
    hotcomments.append(item)
#获取评论用户名内容,以及对应的获赞数   
content_list = [content['content'] for content in hotcomments]
nickname = [content['nickname'] for content in hotcomments]
liked_count = [content['likedCount'] for content in hotcomments]
 
bar = Bar("热评点赞示例图")
bar.add( "点赞数",nickname,liked_count,is_stack=True,mark_line=["min","max"],mark_point=["average"])
bar.render()
 
content_text = " ".join(content_list)
wordcloud = WordCloud(font_path=r"C:\simhei.ttf",max_words=200).generate(content_text)
plt.figure()
plt.imshow(wordcloud,interpolation='bilinear')
plt.axis('off')
plt.show()

#  End 5.1.2笔记-jb51.cc
 

猜你在找的Python相关文章