基于改进依赖分析的微博情感倾向性分析

前端之家收集整理的这篇文章主要介绍了基于改进依赖分析的微博情感倾向性分析前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

Research on micro-blog sentiment orientation analysisbased on improved dependency parsing

基于改进依赖分析的微博情感倾向性分析(IEEE2013)

文章基于分析微博文本的特性,提出了一个新的改进依赖分析方法分析来分析微博的情感倾向性。改进的算法包括表情符号和标点符号的情感倾向性分析,通过基于距离语法结构核心情感词的距离来进行情感倾向性分析。

方法:算法通过语法依赖结构决定关键情感词,然后根据依赖关系和微博句子结构词、表情和标点符号距离的语法结构学习它们的情感值,最终决定文本句子情感倾向。

微博特点:(1)文本长度短,结构不标准。微博文本长度通常限制在140字左右,句子结构随意;(2)内容的呈现不是标准化的,微博广泛使用网络语言,表情符号,没有规范标点和习语的使用;(3)话题的强交互,许多微博是话题的评论,需要根据上下文系统分析。

文本情感分析根据文本大小可以划分为单词级,句子级和篇章级;根据不同的分析目的可以分为主客观分析(作者对客观事物的分析)和主观分析(作者自己的体验);根据处理方法的可以分为基于词典的情感分析和基于机器学习(SVM方法,神经网络和朴素贝叶斯方法)的情感分析;根据是否有人工参与可以分为非监督和监督分类方法,区别在于是否需要人工情感标记

算法主要的改进是通过依赖分析,围绕情感词,进行情感倾向性分析。

改进的中文依赖分析算法(ICDP)的步骤:首先,基于情感词典给定情感值,然后学习各种单词,表情和标点句子情感值,最后规范化情感倾向,获得平均值来决定文本情感倾向。

基本的中文依赖分析算法

语法分析是基于一个给定的语法系统,自动产生句子的语法结构,分析句子的语法单元和它们的关系,转化为一棵结构分析树。中文文本的语法分析基于中文表意语言和它的写作形式。句子结构比英文更复杂,所以应该首先分析句子,决定单词属性

依赖分析是一种基于语法规则的分析方法。语法分析的规则是基于人工语法规则,建立语法知识库,通过限制和观察建立语法结构,最终完成分析树。有3种方法:自顶向下,自底向上和二者的结合,参考文献指出二者结合的方法理论上最接近人的语法分析处理方法

24种相互依赖关系参考文献已经建立。在依赖语法理论,相互依赖即单词的主导和受控关系。

通常的分析算法和主要技术步骤:(1)句子的分词和判断(判断词性)。(2)计算单词倾向性。主要基于情感词典,如HowNet情感倾向性判断,来决定句子中的积极、消极词和主导评价信息词。(3)语法结构分析。通过依赖分析得到结构分析树。(4)计算修饰符倾向。通过分析结构树计算句子中描述的单词,副词,从属词的情感倾向。(5)计算句子情感。分析文本陈述,根据规范化平均处理方法的句子关键词关系决定文本情感倾向。

改进的中文依赖分析

由于微博文本的非标准化语言结构和广泛使用的标点和符号,通常的分析方法不能满足情感分析的高标准要求。

改进的中文依赖性分析算法主要在三个方面改进:(1)增加标点和符号的情感倾向性分析。(2)改进为计算关键情感词的情感倾向性而不是每个词。(3)通过单词和关键情感词之间的语法结构距离决定情感倾向性。

符号的倾向性分析:通过微博应用平台上表情符号的分析和机器学习方法,获得表情符号情感倾向性值“Ee”,这些值记录到新的情感词典。对于标点,通过不同表述的分析,如感叹句,疑问句,修辞问题等,分析情感因子“λi”。假设文本情感倾向性值是Ei,则符号词的情感值为:Ef=(Ei+Ee)·λi

分析结构,决定关键情感词,其步骤:(1)根据句子中的核心词(谓语),查找下一个依赖词。(2)判断依赖词是否是形容词或者是名词,否则前往第1步。(3)根据情感词典决定它是否是情感词,否则前往第1步,直到找到情感词“Wm”。(4)当依赖关系是独立子句IC或者从属子句DC,认为IC,DC的从属词为核心词,继续步骤1,决定情感词子句Wh。(5)主从句是根据词的从属关系结构决定,根据主从连接决定主从句和从属子句,决定情感相关倾向率λh

然后考虑主从句和从属子句的关系,句子情感倾向性值:Eh=E(W1)+E(W2)·λ2h…+E(Wi)▪ λih。E(W1),E(Wi)通过主从句和第i个从句计算,W1,Wi是情感词的主要倾向性值,从句才要乘以从句情感比例λh,参考文献给出了8个基本类型主从句的相关情感比例。

单词语法距离的情感分析:语法距离主要用于依赖分析,主要考虑分析树中两个词的检索序列差异的绝对值。这里关注副词相对于关键情感词的语法距离。根据树结构依赖性的分析,句子中的两词只有一条可行的路径,然后词和关键情感词的句子语法距离计算方法为:路径上边的依赖语法距离之和。假定句子情感倾向性原值为E0,考虑带有影响情感权重λi的副词的语法距离,则句子情感倾向性值为E0与m个λi除以di商的乘积(i=1,…,m,m为副词数)。

文章随机选择了1000条新浪微博来验证算法,选取准确率P,召回率R和F值作为评价指标。如果情感极性值大于0,短文本为积极的,小于0则消极的,等于0文本为中立的。

结论:改进依赖分析算法,引入标点的情感分析,通过词与关键情感词的语法距离分析,效果比通常的依赖分析好,特别是对于短微博。

猜你在找的设计模式相关文章