Coder Social home page Coder Social logo

test's People

Contributors

linwujl avatar

Watchers

 avatar  avatar

Forkers

scarlxtt

test's Issues

paper review

review:
情感分析有不同的粒度,文档级别,句子级别,方面级别
1.文档级别是情感分析中最简单的形式,其假设一个评论文档包含对一个主要对象的观点,有大量的工作关于文档级别的情感分析,其中主要有两种方法:监督学习和无监督学习;
监督学习方法假设有一个类别集合,所有文档都可以被分类成其中的一个类别,并且每个类别的训练数据是可获得的;最简单的情形是把文档分为两个类别:积极和消极,也有加入中性类别的做法,或者加入情感极性的强弱;在给定训练数据后,分类器(如支持向量机、朴素贝叶斯、逻辑回归及K近邻)通过学习数据获取分类模型,接着分类模型用于对新的评论文档情感分类,在需要确定情感强弱的情况,则可以利用回归来预测情感强弱的得分;研究[28]表明,即使将文档使用简单的词袋模型来表示,也能取得很好的准确率;此外,更多的表示方法有TF-IDF、词性标注信息(Part of Speech)、情感词汇及解析结构信息等。
[28] pang,b lee,l thumbs up?sentiment classification using machine learning techniques.
非监督学习方法通过确定文档中特定短语的语义指向来进行情感分析,其做法是,如果文档中短语的语义指向高于预先定义好的阈值,则该文档被分为积极否则分为消极;通常有两种短语选择的方法:一种是利用事先定义的词性模式,另一种是利用情感词、情感短语词典;确定指定词语或短语的语义指向时,一种经典的做法是分别计算该词语与两个情感词典中词语的点互信息(Pointwise Mutual Information),点互信息通过给定的文档集或web资源,基于词共现来衡量两个词语间的统计依赖性。
在某些语种(如中文、西班牙文)中,有研究者利用机器翻译来做的相关工作,由于此类语种缺乏大量的语言学资源(这些资源在英语中有),因此通常将文档翻译成英语后再进行情感分析。

句子级别的情感分析,在一个评论文档中,针对一个实体,可能包含多个观点,当想要了解不同的观点表达更具体的情况时,句子级别的情感分析则可以起到作用;通常假设每个句子中只有一个观点,通过对评论分句可以满足该要求;分析句子的情感极性时,需要确定句子是主观的还是客观的,通常只有主观性的句子才会被分析;大多数的工作使用监督学习方法来将句子分成两个类别[40];Hai[32]等人提出Boostrapping方法来减少准备训练集需耗费的大量人力。
[40] yu,h towards answering opinion questions:separating facts from opinions and identifying the polarity of opinion sentences.
[32] riloff learning extraction patterns for subjective expressions.

方面级别的情感分析,与特定类别(如汽车、相机)相关的商品评论或论坛中,人们经常会讲到某个实体的很多方面(或称属性),并且对每个方面都有不同观点,举个例子,“这个Kindle的屏幕很好,亮度很棒,但是没有按钮控制起来有点困难,还有存储容量只有5GB”;如果单纯地将该评论归为积极或消极都欠妥,而且会错失评论中有价值的信息,在该评论中,评论者谈到了关于Kindle的几个方面,有屏幕,按钮和存储容量,并且对各个方面的情感有积极也有消极;方面抽取的经典方法是从评论中抽取所有出现频数满足阈值的名词或名词短语, 文献[30]在此方法基础上,减少抽取出的方面中的噪音,其主要**是衡量与商品类别紧密相关的短语和每个候选方面词间的点互信息,只有高于阈值的方面词才被保留;另一种方法通过利用情感表达和词语依赖解析来抽取方面[39]。
[30] popescu extracting product features and opinions from reviews.
[39] wu,y phrase dependency parsing for opinion mining.

基于方面的情感分析(ABSA)系统,是接收关于某个特定实体(比如一部手机)的文本(如商品评论),然后试图抽取与该实体相关的方面(如电池、屏幕)并且评估针对每个方面的文本的情感极性(如积极或消极);
ABSA系统可以分解为三个主要的子任务:方面词抽取,方面词聚合以及方面词极性估计;
第一个子任务将与某个实体(在本文中主要指商品)相关的方面抽取出来(如电池、磁盘);第二个子任务将相似或相同的方面聚合到一起(如价格和花费);第三个子任务评估每个方面或方面聚类的情感极性。
1.方面词抽取(aspect term extraction,ATE)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.