政治文化研究网

国内外观点文本分类研究现状总结

文献综述 2021-08-16 16:04116网络整理政治文化研究网

观点文本分类的主要研究内容,观点文本分类,近年来引起了众多学者的关注,其主要任务是根据作者给出的评论进行极性处理(正面或负面)。 Pang 和 Lee [1] 是第一个使用机器学习方法对意见文本进行分类的人。他们使用了 Unigram 和 Bigram 的特征提取方法,TF 绝对词频 (TF)、TF 布尔词频 (TF-IDF) 的加权方法文献研究综述,使用朴素贝叶斯 (NB)、最大熵和支持向量机 (SVM) 分类器对2000条影评进行情感分类,最终结论是使用支持向量机(SVM)和特征布尔加权(BOOL)得到了最好的分类结果。这些研究工作可以概括为以下几个方面:59672

文本的极性分类

研究综述_综述文献范文_文献研究综述

文本极性分类是将作者的评论分为两类,正面(positive)或负面(negative)。 Finn [3] 等人的作品是最好的,也是最经典的。他们最终得到的结果是,特征选择方法中的词性标注方法优于词袋方法。 Pang [4] 使用 mini-cat 方法对正面和负面评论进行分类。

综述文献范文_文献研究综述_研究综述

基于情感词典的意见文本分类

Tumey[5] 使用无监督的PMI计算方法来计算文本中出现的词的趋势,并计算文章中词的趋势的平均值来判断文章是正面的还是负面的。在刘兵等学者​​的实验中[6][7][8][9][10],采用了特征挖掘的方法,对排序后的评论语料进行了实验,以及观点文本分类的公式用于对句子进行分类。对意见文本进行评分计算,最终得到文本的倾向性。 Taras Zagibalov [11] 和 John Caroll [12] 使用无监督分类器对中文意见文本进行分类并取得了良好的效果。 Wang[13]和Bin[14]在对中文观点文本进行分类时也使用了无监督分类方法,并加入了大量的语言模型进行中英文双语分类,当时使用的是中文和英文。最大的英语语料库。 Nikalas Jakob [15] 采用无监督方法,利用初始重复法提高意见文本分类的正确率。

文献研究综述_研究综述_综述文献范文

基于机器学习的观点文本分类

Pang[1] 在实验中,我们选择了影评。这个领域的实验很方便,因为评论家经常总结他们的整体情绪和评价指标,比如一些明星;因此,我们不需要手动标记它们。我们还注意到Turney(2002)发现影评分类在几个领域中是最难的。120篇文献报道的准确率为65.83%(随机选择性能:50%)。但是我们强调机器学习的方法和特点应该很容易适用于其他领域文献研究综述,只要有足够的测试数据,数据来自网络电影数据库,我们只选择有星级或一定值的影评。指定值被自动提取或转换为3个类别:正面、负面和中性。如本文所述,我们只是区分正面和负面。我们做了不到20篇作者情绪评论,752篇正面和词汇表中的1301篇144人参与了否定词的评价,Paltoglou等人在TF-IDF权重模型下用这种方法对很多意见文本进行了分类,为学者们提供了大量有用的数据。魏晋[17]等人建立了OM机器学习系统,采用HMMs框架进行词,成功实现了文本中特征词和情感词的自动分类和学习。唐慧峰[18]等人在有监督的情况下接下来对中文观点文本的分类做了更深入的研究。徐军 [19] 使用最大熵分类器NB对网络新闻标题进行分类。

机器学习与情感词典相结合的方法

Prem Melville [20] 对情感词典进行了实验。例如,根据NB分类方法对所有特征项中正负词的比例进行分类,最终得到了良好的分类结果。 Jonathan Read [21] 尝试将特征项中的情感词作为特征,利用机器学习的方法对文本进行分类,最终实现了跨域的效果。阿丽娜 [22] 等人。使用标记文本的方法对文本分类器进行了实验,并在WN(词网)中应用了情感词典。实验结果证明该方法优于单独使用一种方法。 Jonathon Read [23] 使用基本无监督的分类器对文本进行分类,以减少人们对标记文本的依赖。国内外意见文本分类研究现状综述: