nlp's Introduction

NLP

LDA主题提取运用gensim构造LDA模型，在没有对生成的dictionary进行过滤时，dictionary较大，将文档表示为向量的维度太高，调整不同主题个数时得到的困惑度曲线始终呈上升趋势。对idctionary进行过滤后，维度降低，困惑度曲线随主题个数增加而下降，可以选出合适的主题个数。
中文幽默类型
尝试使用卷积神经网络对中文笑话进行分类，可能是特征处理的原因，也可能是这种网络不适用于文本分析，模型效果不佳。
微博情感分析
gensim.word2vec构建词向量模型，sklearn随机森林分类器、XGBoost分类器
搜狗新闻分类
预处理：分词、去停词
划分训练集、测试集（7：3）
特征提取：词袋模型、TFIDF模型、平均词向量模型、TFIDF加权平均词向量模型
模型训练：多项式朴素贝叶斯模型、支持向量机模型
表现：最佳80%精确度
搜狗新闻聚类--Kmeans
电影评论极性分析
基于情感词典的情感分析
对微博进行情感分析，使用的情感词典在文件夹中。先使用pre.py对文本进行预处理，再使用DictSentiment.py计算情感得分，最后用draw.py画出情感得分分布的饼状图和随时间变化的折线图。