nlpinaction / learning-nlp Goto Github PK

View Code? Open in Web Editor NEW

1.0K 43.0 829.0 245.56 MB

nlp in action

Jupyter Notebook 8.09% Python 91.88% Shell 0.03%

python machine-learning

learning-nlp's Introduction

自然语言处理算法与实战

本书主要是面向初学者，介绍了一些基础的入门知识和概念，同时提供一些偏向于实战的代码供给读者练习，这里是代码的主要介绍：

chapter-3 中文分词技术
chapter-4 词性标注与命名实体识别
chapter-5 关键词提取
chapter-6 句法分析
chapter-7 文本向量化
chapter-8 情感分析
chapter-9 NLP中用到的机器学习算法
chapter-10 基于深度学习的NLP算法

由于是初版，还存在不少小的问题，欢迎大家提issue，我们会积极地回复和改进，非常感谢大家。

learning-nlp's People

Contributors

Stargazers

Watchers

Forkers

yzhang37 bluebreeze evido3s jz3707 reganzm thomas-wade wordgod123 junvn allenyong gudongjian dingxiaofei2017 shanshanzheng sumhncku pigliangliang idachun beautifulsumday thinkergithub aiedward sysujayce thkewei micxyj ttgit zhengdanyang1 yxsxwp001 thfeng1986 zhangwc2017 shengmingqijiquan gyvicky cckklau flysky1991 gwx1227 jessifar cqulun123 zhangzee zhangleino1 cedar33 airob pieere huwenqiong veepersgit sharmer156 xiaojidaner seafire1991 dazecat sb233 believeyu jaylingcp wynshiter trueto kellyzhao960510 codeyu001 jonnyhtmso mr3118 kylin0228 dongyanmas zhaoyuanfang azhen0330 yaan123 mqrshiyan delysky fwf6196 amigo007 t0ugh alicening ljz756245026 derek520 wangzaistone duneryc youheimaoli gaoshenme hustercn lian2018 tenglei950416 y495965825 luffey1990 jensen1217 amarry lrh000 wqw123 hanyinong wutonghua zhang386470 towingtop zhuzhuxa fengdf tycoonman zzhhoubin lucian-whu laim5230 peng3307165 wyanorg maixiaojie xuggg wyue92 xrzlizheng gdh756462786 18844195628 linzimu blcblc 3972794

learning-nlp's Issues

第七章向量化算法词袋模型，无法理解

稳重表述的是“词典中每个单词在文本中出现的频率”但是这个10维向量中应该不会出现0才对应为，另外按照数量来算的话，那么John出现了2次，而likes出现了3次，那么向量不应该是1，2开始的而是2，3开始，不知道我表述的对不对，或者可能我的理解有问题？

chapter-9/classification 文本预处理速度极慢,50w行的数据就得跑20分钟左右

建议将停用词列表变为停用词集合速度极大提升

加载停用词

with open("dict/stop_words.utf8", encoding="utf8") as f:
stopword_list = f.readlines()
stopword_list = set(stopword_list)

第二章数据未找到

2.3.3获取本地数据章节
书中原文“在Github的data目录下能下载到”，但是我并没有找到诶

chapter 5

第五章，tf-idf的算法直接调用jieba.analyse.extract_tags，和自己写的函数计算出来的结果不一致啊？这是为什么？谁更正确呢？

第七章代码

word2vec_sim.py

应该这样：消除空格的
word = data[space_pos[i]+1:space_pos[i + 1]]

第九章，cluster报错

ImportError: This platform lacks a functioning sem_open implementation, therefore, the required synchronization primitives needed will not function, see issue 3770

KeywordExtract.py:

#195 a += x1 * x1
=> a +=x1*x2

It may be basic, could still cause big trouble.
Please pay a little attention to the code work.
Thanks!

第八章情感分析中第151页突兀的出现wordVectors 这个方法

如题，突兀出现，上下文中并没有这个方法，而且如果用上下文中的word_vectors 这个变量代替则无法得出结果。请问能否解释一下这个方法是哪里来的吗？

下一版能够用正常点的非Lamada表达式的形式来进行编码吗？

也许我们这种有编程基础的人能够读懂，但是我不相信那些初学者能够冻着这些表达式的意思。

第8章运行出现问题！

Key rnn/basic_lstm_cell/bias not found in checkpoint
而且代码和书中有些差别，是不是这个版本是直接调models里面的。

Traceback (most recent call last):
File "D:\code\python_test\test\start.py", line 11, in
print(str(list(res)))
File "D:\code\python_test\test\hmm.py", line 150, in cut
prob, pos_list = self.viterbi(text, self.state_list, self.Pi_dic, self.A_dic, self.B_dic)
File "D:\code\python_test\test\hmm.py", line 134, in viterbi
for y0 in states if V[t - 1][y0] > 0])
ValueError: max() arg is an empty sequence

第七章 doc2vec复现相似度结果 0.64，没有书中的0.87

数据：
1.模型：用的是书中作者提供的训练好的模型文件，百度网盘下载的。
2.测试数据：用的同样的
3.代码：直接用的GitHub的
请问是我哪些细节我没有注意到吗？谢谢！

还有一个疑问：书中doc2vec训练代码 size = 200，而GitHub下载的代码中 size = 192，请问这个是有什么区别吗？
谢谢！

第70也，通过接班将带有时间的词进行切分,格式混乱

作者大佬啊，Python对格式要求非常严格，能不能审核校对的时候，将格式校对清楚啊，这样的格式对于没有Python基础的人来说无异于天书啊。

chapter3 分词代码有问题

分词的代码的初构函数有问题,词典词的最大长度应该判断一下再改变,原本的代码把每一个词的长度都赋值给了词典的词的最大长度了。

第五章实战提取文本关键词使用的余弦相似度是不是写错了

1、原著：

   # 余弦相似度计算
        def calsim(l1, l2):
            a, b, c = 0.0, 0.0, 0.0
            for t1, t2 in zip(l1, l2):
                x1 = t1[1]
                x2 = t2[1]
                a += x1 * x1 #这里应该改为x1 * x2吧？
                b += x1 * x1
                c += x2 * x2
            sim = a / math.sqrt(b * c) if not (b * c) == 0.0 else 0.0
            return sim

2、网上找的公式

里面的文件无法下载

第8章情感影评分析无法收敛

迭代运行10W,100W次，LOSS值始终无法收敛？

第四章实战1：日期识别建议修改

我使用的是python3.6版本

1、原代码结果

text1 = '我要住到明天下午三点'
print(text1, time_extract(text1), sep=':')

text2 = '预定28号的房间'
print(text2, time_extract(text2), sep=':')

text3 = '我要从26号下午4点住到11月2号'
print(text3, time_extract(text3), sep=':')

text4 = '我要预订今天到30的房间'
print(text4, time_extract(text4), sep=':')

text5 = '今天30号呵呵'
print(text5, time_extract(text5), sep=':')

修改：
word = (datetime.today() + timedelta(days=keyDate.get(k, 0))).strftime('%Y{0}%m{1}%d{2}').format('年','月','日')

2、日期问题

建议直接去掉 parse_datetime函数的try except，直接用except的内容

第三章 RMM執行結果只會回傳'長江大橋'

第42頁的範例只會回傳長江大橋，書本上的結果有點問題。

chapter2？

第一章和第二章的内容呢？

RT 第一章和第二章的内容呢？

第七章缺少数据

data/zhwiki-latest-pages-articles.xml.bz2 怎么找

涂大神麻烦升级 seq2seq 程序

AttributeError: module 'tensorflow.contrib.seq2seq' has no attribute 'simple_decoder_fn_train'

第十章的代码中TensorFlow版本太低，很多函数不支持了，能否更新一下

求书中第二章数据

你好,
书中第二章'NLP前置技术解析' 2.3.3中测试用到的数据（如：house-prices.scv）能否提供下？
谢谢！

第六章中文编码问题

PCFG.py 在window环境下运行报错'utf-8' codec can't decode byte 0xb4 in position 0: invalid start byte，网上说的转换文件编码什么的都试过了，还是报一样的错，请问有什么解决办法吗

第九章笔误

9.3.2逻辑回归
第一段说它的优点是不容易过拟合，然后在最后一段又说它的缺点是容易过拟合......
这个笔误有点太明显啊

第六章的句法分析

第二章的数据在哪？？？？

第三章的HMM中维比特算法

分词的时候最后的两个状态只可能是s或者e啊，为什么源代码中还出现了m状态啥的。

有没有教学用的PPT提供，准备当教材用。

更简洁的IMM

# 更加简洁（more pythonic）的IMM算法（可用OOP）

_dictionary = {'南京', '南京市', '南京市长', '市长', '长江', '长江大桥', '江大桥', '大桥', '桥'}

def imm(text, maxlen=4):
    # inverse maximum matching method
    dictionary = _dictionary
    result = []
    index = len(text)
    while index > 0:
        m = min((index, maxlen))
        # dictionary = {e for e in _dictionary if e.endswith(text[index-1])}  # for speeding up
        for size in range(m, 0, -1):
            piece = text[(index-size):index]
            if piece in dictionary:
                result.insert(0, piece)
                index -= size
                break
        else:
            index -= 1
    return result

result = imm('南京市长江大桥')
print(result)

第7章doc2vec_sim装入模型文件报错

在doc2vec_sim.py这个文件中一运行到 model = g.Doc2Vec.load(model_path)，就报错。
具体报错信息：_pickle.unpickingError:invalid load key '\xca'
报错环境：
Linux-4,15-1032-x86_64-with-debian-stretch-sid
GCC 5.4.0 20160609
python3.6.5
gensim=3.7.3
numpy=1.15.1
scipy=1.1.0
FAST_VERSION 1

pip install gensim

原处写成了 genism