关于total_word_feature_extractor_zh.dat文件

Question

Rasa NLU version (e.g. 0.7.3):

BrikerMan · Answer

我们用 MITIE 只做了词向量，那么可以用 gensim 做 word2vec 来替代这个词向量么？还是两者有本质区别？

crownpku · Answer

这个文件是给rasa nlu做词向量支持的，应该是mitie自己的binary格式。请问你打开的需求是想做什么？

Jacky-Chiu · Answer

我是看了你的文章，也关注了公众号，现在主要目的是想获得一些语料做知识库，另外貌似也有看到有知识图谱API可以调用，想自己跟着搜集到的资料或者论文试着实现一个问答机器人

from rasa_nlu_chi.

crownpku · Answer

total_word_feature_extractor_zh.dat只是词向量，和知识库没有关系的。

Jacky-Chiu · Answer

明白，谢谢！

BrikerMan · Answer

你好，我这里现在有一批影片名称和相关预料。如何在你训练的 total_word_feature_extractor_zh.dat 基础上继续训练利用这一批出书？ 还是只能用

crownpku · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

BrikerMan · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

BrikerMan · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

crownpku · Answer

spacy对中文的支持也只是调用了jieba做分词部分... MITIE我的训练需要2天左右的时间，其实也还好。
这个模型不需要频繁更新，我觉得只有语料变动或者增量

BrikerMan · Answer

恩，看样子只能这样了。此外我的 MITIE 模型训练完后，训练 rasa nlu 也非常慢，目前只有 30 个 sample，似乎跟这个 <a class="issue-l

crownpku · Answer

用MITIE的classfier会比较慢，用sklearn做分类会快很多，30个sample应该一分钟内可以训练完。
理论上是word2vec是比较普遍的方法。ra

BrikerMan · Answer

中文 nlu 用了 MITIE 的话没办法用 sklearn 做分类器吧？我这个配置，30 个 sample 大概需要 40 来分钟。

crownpku · Answer

这个就是intent_classifier_sklearn，MITIE只是用来生成feature.
我用基本一致的配置确实一分钟内训练完的，当然jieba部分并没有

BrikerMan · Answer

这个分词器跟你的基本一致，就加了个自定义字点的加载。我把我的数据共享给你，你跑一下看看可以么。数据在这里， <a href="https://github.com/Brik

crownpku · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

BrikerMan · Answer

我这里换成 'tokenizer_jieba' 也一样。似乎是这个问题，<a class="issue-link js-issue-link" data-error-tex

BrikerMan · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

crownpku · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

BrikerMan · Answer

直接放在 github 了，上面有提到。 <a href="https://github.com/BrikerMan/rasa-demo/blob/master/data.

crownpku · Answer

用你的数据在跑了，跑到classification那一步确实很慢....

BrikerMan · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

BrikerMan · Answer

有什么进展么？

kevinsay · Answer

我有178个samples，加不加自定义词典，都很慢。

cloudskyme · Answer

total_word_feature_extractor_zh.dat，你好，这个文件现在下载不到了，有什么地方可以下载吗？

kevinsay · Answer

这个文件我这边有，可以共享给你，

crapthings · Answer

这个文件下载了，放到哪儿哦？

我放到
models/default.dat
还是提示我找不到

KevinZhou92 · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

kevinsay · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

KevinZhou92 · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

yuxuan2015 · Answer

total_word_feature_extractor_zh.dat，有谁知道这个文件的数据长什么样吗？

crapthings · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

yuxuan2015 · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

mashagua · Answer

你好，这个文件已经没有了，能共享一份吗？<a class="user-mention notranslate" data-hovercard-type="user" dat

KevinZhou92 · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

bot · Answer

您好，上面BrikerMan 提出的训练58个数据很慢的原因找到了吗，我训练90个sample也很慢，好几个小时了，都没有训练完

yanolele · Answer

你好！ <a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-

siennx · Answer

有好心人可以分享一下文件包嗎? 我找了好久, 鏈結都失效了, 感謝.

KevinZhou92 · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

siennx · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

aqiank · Answer

很久以前我曾经下载过该文件. 不懂是不是一样的文件. 我将文件上传到MEGA了. 下载速度可能慢一点.

链接:

mashagua · Answer

好的，谢谢老师发送自 Windows 10 版邮件<

siennx · Answer

謝謝檔案分享, 已經下載了

Ma-Dan · Answer

MITIE的wordrep训练非常耗时，我使用约1G的Wiki中文语料训练，需要64G内存，而且它只用了CPU的一个核，从开始到训练出word_vects.dat需要56小

red-frog · Answer

同样遇到了为什么这麽慢的问题，现在有解决办法了吗？

yijinsheng · Answer

一个是训练时间长的问题，还有我用了一个118M大小的训练数据，直接训练挂了，8核的cetos ，内存500G以上， 训练了几个小时之后直接显示killed了，有没有遇到这

yangyang1719 · Answer

Running coloredlogs-10.0/setup.py -q bdist_egg --dist-dir /tmp/easy_install-tkWOQ3/col

shengyaokai · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

yangyang1719 · Answer

我还在学习是新手帮不了你哦shengyaokai 于 2020年6月4

shengyaokai · Answer

<blockquote><a class="user-mention notranslate" data-hovercard-type="user" data-hover

关于total_word_feature_extractor_zh.dat文件 about rasa_nlu_chi HOT 50 OPEN

Comments (50)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent