brightmart / roberta_zh Goto Github PK
View Code? Open in Web Editor NEWRoBERTa中文预训练模型: RoBERTa for Chinese
RoBERTa中文预训练模型: RoBERTa for Chinese
Thank you very much.
Thank you very much.
Thank you very much.
请问from loss import bi_tempered_logistic_loss中的loss使用的是什么库 pip install loss找不着库
I have been using BertPreTrainedModel
to load this roberta model, which works well.
Noticing in pytorch_transformers
, Roberta
is also supported.
from pytorch_transformers import (BertConfig, BertTokenizer,
RobertaConfig, RobertaTokenizer)
Should I switch to Roberta
? If so, what to use for the parameter merges_file
in RobertaTokenizer
?
如题。
不胜感激!
您好,请问您知道英文版的权重么,TensorFlow版本的,非常感谢!
感谢作者开源,请问目前支持tensorflow模型转pyTorch模型吗?尝试使用pytorch-transformer的转换工具进行模型转换并不成功。
如题,谢谢
我使用这行加载模型时出错model_bert.load_state_dict(torch.load(init_checkpoint, map_location='cpu'))。
我修改成这个之后model_bert.load_state_dict(torch.load(init_checkpoint),strict=False)
模型可以使用但是效果很差。
下载RoBERTa-zh-Large总是提示网页走丢,下载不了,这是什么原因呢?有什么其他办法可以下载吗?
请问12layer的啥时候发布呢,我看界面写的今天。
最近在做bert模型蒸馏,准备使用作者开源的另一个中文语料库。训练数据的处理应该和作者训练roberta是一样的,取消了预测next sentence的预训练,所以训练数据只需要单独的句子就行。对于一篇长新闻的语料来说,我是以句号为分割,得到每一句话作为训练数据,还是尽可能满足长度接近512个字符的多个连续的句子作为一条训练数据,后面一种处理方法会遇到一些问题,比如最后不是以句号结尾,语义不完整,如果要处理,会复杂很杂。所以想请教下训练roberta时处理预训练数据的策略?
This XML file does not appear to have any style information associated with it. The document tree is shown below.
AccessDenied
Access denied.
您好,有没有多卡预训练roberta的方法。。
无论我怎么调试,使用的gpu数量还是1个
另外几个卡的利用率都是0%
24层base版(roberta_l24_zh_base)是用于bert的么?解压后和fairseq使用的格式好像不一样。能给个简单的例子么?谢谢
您好
我是用huggingface的pytorch代码https://github.com/huggingface/pytorch-transformers。但是我 设置了add_special_tokens=True,运行的时候却总是出错:
A sequence with no special tokens has been passed to the RoBERTa model. This model requires special tokens in order to work. Please specify add_special_tokens=True in your encoding.
并且忽略这个问题的话,运行之后的效果也远不如bert
您好打扰您了
我用您的roberta模型进行微调效果很好
但是我用您的模型进行预训练,一上来的mlm准确率是0。我也用完形填空试了一下,确实模型不能进行准确的预测。所以我猜测您的预训练模型的最上层(单词预测)是不是有一些问题,期待您的回复~
使用tf.train.load_variable函数加载模型,得到错误:
tensorflow.python.framework.errors_impl.NotFoundError: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for ../roeberta_zh_L-24_H-1024_A-16/bert_model.ckpt
若同一句子,產生多個訓練資料,每一次mask不同的詞,這樣是否會有data leakage的問題?
This XML file does not appear to have any style information associated with it. The document tree is shown below.
AccessDenied
Access denied.
做生成类任务,mlm是很重要的,能够极大地加速收敛。
参考: https://kexue.fm/archives/6933
我从百度云下载了RoBERTa_zh_L12的tensorflow版本,发现没有mlm的权重,不知道哪些版本有?建议有时间的话都加上比较好。
你好,
请问在预训练的时候,数据预处理有去掉停用词等操作吗?还是就是不做任何处理就进行训练了?
谢谢。
您好,请问Roberta中文模型(RoBERTa-zh-Layer6)对应的pytorch版本是什么?
请问有跟刚发布的RoBERTa-wwm-ext对比的计划吗?
你好,我想问一下,这个模型应该没有加BPE吧,我看原版roBERTa是使用了BPE来做tokenizer
PS: 貌似roBERTa_12L的下载链接挂了
请问预训练的embedding包含三部分(word embedding, position embedding, segment embedding)还是两部分(word embedding, position embedding)?谢谢!
请问模型对最低显存有要求吗?seq_len和batch_size等我都调到1了还是oom,我的显存是8G的,跑的是large版的,谢谢
total_loss = masked_lm_loss # TODO remove next sentence loss 2019-08-08, + next_sentence_loss
请问Roberta预训练语料格式是否和bert一样(每句一行,文档间空行)
bert-wwm-ext就可以正常使用,这个不可以。
您好
我之前用bert-base-chinese设置的batch size是32,现在用pytorch版本的roberta large,batch size设置为4还会出现显存不够的问题.pytorch的使用应该没问题,在小的数据集上跑通了,请问roberta large比bert-base-chinese要大多少呢
你好, 我按照create_pretraining_data.sh,创建多个tfrecord文件后,应该如何设置input_file这个参数呢? 如何让bert能够一次读取所有的tfrecord呢? 谢谢解答!
https://hfl-rc.github.io/cmrc2018/task/#section-1
想测一下roberta在阅读理解上的性能如何。尝试将middle和large转成pytorch在cmrc2018上跑了一下,middle的F1能到86,但是large的F1只能到77,非常奇怪。
直接使用提供的pytorch版本的large权重效果也是一样。
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.