The roberta_zh's discuss from brightmart

What is the best CPU inference acceleration solution for BERT now?

Thank you very much.
Thank you very much.
Thank you very much.

loss库

请问from loss import bi_tempered_logistic_loss中的loss使用的是什么库 pip install loss找不着库

Use Roberta in pytorch transformers

I have been using BertPreTrainedModel to load this roberta model, which works well.

Noticing in pytorch_transformers, Roberta is also supported.

from pytorch_transformers import (BertConfig, BertTokenizer,
                                  RobertaConfig, RobertaTokenizer)

Should I switch to Roberta? If so, what to use for the parameter merges_file in RobertaTokenizer?

hi，请问文档中给出的性能测试中 ERNIE 指的是哪个? ERNIE 1.0 2.0 THU?

如题。
不胜感激！

[question] Pretrain longer

感谢开源!

如果我没算错的话，RoBERTa-zh-Large跑了3epoch +（8k * 100k / 2.5 亿)）

在roberta原始论文的里面看到,没加dynamic mask的bert大约跑了40epoch

所以可能训练更长的时间（500k/1m step）对下游任务效果会更好？
有进一步训练的计划吗？

请问一下，你的代码跟bert代码除了在预处理阶段，在其它地方有区别？

请问应该如何转成pyTorch格式？

感谢作者开源，请问目前支持tensorflow模型转pyTorch模型吗？尝试使用pytorch-transformer的转换工具进行模型转换并不成功。

24/12层RoBERTa模型的PyTorch版有release计划吗

如题，谢谢

加载pytorch模型错误

我使用这行加载模型时出错model_bert.load_state_dict(torch.load(init_checkpoint, map_location='cpu'))。

我修改成这个之后model_bert.load_state_dict(torch.load(init_checkpoint),strict=False)
模型可以使用但是效果很差。

下载RoBERTa-zh-Large总是提示网页走丢

下载RoBERTa-zh-Large总是提示网页走丢，下载不了，这是什么原因呢？有什么其他办法可以下载吗？

最近在做bert模型蒸馏，准备使用作者开源的另一个中文语料库。训练数据的处理应该和作者训练roberta是一样的，取消了预测next sentence的预训练，所以训练数据只需要单独的句子就行。对于一篇长新闻的语料来说，我是以句号为分割，得到每一句话作为训练数据，还是尽可能满足长度接近512个字符的多个连续的句子作为一条训练数据，后面一种处理方法会遇到一些问题，比如最后不是以句号结尾，语义不完整，如果要处理，会复杂很杂。所以想请教下训练roberta时处理预训练数据的策略？

下载失败，点开链接出现下面这个

This XML file does not appear to have any style information associated with it. The document tree is shown below.

AccessDenied
Access denied.

Anonymous caller does not have storage.objects.get access to roberta_zh/roberta_model/.

loss

指标里的模型都指的那个？

RoBERTa-zh-Large和RoBERTa-zh-Large(20w_steps)的区别是啥，分别对应着下载的那个模型
brightmart roberta_middle和brightmart roberta_large分别对应着下载的那个模型

请问在Cloud TPU v3-256 上训练了24小时要花费多少美元或人民币？

关于多卡训练

您好，有没有多卡预训练roberta的方法。。
无论我怎么调试，使用的gpu数量还是1个
另外几个卡的利用率都是0%

24层base版(roberta_l24_zh_base）是用于bert的么？

24层base版(roberta_l24_zh_base）是用于bert的么？解压后和fairseq使用的格式好像不一样。能给个简单的例子么？谢谢

原始的bert代码能加载这个模型吗

[CLS],[SEP]

您好
我是用huggingface的pytorch代码https://github.com/huggingface/pytorch-transformers。但是我设置了add_special_tokens=True，运行的时候却总是出错：
A sequence with no special tokens has been passed to the RoBERTa model. This model requires special tokens in order to work. Please specify add_special_tokens=True in your encoding.
并且忽略这个问题的话，运行之后的效果也远不如bert

关于在您的模型上继续预训练

您好打扰您了
我用您的roberta模型进行微调效果很好
但是我用您的模型进行预训练，一上来的mlm准确率是0。我也用完形填空试了一下，确实模型不能进行准确的预测。所以我猜测您的预训练模型的最上层（单词预测）是不是有一些问题，期待您的回复～

不能使用tf.train.load_variable函数来加载模型吗？

使用tf.train.load_variable函数加载模型，得到错误：
tensorflow.python.framework.errors_impl.NotFoundError: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for ../roeberta_zh_L-24_H-1024_A-16/bert_model.ckpt

keras-bert