请问为什么roberta_large比roberta_middle在CMRC2018上低很多？

Question

YingZiqiang · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

ewrfcas · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

brightmart · Answer

在我们的测试里large效果比middle要好。你训练的超参数怎么样的，能否贴出来，batch size多少。

ewrfcas · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

ewrfcas · Answer

<a target="_blank" rel="noopener noreferrer nofollow" href="https://user-images.github

brightmart · Answer

词汇表是一模一样的哦。你看看这两个large和middel的文件夹下的名称。是不是large的checkpoint没有加载成功呢。再跑一次，看看checkpoint加载成功

ymcui · Answer

Same question here.
尝试了三个阅读理解数据集：CMRC 2018, DRCD, CJRC在large上的效果都比较差（不是init_ckpt没加

ewrfcas · Answer

加载应该是成功的，我对比过参数，没有加载的只有cls的pooler相关的权重

brightmart · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

ymcui · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

ewrfcas · Answer

我在CMRC2018上测试结果都是基于512长度的，middle的F1在5次里是86~87，large的F1大概要低10个点，在75~77左右，256长度的large结果正

ewrfcas · Answer

目前测roberta-large长度256在CMRC2018的dev结果为
F1：88.365, EM:69.991
lr=2e-5 epoch1最佳

brightmart · Answer

所有，初步的看，在这个阅读理解任务上，和其他模型比，怎么样呢？为什么阅读理解还能将长度设为这么小。

ewrfcas · Answer

这个结果目前看来在ERNIE2.0 base到ERNIE2.0 large之间，在预训练模型里效果算比较好的了。
长度设为256依靠划窗可以跑，但是效果会有一点下降

brightmart · Answer

好的。 <a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url=

ewrfcas · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

oyjxer · Answer

这个结果目前看来在ERNIE2.0 base到ERNIE2.0 large之间，在预训练模型里效果算比较好的了。
长度设为256依靠划窗可

ahzz1207 · Answer

这个结果目前看来在ERNIE2.0 base到ERNIE2.0 large之间，在预训练模型里效果算比较好的了。

ewrfcas · Answer

划窗可以参考google官方squad代码，或者<a href="https://github.com/ewrfcas/bert_cn_finetune/blob/mast

请问为什么roberta_large比roberta_middle在CMRC2018上低很多？ about roberta_zh HOT 19 CLOSED