Coder Social home page Coder Social logo

corpus's Introduction

把自己找到的语料和语言资源整理一下,避免以后需要的时候又浪费时间去收集(长期坑位)。

  1. 数据使用范围、授权请参考原始发布源(如果有的话),如有侵权,请联系我删除。
  2. 有的数据源(网站、论文)提供了多语语料,为避免重复,只在中文或外语对应章节列出(比如翻译)。如有多语资源,会在相应章节进行说明(如需要特定任务的数据集,可以分别在中文和外语语料对应章节进行查看)。
  3. 我这里“问答”和“阅读理解”划分的标准是:输入是一段背景信息或者加上用户query,输出是从背景信息抽取的答案(或者判定不能回复)或者填空,这样的数据集归类为“阅读理解”;“问答”可以看做是对话的另外一种形式。

关注公众号:尘世美小茶馆,获取更多丰富资源。

目录:

1. 中文语料

1.1 生语料

1.1.1 人民日报新闻数据

包含1946年-2003年人民日报全部数据以及**网(2005-2008)全部图文数据库。原始发布地址不详,只找到转载的页面 ,作者邮箱应该是 [email protected] ,联系过,没收到回复。原始数据是图文数据库,我将其转存百度网盘 ,然后单独整理了一个sql文件方便使用和查询。大多数情况下,只需要考虑文本内容,我写了一个脚本rmrb.py 将所有新闻导出到txt文件中,方便使用。新闻一共有137万多条。

1.1.2 微信公众号语料库

微信公众号语料库:只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文,数据大约3G。


1.2 结构化数据

1.2.1 **古代人物传记数据库(CBDB)

**历代人物传记数据库(The China Biographical Database, CBDB)是一个线上关系型数据库,其远期目标在于系统性地收入**历史上所有重要的传记资料,其内容无限制地、免费地提供学术研究。截止2018年9月为止,该数据库一共收录了422,600人的传记资料,这些人主要出自七世纪至十九世纪,该数据库目前致力于增录更多的唐代和明清的人物传记资料。

CBDB的数据是用access和sqlite两种数据库进行存储,我转了一个mysql的版本,表格和字段的具体说明请参考官网。由于数据是不断更新的,需要最新数据的请到官网下载。脚本cbdb.py是将sqlite中的数据导入mysql中,如果数据库表格发生改变,可能需要更新一下脚本。

1.3 文本分类数据集

1.3.1 2018法研杯

2018**‘法研杯’法律智能挑战赛(任务:罪名预测、法条推荐、刑期预测)的[数据](https://cail.oss-cn-qingdao.aliyuncs.com/CAIL2018_ALL_DATA.zip),数据集共包括268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑。

1.3.2 今日头条中文新闻(短文本)分类数据集

今日头条中文新闻(短文本)分类数据集:共382688条,分布于15个分类中,包含民生、文化、娱乐、体育、财经、房产、骑车、教育、科技、军事、旅游、国际、证券、农业、电竞。


1.3.3 清华新闻分类语料

清华新闻分类语料:74万篇新闻文档,划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。


1.3.4 SMP2017中文人机对话评测数据

包含了两个任务的数据集:用户意图领域分类,特定域任务型人机对话在线评测。第一个数据集用得比较多。用户意图领域分类包含闲聊类、任务垂直类共三十一个类别,属于短文本分类的一个范畴。


1.3.5 **新闻网新闻分类语料

**新闻网新闻分类语料:从**新闻网爬取2008-2016年七个新闻种类的新闻,包括**大陆政治、港澳台政治、国际新闻、金融、文化、娱乐、体育(论文还提到health这个类别,数据里其实没有)。每个样本只包括新闻的第一段话。每个类别样本数相同。140万训练集,11.2万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,Chinanews子文件)


1.3.6 凤凰网新闻分类语料

凤凰网新闻分类语料:从凤凰网爬取2006-2016年五个新闻种类的新闻,包括**大陆政治、国际新闻、港澳台、军事和社会新闻。每个样本只包括新闻的第一段话。每个类别样本数相同。80万训练集,5万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,Ifeng子文件)

1.4 序列标注数据集(分词、命名实体识别、词性标注等)

1.4.1 SiGHAN2005分词数据集

SiGHAN2005分词[数据集](http://sighan.cs.uchicago.edu/bakeoff2005/)(或在我的repo中下载):北大、香港城市大学、**“**研究院”(繁体)、微软亚研院四个机构提供的中文分词数据集。

1.4.2 MSRA命名实体识别数据集

MSRA命名实体识别数据集:包含地名、人名和机构名三类。


1.4.3 人民日报命名实体识别数据集

人民日报命名实体识别数据集:包含地名、人名和机构名三类。


1.4.4 微博命名实体识别数据集

微博命名实体识别数据集:包含地名、人名、机构名、行政区名四类。


1.4.5 影视-音乐-书籍实体标注数据

影视、音乐、书籍实体标注数据:类似于人名/地名/组织机构名的命名体识别数据集,大约10000条影视/音乐/书籍数据。


1.4.6 BosonNLP NER数据

BosonNLP(好像不维护了,数据可以在我的repo中找到):2000条,包含人名、地名、时间、组织名、公司名、产品名。


1.4.7 cluener 细粒度实体识别数据集

cluener:是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据分为10个标签类别,分别为: 地址(address),书名(book),公司(company),游戏(game),政府(government),电影(movie),姓名(name),组织机构(organization),职位(position),景点(scene)


1.4.8 人民日报2014NER标注数据

人民日报2014NER标注数据(数据可以在我的repo中找到):包含人名、地点、组织、时间。


1.4.9 1998年1月-6月人民日报标注语料

1300W字的新闻标注语料,该语料可用于分词、NER、POS等任务。标记和格式请参考此文章


1.5 指代消解

1.5.1 CLUEWSC2020

CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务,训练集:1244,开发集:304。


1.6 对话

1.6.1 好大夫医疗对话数据集

医疗领域对话数据集,110万轮对话,共400万句:从好大夫网上爬的。


1.6.2 中文医疗对话数据集

中文医疗对话数据集

领域 数据量
男科 94596
内科 220606
妇产科 183751
肿瘤科 75553
儿科 101602
外科 115991

1.7 情感分析

1.7.1 携程网酒店评论数据

携程网酒店评论数据:5000+条正向评论,2000+负向评论。


1.7.2 外卖评论数据

外卖评论数据:4000+正向,8000+负向。


1.7.3 电商商品评论数据

电商商品评论数据:10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条,包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店。


1.7.4 微博情感数据(2类)

微博情感数据:10万多条,带情感标注的新浪微博,正负向评论约各 5 万条。


1.7.5 微博情感数据(4类)

微博情感数据:36万多条,带情感标注的新浪微博,包含4种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约5万条。


1.7.6 电影评论评分数据

电影评论评分数据:28部电影,超70万用户,超200万条评分/评论数据,包括1-5分评分,及评论的点赞数。


1.7.7 大众点评餐馆评论数据

大众点评餐馆评论数据:24 万家餐馆,54 万用户,440 万条评论/评分数据。包括总体评分(0-5),环境评分(1-5),口味评分(1-5),服务评分(1-5)


1.7.8 Amazon商品评论数据

Amazon商品评论数据:52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据,评分1-5。


1.7.9 豆瓣电影评论数据

豆瓣电影评论数据:5万多部电影(3万多有电影名称,2万多没有电影名称),2.8万用户,280万条评分数据,评分1-5。


1.7.10 大众点评用户评论(2类)

大众点评用户评论:从大众点评爬取的用户评论。1-3星划分为负面评论、4-5星为正面评论。每个类别样本数相同。200万训练集,50万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,dianping子文件)


1.7.11 京东用户评论数据

京东用户评论数据:JD full是五分类数据,1-5星每个星级为一个类别,类别的样本数相同。300万训练集,25万测试集。JD binary是二分类数据,1-2星属于负面评论,4-5星属于正面评论,忽略3星,类别的样本数相同。400万训练集,36万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,JD full和JD binary子文件)


1.8 语义相似度(文本蕴含)

1.8.1 LCQMC

LCQMC:26万对句子,判别两个问句是否表示相同的意思。(https://pan.baidu.com/s/1yerI7P6Lvm7HdgrKdRJyGQ,提取码:q8y1)


1.8.2 ChineseSTS

中文文本语义相似度语料库:相似度值:0-5,5表示相似度最高(意思一样),0表示相似度最低(语义相反或不相干)


1.8.3 ATEC蚂蚁金服语义相似度数据

ATEC蚂蚁金服语义相似度数据:给定客服里用户描述的两句话,用算法来判断是否表示了相同的语义(数据集在我repo也可以下载)。


1.9 问答

1.9.1 580万百度知道社群问答

580万百度知道社群问答:包括超过580万的问题,每个问题带有问题标签。问答对983万个,每个问题的答案个数1.7个,问题标签个数5824个。


1.9.2 DuReader

DuReader:百度开源的一个QA和MRC数据集,共140万篇文档,30万个问题,及66万个答案。


1.9.3 细分领域知道问答数据集

不同领域的知道问答数据:包含保险、金融、法律等领域,字段有用户query,网友回答和最佳回答。


1.9.4 社区问答数据集

社区问答数据:含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个话题,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签。


1.10 阅读理解

1.10.1 人民日报&童话故事

人民日报&童话故事:完形填空类型的,预测的是一个词,2.8万篇文档,10万个query。


1.10.2 CMRC2017

CMRC2017:新闻领域的语料,形式为完形填空和用户提问类两种,共36万+数据。


1.10.3 CMRC2018

CMRC2018:维基语料,1.8万个query,形式为给定用户query从上下文抽取span。


1.10.4 CMRC2019

CMRC2019:句子级别的完形填空。1000篇文档,10万个query。根据给定的一个叙事篇章以及若干个从篇章中抽取出的句子,参赛者需要建立模型将候选句子精准的填回原篇章中,使之成为完整的一篇文章。与CMRC 2017的不同是:空缺部分不再只是一个词,而是一个句子;每个篇章不只是一个空缺,会包含多个空缺位置,机器可利用的信息大大减少;候选选项中包含假选项,即该选项不属于篇章中任何一个空缺位置,显著增加了解答难度。


1.10.5 DRCD

DRCD:维基语料,3.4万个query,形式为给定用户query从上下文抽取span(繁体汉语)。


1.10.6 C^3

C^3:文档是混合类型的,有对话、故事、新闻报道、广告等。形式为用户提问类,结果是根据候选答案进行选择(只有一个是正确的)。1.4万篇文档,2.4万query。


1.10.7 ChiD

ChiD:成语预测类型任务(完形填空),给定上下文和每个位置候选的成语列表,预测该位置应该填什么成语。共58万篇文档,72.9万query(cloze)。


1.10.8 DuReader

DuReader:百度开源的一个QA和MRC数据集,共140万篇文档,30万个问题,及66万个答案。

2. 外语语料

2.1 文本分类数据集

2.1.1 Fake News Corpus

Fake News Corpus:940万篇新闻,745个类别(domain)。


2.1.2 AG News

AG News:100多万的新闻数据,分为全球新闻、运动、商业和科技四类。


2.1.3 ColBERT

ColBERT:20万条短文本,判断是否包含幽默元素的二分类数据集,正负各十万。


2.2 情感分析

2.2.1 MovieTweetings

MovieTweetings:推特电影评分数据集,822,784条,0-10分评分。


2.2.2 Amazon Fine Food Reviews

Amazon Fine Food Reviews:亚马逊上的食品评价,包含56万条评论,涉及7.4万产品,1-5分。


2.2.3 Amazon Reviews

Amazon Reviews:美亚上面商品的评论数据,有2.3亿条。


2.2.4 Yelp Open Dataset

Yelp Open Dataset:包含800多万条评论。


2.2.5 MovieLens

MovieLens:包含2500万条电影评论,涉及6万2千部电影和16万用户,100万个标签。


2.3 对话

2.3.1 Twitter Chat Corpus

Twitter Chat Corpus:500多万推特对话数据。


2.4 序列标注数据集(分词、命名实体识别、词性标注等)

2.4.1 DAWT

DAWT:包含了六种语言共1300万的文章,实体提及(mention)是链接到Freebase的具体实体上的,标注信息也包括了实体类别。

2.5 机器翻译

2.5.1 Europarl

欧盟21种语言翻译平行语料:20种语言到英语的平行语料,包括保加利亚语、捷克语、丹麦语、德语、希腊语、西班牙语、爱沙尼亚语、芬兰语、法语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、瑞典语。 百度网盘 y7k3


2.5.2 United Nations Parallel Corpus

联合国平行语料,当前版本(1.0)由联合国的官方文件和其他议会文件组成,包含了联合国的六种官方语言(英语、法语、俄语、汉语、阿拉伯语、西班牙语两两之间的平行语料对),语料的内容主要是在1990-2014年之间产生和翻译的,并在句子级别上进行了对齐。百度网盘(目前只包含中文到除阿拉伯语的其他语言翻译对) pnhy


2.5.3 News-Commentary

WMT提供的新闻评论语料,共98个双语对,15种语言。百度网盘 igss


2.5.4 wikititles

WMT提供的维基百科标题多语对,共11个双语对,14种语言。百度网盘 inxn

News-Commentary和wikititles的下载脚本


2.5.5 Ted Talk

Ted上面有丰富的语料资源,包含了109种语言。ajinkyakulkarni14提供了2014年获取的平行语料,和获取语料的脚本

neubig也提供了他们用于论文实验的Ted数据

neubig数据百度网盘 dn6y


2.5.6 中英翻译数据集

中英翻译数据集:520万对中英文平行语料,每一个对,包含一个英文和对应的中文。中文或英文,多数情况是一句带标点符号的完整的话。对于一个平行的中英文对,中文平均有36个字,英文平均有19个单词。


2.6 语义相似度(文本蕴含)

2.6.1 PAWS

PAWS and PAWS-X:Goggle公开的同义句识别语料。PAWS是英文语料,包含108463对英文句子对;PAWS-X包含中、法、德、日、韩、西班牙六种语言的语料,每种语言大约5.3W条。


2.6.2 DNLI

Dialogue Natural Language Inference:用于改善对话模型的一致性,判断句子对之间的关系,是蕴含、中性还是矛盾。


2.6.3 MultiNLI

MultiNLI Matched/Mismatched:43万对句子,判断是蕴含、中性还是矛盾。包含多种类型的文本,涉及口语和书面语言。


2.6.4 XNLI

XNLI:11.2万句子对,判断是蕴含、中性还是矛盾。共有十四种语言,有中文。


2.6.5 SNLI

SNLI:57万个句子对,判断是蕴含、中性还是矛盾。


2.6.6 Quora Question Pairs

Quora Question Pairs:判断两个问句是否是语义等价的,共40万对。


2.7 问答

2.7.1 MS MARCO

MS MARCO:100多万的问答数据,也适用于阅读理解、文章排序、关键词抽取等任务。


2.8 阅读理解

2.8.1 HotpotQA

HotpotQA:100多万问答对。需要多跳推理才能得到正确答案,难度更大。


2.8.2 SQuAD v2.0

SQuAD v2.0:15万问答对,依据给出的上下文,其中10万可回答,5万不可回答。


2.8.3 CoQA

CoQA:对话问答系统(Conversational Question Answering systems)数据集,从8000对话中整理了12.7W问题和答案。数据集特点:问题是对话形式;答案是自由文本格式;每个答案都能在给定的文章中找到佐证(evidence);文章总共覆盖了7个不同领域。相对阅读理解任务,CoQA需要考虑指代消解和推理两个方面的难点。


2.9 文本摘要

2.9.1 BigPatent

BigPatent:包含130万的美国专利文档,和人工撰写的摘要。


3. 语言资源

3.1 实体类(人名、地名等)

3.1.1 百科实体

百科实体(2010年):根据当时百科页面的标签来筛选实体类型(人名、地名),存在一定噪音,酌情使用。95433个地名,278577个人名


3.1.2 **古代编年史CBDB实体

**古代编年史CBDB实体(2017年):227266个人名和百科的会有重合。


3.2 词典类

3.2.1 百科词条名

百科词条名(2010年百度百科):一千万词条名


3.2.2 360万中文词库(包含词性和词频)

资源作者为刘邵博,由其综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。词典结构为:词语\t词性\t词频。词频是用ansj分词对270G新闻语料进行分词统计词频获得。


3.2.3 谷歌书籍N-gram数据

谷歌书籍N-gram数据:分别整理了多种语言的n-gram词典资源,包含中文,从1到5-gram都有。


4. KG数据

4.1 百科三元组

1.4亿三元组中文知识图谱


4.2 Dbpedia

Dbpedia:多语知识图谱数据,共有130亿个三元组,但大部分都是英语。有760个类,1105个关系,1622个属性。


4.3 OpenKG

开放的中文知识图谱社区:这里有很多垂直领域图谱数据,我就不一一放上来了。

corpus's People

Contributors

simmerchan avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.