Coder Social home page Coder Social logo

nlpcc-mh's Introduction

NLPCC-MH 中文多跳问答数据集

本数据集在如下论文中被提出,由于目前问答领域内尚缺乏开放的面向多跳问题的中文QA数据集,为了验证文中模型在多跳问题上的有效性,故制作此数据集服务于论文进行实验验证

Yue Wang, Richong Zhang. 基于动态规划的知识库问答方法. CCKS(China Conference on Knowledge Graph and Semantic Computing). 2018.

数据集说明

在中文开放领域问答数据集上,NLPCC 2016 在 Open Domain Chinese Question Answering 挑战任务中发布了关于中文 KBQA 数据集,包含 14,609 条训练数据及 9,870 条测试数据。但数据仅包含单跳问题。

由于目前领域内尚缺乏开放的面向多跳问题的中文 QA 数据集,为了验证模型在多跳问题上的有效性,我们基于 NLPCC 所包含的单跳问题,通过扩充问句内容的方式,构建了一个专注多跳问题的中文 KBQA 数据集,即“NLPCC-MH”

具体构建方法如下:首先在知识库中对原问题中包含的实体进行检索,再将检索到的相关三元组通过模板形成短语文本,替换原问题中的实体名。例如对于单跳问题“谁饰演了快银”,我们在知识库中检索到与实体“快银”相关的三元组“(万磁王, 儿子, 快银)”,再基于此将原问句中的实体名进行替换,得到两跳问题“谁饰演了万磁王的儿子”。进一步可以继续检索与实体“万磁王”相关的三元组“(变形女, 上司, 万磁王)”,将此问题扩充为三跳问题“谁饰演了变形女的上司的儿子”。最后经过我们的筛选与统计,NLPCC-MH 数据集共包含 4,000 条训练数据与 1,000 条测试数据,数据涵盖 2-3 跳的问题,其中 2 跳问题占80%,3 跳问题占20%

数据格式

[{
    "q": "假蒟叶的亚目有多少亚种?", 
    "path": [
        [
            "假蒟叶 ||| 6401559", 
            "亚目", 
            "胡椒科 ||| 4604040"
        ], 
        [
            "胡椒科 ||| 4604040", 
            "亚种", 
            "共3100种 ||| 0"
        ]
    ]
 }, 
 …… 
]

数据以 JSON 形式存储,每条数据中包含 “q” 与 “path” 两项内容,前者是问题文本,后者为回答此问题所需的三元组序列,以列表形式表示,每个三元组也以长度为 3 的列表进行表示,依次分别为“头实体”,“关系”,“尾实体”,其中实体以“名称 ||| 实体id”的形式进行表征,实体id为每个实体的唯一标识,此编号来源于北航“知行”知识图谱数据库,编号 0 则表征此实体并非真实存在的实体,只是属性值。

使用说明

随意使用,欢迎下载。

数据集的构建方式比较简单,严格来说数据集质量一般,如需使用建议斟酌。数据的突出问题表现为以下几类:

  1. 知识库链接问题。如“请问雪玉剑的作者和什么相对”,标准答案为“(雪玉剑,作者,近墨者黑);(近墨者黑,相对,近朱者赤)”,但是在前一个三元组中的“近墨者黑”是一个人的笔名,和后一个三元组中的成语“近墨者黑”已经不是同一实体,针对此类问题已经进行了些许改进,但此类问题数据仍存在。
  2. 多值关系的歧义。如“请问阿贝尔的兄弟姐妹主要掌管什么”,标准答案为“(阿贝尔,兄弟姐妹,阿尔忒弥斯);(阿尔忒弥斯,司掌,净化)”,但“阿贝尔”可能会存在多个其他的“兄弟姐妹”,这里并没有完整考虑进答案内容。
  3. 多跳可能经过原点的乌龙。如"请问阿尔忒弥斯的其他名称的别称代表着什么啊?",标准答案为“(阿尔忒弥斯,其他名称,狄安娜);(狄安娜,别称,阿尔忒弥斯);(阿尔忒弥斯,象征,松柏)”,多跳过程中从 A 通过“其他名称”跳到 B,由随即通过“别称”跳回了 A,其实很尴尬的事情,已经做了一些限定来调整但问题数据仍有存在。

联系

最后,如果此数据集帮助到了你,倍感荣幸

[email protected]

nlpcc-mh's People

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.