Coder Social home page Coder Social logo

knowledgegraphdata's Introduction

史上最大规模1.4亿中文知识图谱开源下载

知识图谱

知识就是力量,知识图谱是人工智能新时代的产物,简单地说知识图谱就是通过关联关系将知识组成网状的结构,然后我们的人工智能可以通过这个图谱来认识其代表的这一个现实事件,这个事件可以是现实,也可以是虚构的。

知识图谱可以应用于机器人问答系统,知识推荐等等,下图为知识图谱在机器人上的应用。

机器人

本次ownthink开源了史上最大规模的中文知识图谱,数据是以(实体、属性、值),(实体、关系、实体)混合的形式组织,数据格式采用csv格式,下载链接见文末。

解压后查看知识图谱规模:

$ wc -l ownthink_v2.csv
140919781 ownthink_v2.csv

查看知识图谱数据:

$ head ownthink_v2.csv
实体,属性,值
胶饴,描述,别名: 饴糖、畅糖、畅、软糖。
词条,描述,词条(拼音:cí tiáo)也叫词目,是辞书学用语,指收列的词语及其释文。
词条,标签,文化
红色食品,描述,红色食品是指食品为红色、橙红色或棕红色的食品。
红色食品,中文名,红色食品
红色食品,是否含防腐剂,否
红色食品,主要食用功效,预防感冒,缓解疲劳
红色食品,适宜人群,全部人群
红色食品,用途,增强表皮细胞再生和防止皮肤衰老

使用python进行读取测试:

import sys
import csv

with open('ownthink_v2.csv', 'r', encoding='utf8') as fin:
  reader = csv.reader(fin)
  for index, read in enumerate(reader):
    print(read)
    
    if index > 10:
      sys.exit(0)

运行以上脚本输出结果:

['实体', '属性', '']
['胶饴', '描述', '别名: 饴糖、畅糖、畅、软糖。']
['词条', '描述', '词条(拼音:cí tiáo)也叫词目,是辞书学用语,指收列的词语及其释文。']
['词条', '标签', '文化']
['红色食品', '描述', '红色食品是指食品为红色、橙红色或棕红色的食品。']
['红色食品', '中文名', '红色食品']
['红色食品', '是否含防腐剂', '']
['红色食品', '主要食用功效', '预防感冒,缓解疲劳']
['红色食品', '适宜人群', '全部人群']
['红色食品', '用途', '增强表皮细胞再生和防止皮肤衰老']
['红色食品', '标签', '非科学']
['红色食品', '标签', '生活']

数据下载方式:

加入qq群:
人工智能qq群1:90780053(满)
人工智能qq群2:956936481(满)
人工智能qq群3:1160292084(满)
人工智能qq群4:1019825236(满)
人工智能qq群5:535614287
知识图谱qq群1:55152968
知识图谱qq群2:740104333
知识图谱qq群3:586457987(满)
知识图谱qq群4:858829119(满)
知识图谱qq群5:461223040
知识图谱qq群6:610347717

knowledgegraphdata's People

Contributors

ownthink avatar whitewum avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

knowledgegraphdata's Issues

实体链接规范

你好,请问里面同名实体[]后面的内容有无规范
同一个关系,后面的多个实体我看有、分割;空格分隔;也有多个列出来的,请问这个有规范吗 @ownthink
比如
君主立宪制 代表国家 英国、日本、西班牙、泰国
篮球[球类运动] 国内代表人物 姚明 易建联 王治郅 孙悦
金庸 职业 作家
金庸 职业 政论家
金庸 职业 社会活动家

想问一下用的是什么图数据库存储1.4亿三元组

我按照作者的展示效果,尝试用neo4j存储,能力有限费了很多功夫,结果neo4j显示关系类型数量过大:

Peak memory usage: 1.51 GB Import error: Maximum id limit for RELATIONSHIP_TYPE_TOKEN has been reached. Generated id 436489 is out of permitted range [0, 655 35].
想问一下作者是用的什么图数据库存储的,谢谢!

好多行错乱,不匹配的单双引号

好多将双引号间的内容分到多行去了, 用的什么换行符? 怎么修复才能用

egrep -v ",.?,.$" ownthink_v2.csv
可以这样看一下

欧洲联盟杯冠军(1989)
意大利超级杯(1990,2014)
意大利杯(1962,1976,1987,2012,2014)"
1986年世界杯第四名"
33次苏格兰杯冠军
27次苏格兰联赛杯冠军
1次欧洲优胜者杯冠军
1次苏格兰丙级联赛冠军"
Aiolos"
3次欧洲杯冠军
1次奥运会冠军
1次联合会杯冠军"
Shimura Shinpachi(罗马音)"
学院救援团(客串)
齐木楠雄的灾难第二季(客串)"
Kagura(罗马音)"
美韩军伤亡2.5万

"
Hijikata Toushirou(罗马音)"
おきた そうご(平假名)
Okita Sougo(罗马音)"
Katsura Kotarou"

下载文件解压密码不对啊?

好不容易从百度网盘下载下来2.1g大小文件ownthink_v2.zip,解压密码ownthink不对,不能解压.
请告知正确解压密码,多谢!

请问tag是如何获取的?

您好,在这个API中https://api.ownthink.com/kg/knowledge?entity=,返回的json数据存在一个'tag',请问这个tag是如何获取到的?是通过查询实体在知识图谱中的上层的本体来实现的吗,具体又是如何实现的呢,您能讲讲其中的细节吗?谢谢

构建本体

您好,请问您是如何构建本体的?

mention2entity文件

你好,请问有mention2entity文件吗?
有没有类似的,关系relation的映射文件?
还是ownthink_v2.csv文件直接使用就可以,不用mention2entity?因为我看到有人提到歧异问题

您好,请教一下关于三元组抽取的问题

您好,我刚接触知识图谱不久,问题有点简单,还望解答,谢谢!

我看了思知的项目,请问您一下,我是可以从这个已有的数据集(已经下载百度云的CSV文件)中抽取三元组么,如何抽取呢?还是说可以直接从您的知识图谱ownthink这个项目中抽取想要的三元组呢?

如何用来训练

大语言模型训练好像都是问答形式,如何把这种三元组关系来对大语言模型进行训练了?

想請問關於引用論文

您好
因為研究的關係 我需要在我的實驗中引述OwnThink Ontology
因為我在相關網頁都找不到引用的資訊
想請問如果我要引用的話
是否有提供相關的論文提供引用
或者是單位的名稱呢
感謝您

您好!请问文件里的一些数据是不是不大对?从1亿后面感觉不大对,如下:

邪王七闪,歧义关系,邪王七闪
邪王七闪,歧义权重,2488
白无常白无常,歧义关系,白无常[白无常]
白无常[白无常],歧义权重,0
冰草白穗冰草白穗,歧义关系,冰草白穗[冰草白穗]
冰草白穗[冰草白穗],歧义权重,0
夏枯草露夏枯草露,歧义关系,夏枯草露[夏枯草露]
夏枯草露[夏枯草露],歧义权重,0
白荷花露白荷花露,歧义关系,白荷花露[白荷花露]
白荷花露[白荷花露],歧义权重,0
张大钊张大钊,歧义关系,张大钊[张大钊]
张大钊[张大钊],歧义权重,0
flat,歧义关系,flat[flat]
flat[flat],歧义权重,112482
flat,歧义关系,Flat[尾崎雄贵演唱歌曲]
Flat[尾崎雄贵演唱歌曲],歧义权重,178
EIR,歧义关系,EIR[设备标识寄存器]
EIR[设备标识寄存器],歧义权重,72630
EIR,歧义关系,EIR[集装箱设备用语]
EIR[集装箱设备用语],歧义权重,47603
EIR,歧义关系,EIR[额外信息速率]
EIR[额外信息速率],歧义权重,854
EIR,歧义关系,EIR[神话人物]
EIR[神话人物],歧义权重,42387
EIR,歧义关系,EIR[音乐术语]
EIR[音乐术语],歧义权重,42144
EIR,歧义关系,EIR[驻场准创业者]
EIR[驻场准创业者],歧义权重,43765
修治修治,歧义关系,修治[修治]
修治[修治],歧义权重,0
堤坝堤坝,歧义关系,堤坝[堤坝]
堤坝[堤坝],歧义权重,0
阴平古道阴平古道,歧义关系,阴平古道[阴平古道]
阴平古道[阴平古道],歧义权重,0
沈丽丽沈丽丽,歧义关系,沈丽丽[沈丽丽]
沈丽丽[沈丽丽],歧义权重,0
岳溪岳溪,歧义关系,岳溪[岳溪]
岳溪[岳溪],歧义权重,0
永兴寺,歧义关系,永兴寺[辽宁大连市寺庙]
永兴寺[辽宁大连市寺庙],歧义权重,10715
永兴寺,歧义关系,永兴寺[浙江杭州市寺庙]
永兴寺[浙江杭州市寺庙],歧义权重,7856
永兴寺,歧义关系,永兴寺[重庆大足永兴寺]
永兴寺[重庆大足永兴寺],歧义权重,555
永兴寺,歧义关系,永兴寺[四川雅安市寺庙]
永兴寺[四川雅安市寺庙],歧义权重,7569
永兴寺,歧义关系,永兴寺[北京延庆永兴寺]
永兴寺[北京延庆永兴寺],歧义权重,959
永兴寺,歧义关系,永兴寺[福建省三明市寺庙]
永兴寺[福建省三明市寺庙],歧义权重,952
永兴寺,歧义关系,永兴寺[山西运城市寺庙]
永兴寺[山西运城市寺庙],歧义权重,4647
永兴寺,歧义关系,永兴寺[许昌永兴寺]
永兴寺[许昌永兴寺],歧义权重,1043

如何搜索?

csv里面的文件如何搜索呢?如何才能做到示例图的效果呢?

_csv.Error: line contains NULL byte

with open('ownthink_v2.csv', 'r', encoding='utf8') as fin:
    reader = csv.reader(fin)
    for index, read in enumerate(reader):

你好,我在运行以上读取代码时,在中间某一行报错_csv.Error

c++ 读取 偏移 查询显示

#include <iostream>
#include <fstream>
#include <string>

int main(int argc, char* argv[])
{
  if ( argc < 3 ){
    std::cout<<argv[0]<<"  file.csv offset(int) show_num_line(int); "<<std::endl;
    return 1;
  }
  std::string data(argv[1]);
  int offset=0,showline=10;
  
  if(argc>2)
  offset=std::atoi(argv[2]);

  if(argc>3)
    showline=std::atoi(argv[3]);

   std::ifstream in(data.c_str());
   if (!in.is_open()){
      std::cout<<" open csv file error!"<<std::endl;
      return 1;
   }
    std::string line;
    int i=0,j=showline;
    while (getline(in,line))
    {
      if(i>offset){
        if(j>0){
          std::cout<<line<<std::endl;
          j--;
        }else{
          break;
        }
      }
      i++;
    }	
 return 0;
}

可以自己加上查询

解压出错

好不容易下载下来,密码验证正确,但文件似乎已损坏,无法解压。试了2次都是这样。有解决方法吗?

如何推理

怎么使用深度学习进行推理?可以给个demo吗?

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.