这是一个利用正则表达式对文本进行抽取或者标注的项目。
编程环境:Windows10,Python 3.7.9
-
template.json
该文件定义属性对应的模板规则,用户可以遵循下列规则修改或添加自己的模板:
- json数据的内容格式满足{'属性':'属性对应正则表达式'},不符合格式的数据将导致报错。
- 同一属性可以对应多个正则表达式。
- 不可以出现重复的规则(即属性和属性对应正则表达式完全一致),否则会导致报错。
- 正则表达式必须是符合规范的,不然会在编译正则表达式时报错。
-
source_data.json
该文件定义了需要处理的格式:
- json数据的内容格式需满足{'实体名':'文本'},不符合格式的数据将导致报错。
在项目路径下打开命令行,输入:
python main.py EXTRACT
项目中默认的template.json是针对百度百科人物图谱属性定义的一个模板,source_data.json则是从我们数据源中抽取的一小部分数据,用于测试与展示。
欢迎给出关于我们在正则模板定义上的意见!
-
extracted_triple.txt
抽取的三元组将会输出至这个txt当中,会以实体;;;;属性;;;;属性值的形式表示三元组,其中每一个三元组占一行,以四个分号“;;;;”作为行内分隔符
需要注意的是,每一次运行的操作都会覆盖上一次的生成结果,请注意及时保存