View Code? Open in Web Editor
NEW
This project forked from lost-person/information-retrieval
信息检索大作业
Java 4.38%
Python 6.68%
Makefile 1.65%
C++ 0.22%
C 87.07%
information-retrieval's Introduction
- 实现对病人病历的检索模型(20分)
- 界面程序(无具体要求,实现基本功能,建议bash纯命令行界面)
- 实验报告(10分)
- 病人病历数据库 xml格式与txt格式前者是官方给定标准数据集格式,后者是为方便处理。官方文档是两者都可使用的,但是要以xml为准!
- 查询见topic.xml和extra_topics2017.pdf 通常做法是将disease字段作为查询,其他字段作为辅助。
- 提交结果形式:<查询ID> Q0 <> Q0 <文档ID> Q0 <> <文档排序> <文档评分> <系统ID> Q0 <>
- 评价指标——P@10 计算方法 可自己编写,也可以使用trec_eval脚本计算
- 5折交叉验证——3部分训练,1部分验证,1部分测试
- 测试结果取平均
- 建立倒排索引(必做,已从康哲舟出拷贝,但是只是部分倒排索引,张路,从康哲舟处拷贝倒排索引和程序)
- BM25模型(戚亚涛,已完成)
- 界面(张家瑞,已完成)
- 词干还原(戚亚涛,必做,正在编写)
- 寻找医学语料库(张路,已完成)
- 查询扩展(张路,优化,已完成)
- 查询扩展进一步优化(张路,获取更大的语料库,正在编写)
- 程序完善(结果文件标准格式,计算准确率等,戚亚涛,张家瑞,正在编写)
- 相关反馈,模型训练(戚亚涛,张家瑞,查找文献,正在编写)
- 实验报告编写(石瑞聪,卢丽婧)
information-retrieval's People