- Wrap-up Report : 프로젝트_Wrap_Up.pdf
- 발표 자료 : 베이징 동계 올림픽 데이터 제작 소개.pdf
이름 | Github Profile | 역할 |
---|---|---|
공통 | 가이드라인 작성, Entity•Relation 정의, 파일럿 및 메인 어노테이션 | |
강나경 | angieKang | 카테고리별 문장 split, fleiss-kappa 계산 |
김산 | mounKim | 가이드라인 FAQ 작성 |
김현지 | TB2715 | 데이터셋 전처리, 가이드라인 이미지 제작 |
정민지 | minji2744 | 모델 Fine-tuning, 데이터셋 분석 |
최지연 | jeeyeon51 | 여러 개의 파일을 카테고리별로 분류하여 통합 |
본 프로젝트에서는 2022 베이징 동계 올림픽과 관련된 위키 원시 말뭉치를 활용해 자연어처리 관계 추출 태스크에 쓰이는 주석 코퍼스를 제작했습니다. 프로젝트의 의의는 한국어 및 다른 언어에서의 자연어처리 데이터셋의 유형 및 포맷이 어떠한지, 그리고 데이터셋을 구축하는 일반적인 프로세스가 무엇인지 학습하는 것입니다.
- 베이징 동계 올림픽 관련 위키 데이터
- 총 43개의 문서, 문장 1,693개로 구성
- 예시
🏅 2022년 동계 올림픽은 2022년 2월 4일부터 2월 20일까지 중화인민공화국 베이징에서 열린동계 올림픽이다.
- 총 entity 9개, relation 13개 정의
- 가이드라인 : guideline.pdf
- fleiss-kappa : 0.937
train(0.6), validation(0.2), test(0.2)
klue/roberta-large, epochs: 20, learning rate: 2e-5, batch size: 32
- validation micro f1 score : 59
- test set evalution micro f1 score : 55