Coder Social home page Coder Social logo

level2-data-annotation_nlp-level2-nlp-05's Introduction

Boostcamp AI Tech 3기: NLP-05-외않되조


Project: 데이터 제작

Members

이름 Github Profile 역할
공통 가이드라인 작성, Entity•Relation 정의, 파일럿 및 메인 어노테이션
강나경 angieKang 카테고리별 문장 split, fleiss-kappa 계산
김산 mounKim 가이드라인 FAQ 작성
김현지 TB2715 데이터셋 전처리, 가이드라인 이미지 제작
정민지 minji2744 모델 Fine-tuning, 데이터셋 분석
최지연 jeeyeon51 여러 개의 파일을 카테고리별로 분류하여 통합

문제 개요

본 프로젝트에서는 2022 베이징 동계 올림픽과 관련된 위키 원시 말뭉치를 활용해 자연어처리 관계 추출 태스크에 쓰이는 주석 코퍼스를 제작했습니다. 프로젝트의 의의는 한국어 및 다른 언어에서의 자연어처리 데이터셋의 유형 및 포맷이 어떠한지, 그리고 데이터셋을 구축하는 일반적인 프로세스가 무엇인지 학습하는 것입니다.

프로젝트 수행 절차 및 방법

Untitled

데이터셋 소개

  • 베이징 동계 올림픽 관련 위키 데이터
  • 총 43개의 문서, 문장 1,693개로 구성
  • 예시

    🏅 2022년 동계 올림픽은 2022년 2월 4일부터 2월 20일까지 중화인민공화국 베이징에서 열린동계 올림픽이다.

Entities & Relations

  • 총 entity 9개, relation 13개 정의
  • 가이드라인 : guideline.pdf

Untitled 4

실험 결과

작업자간 일치도

  • fleiss-kappa : 0.937

모델 Fine tuning

    train(0.6), validation(0.2), test(0.2)
    klue/roberta-large, epochs: 20, learning rate: 2e-5, batch size: 32
  • validation micro f1 score : 59
  • test set evalution micro f1 score : 55

output

level2-data-annotation_nlp-level2-nlp-05's People

Contributors

angiekang avatar minji2744 avatar

Watchers

 avatar

level2-data-annotation_nlp-level2-nlp-05's Issues

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.