2020년까지 많은 데이터가 구축되었다. 그 중에서 비교적 대부분의 사람들이 접근할 수 있는 오픈 데이터를 정리하였다. 구할 수 있는 모든 데이터를 쏟아 부어서 end to end로 모델을 만들어 보겠다는 포부를 가진 분들의 진입을 쉽게하기 위한 목적이고, 정교한 데이터 구축을 위해서는 이후에 어떠한 데이터가 필요한지를 살펴보기 위한 과정이다.
12월 15일 첫번째 버전을 만들었고 이후 박조은님의 코멘트 그리고 2020년 8월 21일 @warnikchow님의 다양한 기여와 의견을 반영하여 수정.
Natural language processing의 각 분야에 대한 자료 정리는 다음 링크를 참고 Awesome-Korean-NLP
Commercially available(com), academic use only(aca), unknown(unk)
Redistribution is possible with or without modification, if neither, or unknown (red, red/mod-x, not, unk)
Internationally available publication(INT)
1. Classical NLP pipeline
분석적 관점에서 원시 코퍼스로부터 형태소,(의존)구문, 의미역, 개체명, 무형대용어복원 등의 태깅을 하는 과제가 주를 이룬다. 데이터 설계에서부터 주석을 일관성 있게 달 수 있도록 하는 것이 필요하다, 즉, 개체명의 'entity'와 무형대용어복원의 'entity'가 일치하고 파일 번호 역시 매핑되어야 구축된 다층위 코퍼스가 실제 모델 설계에 쉽게 반영될 수 있다.
자연어처리에서 '의미론'은 많은 부분에서 분류의 문제로 처리되어 왔다(Y Kim(2014)). 가령, 좁은 범주의 고정 도메인에서 QA 문제를 풀 때 정해진 답변을 분류 문제로 풀어서 답할 수 있다. 수영장 이용 안내를 챗봇으로 하는 경우 라커키 이용 방법처럼 자주 나오는 질문에 대한 답은 정해져 있는 편이 경제적일 것이다.
다양한 분석 말뭉치(형태소 분석과 구문 분석 말뭉치 등), 다양한 도메인의 말뭉치(문어, 신문, 구어, 웹), 자연어 추론을 위한 말뭉치(유사 문장) 등 다양한 데이터들이 체계적으로 구축되어 있다. 로그인, 메일 인증을 거쳐 데이터를 신청할 수 있고 다운로드 받기 위해서는 연구과제명과 수행기관, 약정 기간 등이 필수 입력 요소이다.
딥러닝이 블랙박스 모델이라고 불리고 있음에도 불구하고 다양한 모델링과 튜닝을 하는 모델러와 데이터 구축에서 서비스까지 뚝딱뚝딱 마법사처럼 만들어 내고 계신 SW 개발자 여러분, 다양한 feature를 찾아내 분석할 수 있는 모든 방법론으로 설명해 주고 계신 분석가, 사람의 언어와 기계의 언어를 이해하려고 노력하는 코퍼스 언어학자 등 남들이 삽질이라고 영역에서 놀라운 창조력을 발휘해 내시는 분들께 감사의 마음과 큰 박수를 보낸다.