Comments (3)
우선 변경한 파라미터에 대한 근거는 다음의 자료와 같다.
- 찬국님께서 알려주신 허깅페이스 공식 토론 : 일반적인 설정 , (384,128)
- 오피스아워 때 말씀해주신 max_sequence_length : doc_stride의 적정 비율 3:1 or 4:1
근거에 따라 default 설정 (max_sequence_length , doc_stride) = (384,128) 을
- (512,128)
- (768,192)
- (384,96)
로 변경하며 진행해봤다. wandb 성능 그래프는 밑의 이미지와 같으며, 현재 SOTA와 비교했을 때, 그래프 상의 성능향상이 없으므로 제출은 하지 않았다.
from level2-mrc-level2-nlp-09.
명백한 근거는 없지만, max_sequence_length를 늘리기만 해서, 줄여서도 실험을 해보았다.
- (128,64)
- (128,32)
결과는 밑의 이미지처럼 성능 하락이었다.
from level2-mrc-level2-nlp-09.
추가적인 실험
max_sequence_length : 384, doc_stride : 128 인 default setting에서 doc_stride를 96로 변경하였을 때, 성능 그래프는 밑의 이미지와 같다. 128일 경우와 다르게 학습 후반부에 갈수록 점점 더 성능이 상승할 여지가 보여서, 팀원분의 의견에 따라 epoch을 5로 늘려서 실험할 예정이다. 하지만, 현재 baseline의 lr_scheduler는 linear로 고정되어있어서 epoch에 따른 lr의 감소세가 다르다. 따라서, 우선 lr_scheduler_type을 변경하여 감소세를 맞춰줘야 실험의 성능이 재현될 것이다.
from level2-mrc-level2-nlp-09.
Related Issues (20)
- 실험) 한국어 데이터셋 pretrained 모델 활용 HOT 1
- 구현) Korquad 데이터 활용 모델 Pretrain 학습 HOT 5
- 실험) n-gram TFIDF 성능 비교 HOT 3
- 실험) bm25+알고리즘 HOT 3
- 구현) Elasticsearch 적용 HOT 3
- 실험) Wiki Retrieval 데이터 수정 HOT 2
- 실험) Learning rate & Scheduler HOT 3
- 조사) ANNA (SQuAD_SOTA) 논문 조사 HOT 1
- 조사) Sentence BERT Ranking 분야 논문 조사 HOT 1
- 구현) SOTA의 예측과 진행한 실험의 예측 비교 HOT 1
- 조사) DPR 논문 조사 HOT 1
- 구현) Dense Passage Retrieval HOT 2
- 정리) SOTA모델_Reader(MRC) HOT 3
- 구현) inference 후처리 작업(조사처리) HOT 2
- 구현) 커리큘럼 러닝 HOT 1
- 실험) Elasticsearch 설정값 변경 HOT 4
- 구현) Ensemble HOT 1
- 실험) Ensemble HOT 1
- 구현) Sentence BERT 구조의 임베딩 생성 코드구현 및 실험 HOT 3
- 구현) KorQuad 데이터 MLM Pretrain 학습 HOT 2
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from level2-mrc-level2-nlp-09.