Coder Social home page Coder Social logo

oglee815 / open-korean-instructions Goto Github PK

View Code? Open in Web Editor NEW

This project forked from heegyukim/open-korean-instructions

0.0 0.0 0.0 44 KB

언어모델을 학습하기 위한 공개 한국어 instruction dataset들을 모아두었습니다.

Shell 0.77% Python 79.43% Jupyter Notebook 19.80%

open-korean-instructions's Introduction

open-korean-instructions

Open Korean Instructions는 언어모델을 학습하기 위한 공개 한국어 instruction dataset들을 모아둔 데이터셋입니다. KoAlpaca v1.0과 v1.1, ShareGPT DeepL 번역, OIG-smallchip2-ko, KorQuAD-chat 5가지를 포멧을 통일하고 합쳤습니다. Huggingface Link.

Gradio Demo 위 데이터로 학습한 355M 모델을 사용해보실 수 있습니다.

이 외에도 번역하거나 GPT를 이용해서 생성한 다양한 데이터들이 존재합니다. 혹시 새로운 데이터가 있다면 PR로 알려주세요.

공개된 데이터 정리

이름 # 타입 내용
KoAlpaca v1.0 52K 싱글턴 Alpaca instruction 번역 후 output을 ChatGPT로 생성
KoAlpaca v1.1 21K 싱글턴 지식인 질문 수집 후 ChatGPT로 대답 생성
ShareGPT DeepL 번역 620K(싱글턴)
84K(멀티턴)
멀티턴, 싱글턴 ShareGPT 데이터를 DeepL로 번역
ShareGPT-74k-ko 74k, 55k(코드제거) 멀티턴 ShareGPT 90k의 cleaned 버전을 구글 번역기를 이용하여 번역
KoChatGPT 실습 13K 싱글턴, 멀티턴, RM 한국어 질문 데이터셋에서 질문 수집 후 ChatGPT로 대답 생성
OIG-small-chip2-ko 210K 싱글턴 LAION AI의 OIG-smallchip-2 영어 데이터 Google Translate으로 번역
Korquad-Chat 9.6K 멀티턴, 지식기반 KorQuAD v1 데이터의 context(뉴스, 위키백과의 문단)을 주고, 관련 내용의 대화를 ChatGPT로 생성
AIRC-KETI/kowow ? 멀티턴, 지식기반 WoW(Wizard Of Wikipedia) - 지식기반 대화 데이터를 번역한 데이터
CounselGPT 싱글턴(13k)
멀티턴(8.7k)
멀티턴, 싱글턴 GPT로 생성한 상담 데이터
Evolve-instruct 37k 싱글턴 WizardLM에서 사용된 evol-instruct를 이용하여 instruction을 증강한 후 GP로 답변 생성한 데이터
KULLM v2 153k 싱글턴 GPT4ALL, Dolly, Vicuna(ShareGPT) 데이터를 DeepL로 번역
psymon/namuwiki_alpaca_dataset 79K 싱글턴 나무위키 덤프 파일을 Stanford Alpaca 학습에 맞게 수정한 데이터셋
changpt/ko-lima-vicuna 1k 싱글턴, 멀티턴(극히 일부) GPT4 API를 사용하여 lima_vicuna_format 데이터를 한국어로 재생성한 데이터셋
taeshahn/ko-lima 1k 싱글턴, 멀티턴(극히 일부) LIMA: Less Is More for Alignment (Zhou et al., 2023)의 학습 데이터를 한국어로 번역한 데이터셋
Ko-StrategyQA 2.2k(질문), 9k (문서) Multi-hop QA, 예/아니오 단답형 이 데이터셋은 StrategyQA의 한국어 버전입니다. 기존 데이터셋의 모든 질문과 단락들을 DeepL을 사용하여 번역.
HAERAE-HUB/KoInstruct-Base 52k 싱글턴 Alpaca 데이터 번역인 듯 함.
HAERAE-HUB/KoInstruct-QA 50.3k 싱글턴 원본 데이터가 뭔지 모르겠음. 위 데이터중에 중복이 있을 수도 있음.

HAERAE-HUB 데이터셋들은 설명이 없어서 어떤 데이터인지 잘 모르겠네요.

평가용 데이터셋

이름 # 타입 내용
HAETAE-project/HAE-RAE-BENCH 1.5k ? HAE-RAE Bench는 언어 모델의 한국어 능력(어휘, 역사, 상식, 독해)을 평가하기 위해 제작된 벤치마크 데이터셋입니다.
HAERAE-HUB/CSAT-QA 0.9k 싱글턴, 객관식 국어 수능문제

그 외 instruction은 아니지만..

데이터 생성 코드

일부 데이터는 번역되거나 ChatGPT를 통해 생성했습니다.
src/에 있는 코드를 이용하여 데이터를 생성할 수 있습니다.

Translate API를 이용하여 번역

python translate.py --max-items 10000 --batch-size 8 oig-smallchip2 ../data/oig-smallchip2.jsonl

# google은 비싸요 ㅠ. 기본 chatgpt
python translate.py --max-items 10000 --batch-size 8 --translator google oig-smallchip2 ../data/oig-smallchip2.jsonl

ChatGPT로 지식기반대화 생성

python generate_kg_dialogue.py --max-items 10000 --batch-size 1 --num_process 4 korquad-v1 ../data/korquad-chat.jsonl

주의사항

  • 서로를 A씨, B씨로 호칭합니다. 추후 전처리가 필요합니다.
  • 할루시네이션이 있을 수 있습니다. 최대한 없애고자 주어진 정보 내에서만 대화하도록 프롬프트를 구성했습니다.

open-korean-instructions's People

Contributors

heegyukim avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.