Coder Social home page Coder Social logo

sft_datasets's Introduction

开源SFT数据集整理

数据集 数目 Lang Task Gen 类型 来源 链接
belle_cn 1079517 CN TS/MT SI 通用指令,数学推理,对话 text-davunci-003 下载
firefly 1649398 CN MT COL 23种nlp任务 收集中文数据集,人工书写指令模板 下载
GAOKAO 2785 CN MT COL 高考中的多选,填空等问题 人工标注的数据集的收集 下载
COIG 298428 CN MT COL 考试,翻译,价值观指令数据集搜集,基于知识图谱的反事实对话 自动化工具+人工验证 下载
pCLUE 1200705 CN MT 73个Prompt,分类,推理,关键词识别,阅读理解等9个NLP任务 下载
CSL 396209 CN MT 40万中文论文元数据,26个Prompt 下载
CNewSum 304307 CN TS 字节与UCSB发布的中文摘要数据集 下载
Coco-cn CN TS 图文多模态 下载
news_commentary 69200 EN/CN TS 中英文翻译数据 下载
Chain of Thought 74771 EN/CN MT HG CoT相关任务 人在现有数据集上标注CoT 下载
HC3 37175 EN/CN TS MIX 对话评估 gpt-3.5 或 人工 下载
instinwild 52191 EN/CN MT SI 生成,开放域问答,头脑风暴 text-davunci-003 下载
Alpaca_GPT4 52002 EN/CN MT SI 通用指令 GPT-4 生成的Alpaca数据 下载
MOSS 1583595 EN/CN SI 下载
LLMZoo ML 下载
Guanaco 534610 ML MT SI 多种nlp任务 text-davinci-003 下载
Natural Instructions 5040134 ML MT COL 多种nlp任务 人工标注的数据集的收集 下载
xP3 78883588 ML MT COL 多种nlp任务 人工标注的数据集的收集 下载
alpaca 52002 EN MT SI 通用指令 text-davinci-003 下载
GPT4all 806199 EN MT COL 代码,故事,对话 GPT-3.5-turbo 蒸馏 下载
GPTeacher 29013 EN MT SI 通用,角色扮演,工具指令 GPT-4 & toolformer 下载
prosocial dialog 165681 EN TS MIX 对话 GPT-3改写问题,人工回复 下载
finance_en 68912 EN TS COL 金融领域问答 GPT3.5 下载
instruct 888969 EN MT COL GPT4All,Alpaca和开源数据集的增强 使用AllenAI提供的nlp增强工具 下载
Code Alpaca 20022 EN SI SI 代码生成,编辑,优化 text-davinci-003 下载
webGPT 18994 EN TS MIX 信息检索问答 fine-tuned GPT-3 + 人工评估 下载
dolly 2.0 15015 EN TS HG 公开、封闭式问答、信息抽取、摘要生成、开放式构思、分类以及创意写作七类任务 人工标注 下载
baize 653699 EN MT COL Alpaca和多种问答任务 人工标注的数据集的收集 下载
hh-rlhf 284517 EN TS MIX 对话 RLHF models 下载
OIG(part) 49237 EN MT COL 多种nlp任务 人工标注的数据集的收集和数据增强 下载
camel 760620 EN MT SI 物理生物化学编程,数学,社会等领域的角色扮演对话人工标注的数据集的收集 gpt-3.5-turbo 生成 下载
FLAN-Muffin 1764800 EN MT COL 60种nlp任务 人工标注的数据集的收集 下载
GPT4Tools 71446 EN MT SI a collection of tool-related instructions gpt-3.5-turbo 下载
ShareChat 1663241 EN MT MIX general instruct 收集ShareGPT 下载
Auto CoT EN 下载
ultrachat 28247446 EN 下载
StackLLaMA todo EN

sft_datasets's People

Contributors

chaoswork avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.