Topic: reinforcement-learning-from-human-feedback Goto Github

Some thing interesting about reinforcement-learning-from-human-feedback

👇 Here are 11 public repositories matching this topic...

almost-intelligence / lmrax

reinforcement-learning-from-human-feedback,LMRax is a framework built on JAX to train transformers language models by reinforcement learning, along with the reward model training.

Organization: almost-intelligence

jax language-model reinforcement-learning reinforcement-learning-from-human-feedback transformer

reinforcement-learning-from-human-feedback,annotated tutorial of the huggingface TRL repo for reinforcement learning from human feedback connecting equations from PPO and GAE to the lines of code in the pytorch implementation

User: clam004

deep-learning deep-reinforcement-learning fine-tuning language-model large-language-models nlp pytorch reinforcement-learning transformers reinforcement-learning-from-human-feedback

liushunyu / ask-ac

reinforcement-learning-from-human-feedback,[TSMC] Ask-AC: An Initiative Advisor-in-the-Loop Actor-Critic Framework

User: liushunyu

Home Page: https://ieeexplore.ieee.org/abstract/document/10210582

action-advising reinforcement-learning reinforcement-learning-from-human-feedback

nlp-uoregon / okapi

reinforcement-learning-from-human-feedback,Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback

User: nlp-uoregon

bloom chatbot dataset instruction-tuning language-model large-language-models llama multilingual natural-language-processing nlp question-answering reinforcement-learning reinforcement-learning-from-human-feedback rlhf

openllmai / openrlhf

reinforcement-learning-from-human-feedback,An Easy-to-use, Scalable and High-performance RLHF Framework (Support 70B+ full tuning & LoRA & Mixtral & KTO)

Organization: openllmai

Home Page: https://huggingface.co/OpenLLMAI

deepspeed transformers vllm large-language-models raylib reinforcement-learning-from-human-feedback reinforcement-learning

pku-alignment / safe-rlhf

reinforcement-learning-from-human-feedback,Safe RLHF: Constrained Value Alignment via Safe Reinforcement Learning from Human Feedback

Organization: pku-alignment

Home Page: https://pku-beaver.github.io

ai-safety alpaca datasets deepspeed large-language-models llama llm llms reinforcement-learning reinforcement-learning-from-human-feedback

tatsu-lab / alpaca_farm

reinforcement-learning-from-human-feedback,A simulation framework for RLHF and alternatives. Develop your RLHF method without collecting human data.

Organization: tatsu-lab

Home Page: https://arxiv.org/abs/2305.14387

deep-learning instruction-following large-language-models reinforcement-learning-from-human-feedback natural-language-processing

tlc4418 / llm_optimization

reinforcement-learning-from-human-feedback,A repo for RLHF training and BoN over LLMs, with support for reward model ensembles.

User: tlc4418

Home Page: https://arxiv.org/abs/2310.02743

best-of-n deep-learning ensembles large-language-models reinforcement-learning-from-human-feedback reward-models

xplainmind / llmindcraft

reinforcement-learning-from-human-feedback,Shaping Language Models with Cognitive Insights

Organization: xplainmind

docker instruct-tuning large-language-models pretraining reinforcement-learning-from-human-feedback deepspeed transformers

ymetz / rlhfblender

reinforcement-learning-from-human-feedback,RLHF-Blender: A Configurable Interactive Interface for Learning from Diverse Human Feedback

User: ymetz

Home Page: https://rlhfblender.readthedocs.io/en/latest/

experimentation human-ai-interaction python react reinforcement-learning reinforcement-learning-from-human-feedback

ymnseol / weekly-paper-reading-group

reinforcement-learning-from-human-feedback,Summaries of papers related to the alignment problem in NLP

User: ymnseol

instruction-tuning natural-language-processing nlp reinforcement-learning-from-human-feedback rlhf

Topic: reinforcement-learning-from-human-feedback Goto Github

👇 Here are 11 public repositories matching this topic...

almost-intelligence / lmrax

clam004 / minichatgpt

liushunyu / ask-ac

nlp-uoregon / okapi

openllmai / openrlhf

pku-alignment / safe-rlhf

tatsu-lab / alpaca_farm

tlc4418 / llm_optimization

xplainmind / llmindcraft

ymetz / rlhfblender

ymnseol / weekly-paper-reading-group

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent