Coder Social home page Coder Social logo

dl_rl_coding_practice's Introduction

구현 리스트
RNN
LSTM
Transformer
T5
BERT
GPT
Vision Transformer
MSTC
Alphago zero
Distillation
Quantization
Tiemerging
llm in flash
Mamba
CLIP

https://huggingface.co/collections/fffiloni/sora-reference-papers-65d0c8d4891646a27b84c4a8

[1706.03762] Attention Is All You Need
NeroIPS2022
NeroIPS2023
NeroIPS2024

모든걸 삼켜버릴 BlackMamba! SSM과 MoE의 결합으로 언어 모델링의 새로운 지평을 여는 모델 BlackMamba는 상태 공간 모델(SSM)과 전문가 혼합(MoE) 모델의 장점을 결합한 새로운 언어 모델로, 언어 모델링과 긴 시퀀스 처리에서 뛰어난 성능을 보여줍니다. 이 모델은 시퀀스 길이에 따른 선형 시간 및 메모리 복잡성을 달성하고, 추론 및 훈련의 효율성을 개선합니다. 300억 개의 토큰으로 구성된 데이터 세트에서 훈련된 BlackMamba는 모든 가중치와 코드를 오픈소스로 제공하며, SSM과 MoE의 결합된 장점을 통해 언어 모델링 분야에 새로운 기준을 제시합니다. https://huggingface.co/papers/2402.01771

ASPIRE: 대규모 언어 모델의 신뢰성과 정확성 향상을 위한 새로운 프레임워크 대규모 언어 모델의 신뢰성 문제를 해결하기 위해 ASPIRE라는 새로운 프레임워크가 개발되었습니다. ASPIRE는 LLM을 질문 답변(QA) 작업에 특화하여 미세 조정하고, 답변에 대한 신뢰도 점수를 제공함으로써 선택적 예측 기능을 개선합니다. 실험 결과, ASPIRE는 여러 QA 데이터 세트에서 기존의 선택적 예측 방법보다 우수한 성능을 나타냈으며, LLM의 응용 가능성을 넓히는 중요한 발전을 보여줍니다. https://blog.research.google/2024/01/introducing-aspire-for-selective.html

[PaperList for implemetation]
aaa

dl_rl_coding_practice's People

Contributors

cwh1981 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.