Coder Social home page Coder Social logo

japanese-rag's Introduction

日本語 | English

日本語 RAG

このリポジトリは、日本語検索拡張生成(RAG)を強化するための方法論、モデル、リソースのコレクションです。

RAG パフォーマンスの向上

RAG アプリケーションは、基本的に 3 つの主要なコンポーネントで構成されています:

  1. データローダー&インデキシング
  2. 検索
  3. 生成

データローダー&インデキシング

  • データローダー:

    • PaddleOCR-日本語:日本語テキスト抽出のための OCR ツール。
    • PDF 内の表の処理:PDF ドキュメント内の表データを扱う技術。
    • 私のカスタムパーサー(DOCX 変換された HTML 用、近日オープンソース化予定)。
  • 日本語 Tokenizer: for hybrid search


Sudachi MeCab kuromoji
Multiple Segmentation Yes No Limited ^a
Normalization Yes No Limited ^b
Joining, Correction Yes No Limited ^b
Use multiple user dictionary Yes Yes No
Saving Memory Good ^c Poor Good
Accuracy Good Good Good
Speed Good Excellent Good
  • ^a: approximation with n-best
  • ^b: with Lucene filters
  • ^c: memory sharing with multiple Java VMs

  • Embedding モデル:

    • OpenAI Embedding (text-embedding-3-small, text-embedding-3-large).
    • BGE-Embedding: 多言語用高性能 Embedding モデル
  • Fine-tuning Embeddings:

Retrieval

生成

GPT-4 はほとんどのシナリオで良好に機能しますが、カスタマイズされた結果が必要な場合は、日本語 LLM を使用するか、オープンソースの LLM をファインチューニングすることを検討してください。

すべての言語に適用可能な一般的な方法論

貢献

このリポジトリへの貢献を歓迎します!リソース、モデル、または方法論の改善についての提案がある場合は、プルリクエストを送信するか、イシューを開いてください。一緒により良い日本語 RAG を作りましょう。

japanese-rag's People

Contributors

xubujie avatar

Stargazers

 avatar Leo Wu avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.