Coder Social home page Coder Social logo

awesome-japanese-llm's Introduction

日本語LLMまとめ

[ English | 日本語 ]

この記事は、一般公開されている日本語LLM(日本語を中心に学習されたLLM)に関する情報をまとめたものです。情報は、有志により収集されており、その一部は論文や公開されているリソースなどから引用しています。

⚠ 以下の点について、あらかじめご理解とご了承をお願いいたします:

  1. 本記事の内容は、完全性や正確性を保証するものではありません。これらの情報は予告なく変更されることがあり、また最新の情報を常に提供できるとは限りません。
  2. 一部の情報は、推測や個々の利用者の解釈にもとづくものである場合があります。そのため、全ての読者にとって必ずしも正確であるとは限りません。
  3. 本記事に記載されているモデルの多くは、MIT や Apache-2.0 といったオープンソースライセンスが適用されています。しかしながら、一部のモデルには、非営利限定のライセンス(例:CC BY-NC-SA 4.0)や開発元特有のライセンスが適応されており、これらは必ずしもオープンソースとは言えない可能性がある点にご注意ください。

この記事の管理は GitHub で行っています。記事の間違いを発見した場合、あるいはモデルの追加提案を行いたい場合は、GitHub Issues 経由で報告していただけますと幸いです。

目次

テキスト生成に主に使うモデル

画像を含むテキスト生成モデルはこちら

汎用

モデル 学習テキスト 開発元 ライセンス HuggingFace ですぐ使える? 1
PLaMo-13B Llama2 (13b) C4, Project Gutenberg, RedPajama, 日本語 Wikipedia, Japanese mC4
(計 1.5T トークン)
Preferred Networks Apache 2.0
Weblab-10B GPT (10b, 10b-instruction-sft) Japanese mC4 + The Pile(計 600B トークン)
*instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング
東大 松尾研 CC BY-NC 4.0 ◯ (10b, 10b-instruction-sft)
Japanese StableLM Alpha GPT (base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2) Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama
(+ 独自のデータセット)3
(計 750B トークン)
*instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング
(v2では商用利用不可の Alpaca Dataset を除外)
Stability AI baseモデル: Apache 2.0
instruct モデル (v1): 独自のライセンス
instruct モデル (v2): Apache 2.0
◯ (base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2)
OpenCALM GPT (small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b)) 日本語 Wikipedia
+ Jpanese mC4
+ Japanese CC-100
サイバーエージェント CC BY-SA 4.0 ◯ (small, medium, large, 1b, 3b, 7b)
Stormy GPT (7b(6.8b)) OpenCALM (6.8b) に対して
llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング
東大 和泉・坂地研 CC BY-SA 4.0
rinna GPT
(英語やコードも含めて学習されたモデル)
GPT (4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo) Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile
(計 524B トークン)
*8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング
*instruction-sft モデルでは HH RLHF、FLAN でファインチューニング
*instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習
rinna MIT ◯ (4b, 4b-8k, 4b-instruction-sft, 4b-instruction-ppo)
japanese-large-lm GPT (1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft) 日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど
(計 650GB)
*instruction-sft モデルでは OASST1 でファインチューニング
LINE Apache 2.0 ◯ (1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft)
rinna GPT
(日本語のみで学習されたモデル)
GPT (xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo) 日本語 Wikipedia
+ Japanese CC-100
(1b 以降のモデルでは
さらに Japanese mC4 を追加)
*instruction-sft, sft-v2 モデルでは HH RLHF、FLAN、SHP データセットでさらにファインチューニング
*instruction-ppo モデルでは HH RLHF でさらに PPO ベースの強化学習
rinna MIT ◯ (xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo)
レトリバT5 T5 (small, base, large, xl(3b)) 日本語 Wikipedia + Japanese mC4 レトリバ CC BY-SA 4.0 ◯ (small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl)
ABEJA GPT GPT (large, 2.7b) 日本語 Wikipedia
+ Japanese CC-100
+ Japanese OSCAR
ABEJA MIT ◯ (large, neox-2.7b)
早大GPT GPT (small, xl(1.5b)) 日本語 Wikipedia
+ Japanese CC-100
早大 河原研 CC BY-SA 4.0 ◯ (small, xl)
ストックマークGPT GPT (1.4b) 日本語 Wikipedia (0.88B トークン)
+ Japanese CC-100 (10.5B トークン)
+ 独自のWebデータ (8.6B トークン)
ストックマーク MIT
イエローバックGPT GPT (1.3b) 日本語 Wikipedia
+ Japanese CC-100
+ Japanese OSCAR
イエローバック Apache 2.0
colorfulscoop GPT GPT (small) 日本語 Wikipedia Colorful Scoop CC BY-SA 3.0
東工大GPT GPT (medium) 日本語 Wikipedia + Japanese CC-100 東工大 岡崎研 CC BY-SA 4.0 ◯ (medium, medium (逆方向)) 4
京大GPT GPT (small, medium) 日本語 Wikipedia (約2,700万文 (3.2GB))
+ Japanese CC-100 (約6億1,900万文 (85GB))
+ Japanese OSCAR (約3億2,600万文 (54GB))
京大 言語メディア研究室 CC BY-SA 4.0 ◯ (small (文字レベル), medium (文字レベル))
日本語BART BART (base, large) 日本語 Wikipedia (約1,800万文) 京大 言語メディア研究室 CC BY-SA 4.0 ◯ (base, large)
Megagon Labs T5 T5 (base) Japanese mC4 (87,425,304 ページ (782 GB))
+ Japanese wiki40b (828,236 記事 (2 GB))
Megagon Labs
(リクルート)
Apache 2.0

ドメイン特化型

モデル 学習テキスト 開発元 ライセンス HuggingFace ですぐ使える?
日本語対話Transformer Transformer Twitter 上の日本語リプライのペア NTT 独自のライセンス
日本語ニュースBART BART (base) 日本語ビジネスニュース記事(約2,100万記事 (2.9億文)) ストックマーク MIT
AcademicBART BART (base) CiNii の日本語論文 愛媛大 人工知能研究室 Apache 2.0

(参考)英語LLMに日本語で追加学習されたモデル

ベースの英語LLM 開発元
AIBunCho/japanese-novel-gpt-j-6b GPT-J (6b) インダストリアル・ドリーム5
NovelAI/genji-jp GPT-J (6b) NovelAI
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese Llama 2 (70b) 東京大学医学部附属病院 循環器内科 AIグループ
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1 Llama 2 (70b) 同志社大学 メディア情報学研究室
Sparticle/llama-2-13b-chat-japanese-lora Llama 2 (13b) Sparticle
elyza/ELYZA-japanese-Llama-2-7b
elyza/ELYZA-japanese-Llama-2-7b-instruct
elyza/ELYZA-japanese-Llama-2-7b-fast
elyza/ELYZA-japanese-Llama-2-7b-fast-instruct
Llama 2 (7b) ELYZA
ganchengguang/Yoko-7B-Japanese-v1 Llama 2 (7b) 横浜国大 森研
Sparticle/llama-2-7b-chat-japanese-lora Llama 2 (7b) Sparticle
izumi-lab/llama-13b-japanese-lora-v0-1ep Llama (13b) 東大 和泉・坂地研
izumi-lab/llama-7b-japanese-lora-v0-5ep Llama (7b) 東大 和泉・坂地研
lightblue/japanese-mpt-7b MPT (7b) Lightblue Technology
NTQAI/chatntq-7b-jpntuned RWKV-4 World (7b) NTQ Solution

入力テキストの処理に主に使うモデル

汎用

モデル 学習テキスト 開発元 ライセンス HuggingFace ですぐ使える?
京大BERT BERT (base, large) 日本語 Wikipedia (約1,800万文) 京大 言語メディア研究室 Apache 2.0
東北大BERT BERT (base, large) base (v1):
日本語 Wikipedia 約1,700万文 (2.6GB)
base (v2) & large:
日本語 Wikipedia 約3,000万文 (4.0GB)
base (v3) & large (v2):
日本語 Wikipedia 約3,400万文 (4.9GB)
+ 日本語 CC-100 約3億9,200万文 (74.3GB)
東北大
自然言語処理研究グループ
base (v1, v2) & large: CC BY-SA 3.0
base (v3) & large (v2): Apache 2.0
◯ (base (v1), base (v1, 文字レベル), base (v2), base (v2, 文字レベル), large, large (文字レベル), base (v3), base (v3, 文字レベル), large (v2), large (v2, 文字レベル))
NICT BERT BERT (base) 日本語 Wikipedia NICT CC BY 4.0
colorfulscoop BERT BERT (base) 日本語 Wikipedia Colorful Scoop CC BY-SA 3.0
東大BERT BERT (small) 日本語 Wikipedia (約2,000万文 (2.9GB)) 東大 和泉・坂地研 CC BY-SA 4.0
chiTra (Sudachi Transformers) BERT (base) 国語研日本語ウェブコーパス (NWJC) (148GB) NINJAL & ワークス徳島人工知能NLP研 Apache 2.0
ACCMS BERT BERT (base) 日本語 Wikipedia (3.3GB) 京大 ACCMS CC BY-SA 4.0
日立BERT BERT (base) 日本語 Wikipedia
+ Japanese CC-100
日立製作所 CC BY-NC-SA 4.0 6
Bandai Namco DistilBERT DistilBERT - (東北大BERT(base) を親モデルとして知識蒸留) Bandai Namco Research MIT
LINE DistilBERT DistilBERT - (LINE社内のBERTを親モデルとして知識蒸留) LINE Apache 2.0
rinna RoBERTa RoBERTa (base) 日本語 Wikipedia
+ Japanese CC-100
rinna MIT
早大RoBERTa RoBERTa (base, large) 日本語 Wikipedia
+ Japanese CC-100
早大 河原研 CC BY-SA 4.0 ◯ (base, large, large (seq512)) 7
インフォマティクスRoBERTa RoBERTa (base) 日本語 Wikipedia
+ Web 上の記事 (計25GB)
インフォマティクス Apache 2.0
京大RoBERTa RoBERTa (base, large) 日本語 Wikipedia
+ Japanese CC-100
京大 言語メディア研究室 CC BY-SA 4.0 ◯ (base (文字レベル), large (文字レベル))
横浜国大RoBERTa RoBERTa (base) 日本語 Wikipedia (3.45GB) 横浜国大 森研 Apache 2.0
Megagon Labs RoBERTa RoBERTa (base) 8 Japanese mC4 (約2億文) Megagon Labs
(リクルート)
MIT
ACCMS RoBERTa RoBERTa (base) 日本語 Wikipedia (3.3GB) + Japanese CC-100 (70GB) 京大 ACCMS CC BY-SA 4.0
シナモンELECTRA ELECTRA (small) 日本語 Wikipedia シナモン Apache 2.0
Megagon Labs ELECTRA ELECTRA (base) Japanese mC4 (約2億文) Megagon Labs
(リクルート)
MIT
東大ELECTRA ELECTRA (small, base) 日本語 Wikipedia (約2,000万文 (2.9GB)) 東大 和泉・坂地研 CC BY-SA 4.0 ◯ (small, base)
日本語RoFormer RoFormer (base) 日本語 Wikipedia (3.45GB) 横浜国大 森研 Apache 2.0
日本語LUKE LUKE (base, large) 日本語 Wikipedia Studio Ousia Apache 2.0 ◯ (base, large)
日本語DeBERTa V2 DeBERTa (tiny, base, large) 日本語 Wikipedia
+ Japanese CC-100
+ Japanese OSCAR
(計171GB)
京大 言語メディア研究室 CC BY-SA 4.0 ◯ (tiny, tiny (文字レベル), base, large)
日本語BigBird BigBird (base) 日本語 Wikipedia
+ Japanese CC-100
+ Japanese OSCAR
早大 河原研 CC BY-SA 4.0

ドメイン特化型

モデル 学習テキスト 開発元 ライセンス HuggingFace ですぐ使える?
日本語ニュースBERT BERT (base) 日本語ビジネスニュース記事(300万記事) ストックマーク CC BY 4.0
日本語ニュースXLNet XLNet (base) 日本語ビジネスニュース記事(300万記事) ストックマーク ※ 非公式の HuggingFace 向けに変換されたモデルが公開されている
日本語ニュースALBERT ALBERT (base) 日本語ビジネスニュース記事(300万記事) ストックマーク
Laboro BERT BERT (base, large) 日本語 Web コーパス
(ニュースサイトやブログなど
計4,307のWebサイト、2,605,280ページ (12GB))
Laboro.AI CC BY-NC 4.0
Laboro DistilBERT DistilBERT - (Laboro BERT(base) を親モデルとして知識蒸留) Laboro.AI CC BY-NC 4.0
日本語ブログELECTRA ELECTRA (small) 日本語ブログコーパス(3億5,400万文) 北見工大 桝井・プタシンスキ研 CC BY-SA 4.0
日本語金融BERT BERT (small, base) 9 日本語 Wikipedia
+ 日本語金融コーパス (約2,700万文 (5.2GB))
東大 和泉・坂地研 CC BY-SA 4.0 ◯ (small, base)
日本語金融ELECTRA ELECTRA (small) 日本語 Wikipedia (約2,000万文 (2.9GB))
+ 日本語金融コーパス (約2,700万文 (5.2GB))
東大 和泉・坂地研 CC BY-SA 4.0
UTH-BERT BERT (base) 日本語診療記録(約1億2,000万行) 東大病院
医療AI開発学講座
CC BY-NC-SA 4.0
medBERTjp BERT (base) 日本語 Wikipedia
+ 日本語医療コーパス(『今日の診療プレミアム』Web版)
阪大病院
医療情報学研究室
CC BY-NC-SA 4.0
JMedRoBERTa RoBERTa (base) 日本語医学論文 (約1,100万文 (1.8GB)) 東大 相澤研 CC BY-NC-SA 4.0 ◯ (万病WordPiece, SentencePiece) 10
AcademicRoBERTa RoBERTa (base) CiNii の日本語論文 (約628万文) 愛媛大 人工知能研究室 Apache 2.0

埋め込み (Embeddings) 作成に特化したモデル

モデル 開発元 ライセンス
colorfulscoop/sbert-base-ja Sentence-BERT Colorful Scoop CC BY-SA 4.0
MU-Kindai/SBERT-JSNLI-base
MU-Kindai/SBERT-JSNLI-large
Sentence-BERT 近畿大学 (研究室不明)
MU-Kindai/Japanese-SimCSE-BERT-base-unsup
MU-Kindai/Japanese-SimCSE-BERT-large-unsup
MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup
MU-Kindai/Japanese-SimCSE-BERT-base-sup
MU-Kindai/Japanese-SimCSE-BERT-large-sup
SimCSE 近畿大学 (研究室不明) MIT
pkshatech/simcse-ja-bert-base-clcmlp SimCSE PKSHA Technology CC BY-SA 4.0
cl-nagoya/unsup-simcse-ja-base
cl-nagoya/unsup-simcse-ja-large
cl-nagoya/sup-simcse-ja-base
cl-nagoya/sup-simcse-ja-large
SimCSE 名大 武田・笹野研 CC BY-SA 4.0
MU-Kindai/Japanese-MixCSE-BERT-base
MU-Kindai/Japanese-MixCSE-BERT-large
MixCSE 近畿大学 (研究室不明) MIT
MU-Kindai/Japanese-DiffCSE-BERT-base DiffCSE 近畿大学 (研究室不明) MIT
pkshatech/GLuCoSE-base-ja LUKE PKSHA Technology Apache 2.0

視覚言語モデル (Vision-Language Models)

画像を含むテキスト生成

モデル 学習画像/テキスト 開発元 ライセンス HuggingFace ですぐ使える?
Heron BLIP または GIT LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset Turing CC BY-NC 4.0 ◯ (blip-ja-stablelm-base-7b-v0, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0)
Japanese InstructBLIP Alpha InstructBLIP Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset Stability AI 独自のライセンス
rinna MiniGPT-4 11 MiniGPT-4 CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA dataset rinna MIT

その他

モデル 学習画像/テキスト 開発元 ライセンス HuggingFace ですぐ使える?
日本語CLIP CLIP
(画像エンコーダは google/vit-base-patch16-224 で重みが初期化された ViT-B/16、
テキストエンコーダは rinna RoBERTa で重みが初期化された RoBERTa(base))
CC12M のキャプションを日本語に翻訳したもの rinna Apache 2.0
日本語CLOOB CLOOB
(画像エンコーダは google/vit-base-patch16-224 で重みが初期化された ViT-B/16、
テキストエンコーダは rinna RoBERTa で重みが初期化された RoBERTa(base))
CC12M のキャプションを日本語に翻訳したもの rinna Apache 2.0
日本語 Stable Diffusion Stable Diffusion (最初にテキストエンコーダのみ日本語キャプション付き画像を用いて追加学習を行い、次にテキストエンコーダと生成モデルのパラメータを同時に更新する追加学習を行う) LAION-5B データセットのうちキャプションが日本語のもの(画像約 1 億枚) rinna CreativeML OpenRAIL-M license

(参考)日本語LLMベンチマークまとめ

基礎的な自然言語理解 (NLU) を中心に測定するベンチマーク

人間らしい応答の生成能力を中心に測定するベンチマーク

  • Rakuda Benchmark (YuzuAI)
    • 日本の地理、歴史、政治、社会に関する40問の自由質問に対してモデルに出力を行わせる。GPT-4 が同じ質問に対する2つのモデルの出力を比べ、どちらの答えが優れているかを判断することにより、モデルのランク付けを行う
  • ELYZA-tasks-100 (ELYZA)
    • 複雑な指示・タスクを含む100件の日本語データで、全てのデータに対して評価観点がアノテーションされている。
      要約を修正し修正箇所を説明するタスク、具体的なエピソードから抽象的な教訓を述べるタスク、ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク、場合分けを必要とする複雑な算数のタスク、未知の言語からパターンを抽出し日本語訳する高度な推論を必要とするタスク、複数の指示を踏まえた上でyoutubeの対話を生成するタスク、架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスクなどが含まれている。
      モデルの評価結果はこちらこちらを参照

(参考)各モデルの原論文

モデル名 初出時期 会議/ジャーナル 論文
Transformer 2017.06.12 NIPS(NeurIPS) 2017 Attention Is All You Need
GPT 2018.06.11 - Improving Language Understanding by Generative Pre-Training
BERT 2018.10.11 NAACL 2019 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
GPT-2 2019.02.14 - Language Models are Unsupervised Multitask Learners
XLNet 2019.06.19 NeurIPS 2019 XLNet: Generalized Autoregressive Pretraining for Language Understanding
RoBERTa 2019.07.26 - RoBERTa: A Robustly Optimized BERT Pretraining Approach
ALBERT 2019.09.26 ICLR 2020 ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
DistilBERT 2019.10.02 EMC2 Workshop at NeurIPS 2019 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
T5 2019.10.23 JMLR 2020 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
BART 2019.10.29 ACL 2020 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
ELECTRA 2020.03.23 ICLR 2020 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
GPT-3 2020.05.28 NeurIPS 2020 Language Models are Few-Shot Learners
DeBERTa 2020.06.05 ICLR 2021 DeBERTa: Decoding-enhanced BERT with Disentangled Attention
BigBird 2020.07.28 NeurIPS 2020 Big Bird: Transformers for Longer Sequences
LUKE 2020.10.02 EMNLP 2020 LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention
CLIP 2021.02.26 ICML 2021 Learning Transferable Visual Models From Natural Language Supervision
RoFormer 2021.04.20 - RoFormer: Enhanced Transformer with Rotary Position Embedding
CLOOB 2021.10.21 NeurIPS 2022 CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP
Stable Diffusion 2021.12.20 CVPR 2022 High-Resolution Image Synthesis With Latent Diffusion Models
BLIP 2022.01.28 ICML 2022 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
InstructGPT 2022.03.04 NeurIPS 2022 Training language models to follow instructions with human feedback
GPT-NeoX 2022.04.14 BigScience Research Workshop at ACL 2022 GPT-NeoX-20B: An Open-Source Autoregressive Language Model
GIT 2022.05.27 TMLR 2022 GIT: A Generative Image-to-text Transformer for Vision and Language
BLIP-2 2023.01.30 ICML 2023 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Llama 2023.02.27 - LLaMA: Open and Efficient Foundation Language Models
GPT-4 2023.03.15 - GPT-4 Technical Report
MiniGPT-4 2023.04.20 - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
InstructBLIP 2023.05.11 - InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
RWKV 2023.05.22 - RWKV: Reinventing RNNs for the Transformer Era
Llama 2 2023.07.18 - Llama 2: Open Foundation and Fine-Tuned Chat Models

Footnotes

  1. ○: HuggingFace の Model Hub にモデルがアップロードされており、AutoModel.from_pretrained() 等ですぐ読み込める。 △: Model Hub にはモデルがアップロードされていないが、HuggingFace (transformers, 旧 pytorch-transformers) の形式に対応している。✕: モデルがHuggingFaceに対応していない。

  2. ただし、モデル高速化のため本家の Llama に対してアーキテクチャの変更を加えている。詳しくは以下を参照: PLaMo-13Bを公開しました

  3. 詳細は明記されていないが、プレスリリースには以下のような記述がある: 『学習データには、オープンデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チーム及び Stable Community Japan のメンバーの協力のもとで作成したデータが含まれています。』

  4. 通常の左から右に単語を予測する代わりに、右から左に単語を予測するように訓練された言語モデルの評価を行った研究である。通常方向の言語モデルと逆方向の言語モデルの両方が公開されている。

  5. 実質的な開発者は代表を勤める大曽根宏幸氏 (個人ページのリンク)で、AI Buncho の運営も行っている

  6. 様々な形態素解析器とサブワード化手法の組み合わせを試した研究である。全ての組み合わせのモデルを掲載するのは大変なので、ここでは実験で最も平均のタスク性能が高い Juman++ + BPE のモデルを代表として掲載している。

  7. nlp-waseda/roberta-base-japanese 及び nlp-waseda/roberta-large-japanese はモデル入力の最大トークン長を128で事前学習しているが、nlp-waseda/roberta-large-japanese-seq512 は512で事前学習している

  8. ただし、最大系列長が通常の 512 から 1282 まで拡張されており、より長い入力文を扱うことができる

  9. small の方は日本語 Wikipedia と日本語金融コーパスを合わせてスクラッチ学習しているが、base の方は東北大BERTに日本語金融コーパスを追加学習しているという違いがある

  10. 万病WordPieceモデルは MeCab (IPA辞書+万病辞書) で単語分割した後 WordPiece でサブワード化するモデル、SentencePieceモデルは単語分割せずに直接 Unigram でサブワード化するモデル

  11. 以下の記事が詳しい(この記事での MiniGPT-4 の実装例は LLM 部分 を rinna/bilingual-gpt-neox-4b ではなく rinna/japanese-gpt-neox-3.6b としている点に注意): Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る

awesome-japanese-llm's People

Contributors

kaisugi avatar passaglia avatar akikoaizawa avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.