issuesに流し読み含めた読んだ論文やブログのリンクをおいています。 自然言語処理およびそれに関連する機械学習手法に関する論文が主です。
paper-reading-list's Introduction
paper-reading-list's People
paper-reading-list's Issues
Promptagator : Few-Shot Dense Retrieval From 8 Examples
DeepSpeed Model Implementations for Inference (MII)
[WSDM22] Lightweight Composite Re-Ranking for Efficient Keyword Search with BERT
- WSDM 2022 long
QuaLA-MiniLM: a Quantized Length Adaptive MiniLM
[ACL22] Internet-Augmented Dialogue Generation
- link
- ACL 2022 long
概要
検索を活用したテキスト生成モデル(Fusion-in-Decoder; FiD)の出力するテキストの質は検索モデルの性能に依存する。商用のウェブ検索エンジンで知識を収集することでFiDの精度が改善される。
[ICML22] Dialog Inpainting: Turning Documents into Dialogs
- ICML2022
概要
一般的なテキストから2人参加型の対話的質問応答データを生成する研究。
テキストに書かれている文を回答者の発話とみなして、質問者の発話を自動生成するinpainterを提案する。
質問者の発話を生成するために、完全な対話データから、話者の発話をマスクし、元の対話データを復元するようにT5を学習する。
生成したデータWikiDialog、WebDialogを学習データに使うことで、対話的質問応答タスクにおける検索に基づくモデルの精度改善に寄与することがわかった。
inpainterの学習
PublicDialog、TaskMaster、OR-QuAC、QReCCのデータを使って3つのinpainterを学習。
3つのモデルを作成したのはデータソースの違いによる傾向の違いを分析するため。
[ACL22] Entropy-based Attention Regularization Frees Unintended Bias Mitigation from Lists
- ACL 2022 findings
[NAACL21] TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference
[SIGIR19] Asking Clarifying Questions in Open-Domain Information-Seeking Conversations
- SIGIR 2019
概要
ユーザは自身の要望を適切なクエリに変換できないので明確化のために対話システムから質問を出力する。
196のトピックに対して762のファセットをもつTREC Web Track 2009-2012のデータに対して、クラウドソーシングを使って追加でデータを作成。
明確化のための質問の検索や明確化後のユーザの返答をもとにした文書検索に関する実験をおこなった。
実験の結果、提案手法はベースラインよりも高い精度を示した。
データ作成について
- ワーカに対してトピックに対するファセットの意味を説明。
- ワーカはトピックをクエリにしてウェブ検索する。得られた結果の先頭3ページを読んでもらいタイトルやスニペットを読んでもらう。
- 検索結果を読んでも明確化のための質問を思いつかない場合、検索窓で得られる自動補完結果も見てもらう。
- クエリに対する質問を6つ作成してもらう
[ACL22] BERT Learns to Teach: Knowledge Distillation with Meta Learning
[NAACL22-Findings] BORT: Back and Denoising Reconstruction for End-to-End Task-Oriented Dialog
- NAACL Findings 2022
概要
目的志向対話システムに於いては対話システム全体としての精度向上の観点からend-to-endな手法の研究開発が進められている。
既存の学習手法は、正解の対話状態などをもとに対話応答を生成する一方で、推論時には実際に認識した対話状態をもとに対話応答を生成していた。そのため、これらの手法は依然として対話状態の認識誤りなどが影響して対話応答生成の精度低下につながるなど、前段の処理の誤りに弱い。
提案手法は学習時にこのような認識誤りを考慮するため対話状態から発話を生成したり、ノイズを加えた対話応答を復元する。
結果とし
て、ゼロショットや転移学習の設定で高い精度を示した。
Foundation Transformers
[NAACL22 Findings] Target-Guided Dialogue Response Generation Using Commonsense and Data Augmentation
- NAACL 2022 Findings
概要
知識グラフ (ConceptNet) を使って、ユーザの発話とシステムの発話を自然につなぐための発話を生成する。
ユーザの発話を入力として、最初に知識グラフ上のパスを生成。ユーザの発話および生成したパスを入力にシステムの応答を生成。
タスク
ユーザとシステムの対話文脈cおよびシステム発話tが与えられるので、cとtを自然につなぐようなcとtを生成する。
パスの生成
知識グラフにはConceptNetを用いるが、網羅性が高いわけでもないのでcとtを自然に結ぶような知識があるとは限らない。そこでConceptNetから生成した学習データを使って言語モデルを学習する。言語モデルは2つのエンティティを受け取り、それらを結ぶようなパスを生成する。このようにパスを言語モデルを使って生成するためエンティティやパスは知識グラフにあるものに限定されなくなる。
応答文の生成
まず対話文脈c、システム発話tおよびNLTKを使ってエンティティを抽出。その後、ルールを使ってConceptNetのエンティティと紐付ける。学習時は正解の応答文からもエンティティを抽出する。
最終的に応答文を生成するために、以下のような系列を生成する言語モデルを学習する。
knowledge path [target] target sentence [context] context sentence [response] transition response
[EMNLP21] Condenser: a Pre-training Architecture for Dense Retrieval
- EMNLP 2021 long
概要
Transformerによるテキストのエンコード結果は情報検索には適していなかった。検索のための新しい事前学習手法を提案する。
従来は最終層のCLSトークンのエンコード結果を、そのテキストのエンコード結果とみなしていた。従来の研究によると、Transformerの中間層におけるCLSトークンはNSPタスクを解くためにトークン系列にまんべんなくアテンション確率を付与している。情報検索では文書のいろいろな情報を考慮することが大事なので、最終層のCLSトークンに加えて、中間層のCLSトークンのエンコード結果も合わせてmasked language modelを解く。
fine-tuneのときは通常のTransformerと同様、最終層のCLSトークンのエンコード結果に基づいてテキストの密ベクトルを得る。
MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers
Cohere Boosts Inference Speed With NVIDIA Triton Inference Server
[ACL22] Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval
機械学習で研究開発する初学者向けガイド
[NAACL22] Learning Dialogue Representations from Consecutive Utterances
https://aclanthology.org/2022.naacl-main.55.pdf
概要
SimCSEのようなcontrastive learningを対話データに特化する。具体的には対話中の次の発話を正例、他の対話の発話を負例として扱う。対話における複数のタスクで既存モデルよりも精度改善がみられた。
[blog] 論文の書き方
[ACL20 Demo] DialoGPT : Large-Scale Generative Pre-training for Conversational Response Generation
- ACL 2020 Demo
概要
Redditから構築した対話データを学習したGPT (DialogGPT) の報告。
Redditは掲示板のようなサイトでコメントに対して返信がつく。これらの返信を対話とみなす。147M事例を構築。
対話応答を評価するタスクDSTC-7でfine-tuneしたところ最高精度を示した。
関連情報
FiD-Light: Efficient and Effective Retrieval-Augmented Text Generation
[AAAI22] Fusing task-oriented and open-domain dialogues in conversational agents
https://aaai-2022.virtualchair.net/poster_aaai626
概要
タスク志向対話と雑談対話が混在するデータを作成。タスク志向対話であるMultiWOZに対して、タスク志向ターンを雑談ターンに書き換えることで作成。参照や省略などお互いが依存するような現象を含む。
[ACL22] NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better
- ACL 2022 Short
概要
事前学習済みモデルをfine-tuneすると過学習の恐れが高い。
事前学習済みモデルのパラメータに対してノイズを加えた状態からfine-tuneする方法を提案。
いくつかのモデルでGLUEやXTREMEタスクで実験を行い、提案手法はノイズを加えない従来のfine-tuneと比較して一貫して高い精度になった。
関連情報
[ACL21] OTTers: One-turn Topic Transitions for Open-Domain Dialogue
- ACL 2021 long
概要
オープンドメイン対話システムにおいて、ひとつの発話であるトピックから別のトピックへ自然に遷移する方法の提案。
発話の中にトピックの遷移がある対話データをクラウドソーシングを使って構築。
トピックを遷移するための発話タイプを人手で調査したところ、ひとつの発話でトピックの遷移があるものがもっとも利用されることを確認。
言語モデルを使ってトピック遷移が起きる発話の生成に利用できるかを示した。
トピックはナレッジグラフ上のエンティティとして扱う。既存の対話データに対してエンティティリンキングを適用し、エンティティを抽出。
[ACL18] Personalizing Dialogue Agents: I have a dog, do you have pets too?
- ACL 2018 long
概要
雑談対話システムは、趣味の志向性がなく、魅力的でないことが多い。プロフィールに基づいて雑談対話システムがより魅力的になることを目指す。システムの性格および対話相手のユーザの性格を考慮した対話データを構築する。対話相手の性格は対話初期ではわからないので、相手が興味を持つ話題を出すことで対話しやすくなるように学習する。対話システムは対話者の性格を予測することに使えることを示す。
Weakly Supervised Data Augmentation Through Prompting for Dialogue Understanding
[EMNLP21] Retrieval Augmentation Reduces Hallucination in Conversation
- link
- EMNLP 2021 long
概要
検索を活用したテキスト生成モデルにはRetrieval Augmented Generator (RAG) とFusion-in-Decoder (FiD) がある。RAGは検索とテキスト生成の同時学習ができる一方で、検索結果を多く活用できなかった。FiDは検索結果を多く活用することができる一方で、検索とテキスト生成を個別していた。そこでRAGとFiDを組み合わせる手法を提案する。検索の学習にはRAGを用い、その後、学習済み検索モデルを使ってFiDを学習する。
[Rep4nlp] Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup
[ICTIR21] Revisiting Open Domain Query Facet Extraction and Generation
- ICTIR 2021
A 3-minute read on how to accelerate NLP model inferences on commodity hardware
[NAACL19] Outlier Detection for Improved Data Quality and Diversity in Dialog Systems
概要
多様かつ高品質なデータの作成のための例外検知。例外検知によって、アノテーション誤り、学習事例にあまりふくまれない珍しい事例を見つけることができる。クラウドソーシングを使って、例外検知によって候補として選ばれた事例のアノテーション誤りの修正、また珍しい事例を提示することで多様な事例の作成を支援する。
Building and Evaluating Open-Domain Dialogue Corpora with Clarifying Questions
Hydra Attention: Efficient Attention with Many Heads
[WWW20] Generating Clarifying Questions for Information Retrieval
- WWW 2020
概要
ウェブ検索におけるクエリの意図を明確にするために質問を生成する研究。
ユーザスタディによって、質問を生成することに価値があることを確認。
明確化のための質問のタクソノミーを作成しテンプレートに対して穴埋めを生成することで質問を生成する手法を提案。
学習データは少ないため提案手法は弱教師あり学習に基づく。
数百からなる検索クエリに対する人手評価の結果、提案手法の有効性を確認した。
Mega: Moving Average Equipped Gated Attention
[NAACL21] Self-training Improves Pre-training for Natural Language Understanding
[COLING22] Knowledge Distillation with Reptile Meta-Learning for Pretrained Language Model Compression
[EMNLP16] How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation
- EMNLP 2018 long
[ICLR'21] Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval
- ICLR 2021
概要
contrastive learningでは負例の選択が重要になる。従来は一様分布からサンプリングしたり、同じミニバッチに含まれる他の事例を負例とみなしていたが、収束が遅い。そこでモデルにとって識別が難しい負例を学習事例全体の中から選択する方法を提案する。
[ACL22] Efficient Classification of Long Documents Using Transformers
- ACL2022
概要
長い文書をTransformerを使って分類する手法はあるものの比較できるようなベンチマークデータがなかった。
精度に加えて、処理速度やメモリの観点でも比較する。
実験結果では、長い文書を扱うLongformerなどのモデルが、消費メモリ増加や処理速度低下などのデメリットがある割に、先頭から512単語のみを利用する単純なBERTを上回ることができないことが多いこと、またデータによって精度の変動が大きいことを報告。
Data Augmentation for Intent Classification with Off-the-shelf Large Language Models
[blog] オンラインショップの商品検索改善に挑戦!KDD CUP 2022で9位入賞した手法の紹介
[ACL22] DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations
[22] SCROLLS: Standardized CompaRison Over Long Language Sequences
- arXiv
概要
長文書を扱う自然言語処理モデルのためのベンチマークデータ。文書要約、質問応答、含意関係認識といった複数タスク。またテキストのドメインも文学、科学、法律と複数に渡る。
関連リンク
[EMNLP21] GOLD: Improving Out-of-Scope Detection in Dialogues using Data Augmentation
- link
- EMNLP 2021 long
概要
対話システムが対応できないドメイン (out-of-domain; OOD) を認識するための疑似学習データ生成手法。このタスクでは学習データを作成するのが高コストのため、少量のシード文と類似する文を検索し、擬似的なOOD文とする。
[SIGIR21] Wizard of Search Engine
- SIGIR 2021
概要
Conversational Information Seeking (CIS) に関する研究。CISを意図推定、キーフレーズ抽出、対話行為選択、クエリ選択、パッセージ選択、応答生成の6つのサブタスクに分割。ベンチマークデータ (Wizard of Search Engine; WISE) を構築し、モデルを提案する。
WISEを構築するに当たり、既存のウェブ検索エンジンで収集したセッションをもとに2人の作業者が参加して対話を作成する。
[RepL4NLP 19] To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks
- link
- RepL4NLP 2019
概要
事前学習モデルをfine-tuneする際、事前学習モデルのパラメータを固定して、タスク用ヘッドをfine-tuneしてから、モデル全体をfine-tuneすると精度が上がる
[22] DIVE INTO BIG MODEL TRAINING
RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.