The paper-reading-list from tma15

pdf
WSDM 2022 long

QuaLA-MiniLM: a Quantized Length Adaptive MiniLM

https://arxiv.org/pdf/2210.17114.pdf

https://github.com/intel/intel-extension-for-transformers/tree/main/examples/optimization/pytorch/huggingface/question-answering/dynamic

[ACL22] Internet-Augmented Dialogue Generation

link
ACL 2022 long

概要

検索を活用したテキスト生成モデル（Fusion-in-Decoder; FiD）の出力するテキストの質は検索モデルの性能に依存する。商用のウェブ検索エンジンで知識を収集することでFiDの精度が改善される。

[ICML22] Dialog Inpainting: Turning Documents into Dialogs

pdf
ICML2022

概要

一般的なテキストから2人参加型の対話的質問応答データを生成する研究。
テキストに書かれている文を回答者の発話とみなして、質問者の発話を自動生成するinpainterを提案する。
質問者の発話を生成するために、完全な対話データから、話者の発話をマスクし、元の対話データを復元するようにT5を学習する。
生成したデータWikiDialog、WebDialogを学習データに使うことで、対話的質問応答タスクにおける検索に基づくモデルの精度改善に寄与することがわかった。

inpainterの学習

PublicDialog、TaskMaster、OR-QuAC、QReCCのデータを使って3つのinpainterを学習。
3つのモデルを作成したのはデータソースの違いによる傾向の違いを分析するため。

[ACL22] Entropy-based Attention Regularization Frees Unintended Bias Mitigation from Lists

pdf
ACL 2022 findings

[NAACL21] TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference

link
NAACL 2021 long

概要

BERTに基づく自然言語処理モデルは遅い。テキストから有用な単語だけを選ぶモデルを強化学習によって学習。

実装

公式実装: https://github.com/thunlp/TR-BERT

[SIGIR19] Asking Clarifying Questions in Open-Domain Information-Seeking Conversations

pdf
SIGIR 2019

概要

ユーザは自身の要望を適切なクエリに変換できないので明確化のために対話システムから質問を出力する。
196のトピックに対して762のファセットをもつTREC Web Track 2009-2012のデータに対して、クラウドソーシングを使って追加でデータを作成。
明確化のための質問の検索や明確化後のユーザの返答をもとにした文書検索に関する実験をおこなった。
実験の結果、提案手法はベースラインよりも高い精度を示した。

データ作成について

ワーカに対してトピックに対するファセットの意味を説明。
ワーカはトピックをクエリにしてウェブ検索する。得られた結果の先頭3ページを読んでもらいタイトルやスニペットを読んでもらう。
検索結果を読んでも明確化のための質問を思いつかない場合、検索窓で得られる自動補完結果も見てもらう。
クエリに対する質問を6つ作成してもらう

[ACL22] BERT Learns to Teach: Knowledge Distillation with Meta Learning

https://aclanthology.org/2022.acl-long.485.pdf

[NAACL22-Findings] BORT: Back and Denoising Reconstruction for End-to-End Task-Oriented Dialog

pdf
NAACL Findings 2022

概要

目的志向対話システムに於いては対話システム全体としての精度向上の観点からend-to-endな手法の研究開発が進められている。
既存の学習手法は、正解の対話状態などをもとに対話応答を生成する一方で、推論時には実際に認識した対話状態をもとに対話応答を生成していた。そのため、これらの手法は依然として対話状態の認識誤りなどが影響して対話応答生成の精度低下につながるなど、前段の処理の誤りに弱い。
提案手法は学習時にこのような認識誤りを考慮するため対話状態から発話を生成したり、ノイズを加えた対話応答を復元する。
結果とし
て、ゼロショットや転移学習の設定で高い精度を示した。

Foundation Transformers

https://arxiv.org/pdf/2210.06423.pdf

[NAACL22 Findings] Target-Guided Dialogue Response Generation Using Commonsense and Data Augmentation

pdf
NAACL 2022 Findings

概要

知識グラフ (ConceptNet) を使って、ユーザの発話とシステムの発話を自然につなぐための発話を生成する。
ユーザの発話を入力として、最初に知識グラフ上のパスを生成。ユーザの発話および生成したパスを入力にシステムの応答を生成。

タスク

ユーザとシステムの対話文脈cおよびシステム発話tが与えられるので、cとtを自然につなぐようなcとtを生成する。

パスの生成

知識グラフにはConceptNetを用いるが、網羅性が高いわけでもないのでcとtを自然に結ぶような知識があるとは限らない。そこでConceptNetから生成した学習データを使って言語モデルを学習する。言語モデルは2つのエンティティを受け取り、それらを結ぶようなパスを生成する。このようにパスを言語モデルを使って生成するためエンティティやパスは知識グラフにあるものに限定されなくなる。

応答文の生成

まず対話文脈c、システム発話tおよびNLTKを使ってエンティティを抽出。その後、ルールを使ってConceptNetのエンティティと紐付ける。学習時は正解の応答文からもエンティティを抽出する。

最終的に応答文を生成するために、以下のような系列を生成する言語モデルを学習する。

knowledge path [target] target sentence [context] context sentence [response] transition response

[EMNLP21] Condenser: a Pre-training Architecture for Dense Retrieval

pdf
EMNLP 2021 long

概要

Transformerによるテキストのエンコード結果は情報検索には適していなかった。検索のための新しい事前学習手法を提案する。
従来は最終層のCLSトークンのエンコード結果を、そのテキストのエンコード結果とみなしていた。従来の研究によると、Transformerの中間層におけるCLSトークンはNSPタスクを解くためにトークン系列にまんべんなくアテンション確率を付与している。情報検索では文書のいろいろな情報を考慮することが大事なので、最終層のCLSトークンに加えて、中間層のCLSトークンのエンコード結果も合わせてmasked language modelを解く。

fine-tuneのときは通常のTransformerと同様、最終層のCLSトークンのエンコード結果に基づいてテキストの密ベクトルを得る。

MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers

https://arxiv.org/abs/2012.15828

Cohere Boosts Inference Speed With NVIDIA Triton Inference Server

https://txt.cohere.ai/nvidia-boosts-inference-speed-with-cohere/

[ACL22] Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval

pdf
ACL 2022 long

概要

CLSトークンの埋め込みが文全体の情報を考慮するcondenserによる事前学習に対して、他の文書との関係性も考慮する。
具体的には文書中のあるスパンのCLSトークンの埋め込みに対して、同じ文書から取得したスパンのCLSトークンの埋め込みとの類似度が他の文書から取得したスパンのCLSトークンの埋め込みよりも類似度が高くなるようにする。

機械学習で研究開発する初学者向けガイド

https://note.com/a_hashi/n/n97c886ee1c69#e92908eb-ab7a-4301-a86e-5d7c308f8376

[NAACL22] Learning Dialogue Representations from Consecutive Utterances

https://aclanthology.org/2022.naacl-main.55.pdf

概要

SimCSEのようなcontrastive learningを対話データに特化する。具体的には対話中の次の発話を正例、他の対話の発話を負例として扱う。対話における複数のタスクで既存モデルよりも精度改善がみられた。

[blog] 論文の書き方

https://joisino.hatenablog.com/entry/2022/09/20/172453

[ACL20 Demo] DialoGPT : Large-Scale Generative Pre-training for Conversational Response Generation

pdf
ACL 2020 Demo

概要

Redditから構築した対話データを学習したGPT (DialogGPT) の報告。
Redditは掲示板のようなサイトでコメントに対して返信がつく。これらの返信を対話とみなす。147M事例を構築。
対話応答を評価するタスクDSTC-7でfine-tuneしたところ最高精度を示した。

概要

タスク志向対話と雑談対話が混在するデータを作成。タスク志向対話であるMultiWOZに対して、タスク志向ターンを雑談ターンに書き換えることで作成。参照や省略などお互いが依存するような現象を含む。

[ACL22] NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better

pdf
ACL 2022 Short

概要

事前学習済みモデルをfine-tuneすると過学習の恐れが高い。
事前学習済みモデルのパラメータに対してノイズを加えた状態からfine-tuneする方法を提案。
いくつかのモデルでGLUEやXTREMEタスクで実験を行い、提案手法はノイズを加えない従来のfine-tuneと比較して一貫して高い精度になった。

概要

オープンドメイン対話システムにおいて、ひとつの発話であるトピックから別のトピックへ自然に遷移する方法の提案。
発話の中にトピックの遷移がある対話データをクラウドソーシングを使って構築。
トピックを遷移するための発話タイプを人手で調査したところ、ひとつの発話でトピックの遷移があるものがもっとも利用されることを確認。
言語モデルを使ってトピック遷移が起きる発話の生成に利用できるかを示した。

トピックはナレッジグラフ上のエンティティとして扱う。既存の対話データに対してエンティティリンキングを適用し、エンティティを抽出。

[ACL18] Personalizing Dialogue Agents: I have a dog, do you have pets too?

pdf
ACL 2018 long

概要

雑談対話システムは、趣味の志向性がなく、魅力的でないことが多い。プロフィールに基づいて雑談対話システムがより魅力的になることを目指す。システムの性格および対話相手のユーザの性格を考慮した対話データを構築する。対話相手の性格は対話初期ではわからないので、相手が興味を持つ話題を出すことで対話しやすくなるように学習する。対話システムは対話者の性格を予測することに使えることを示す。

Weakly Supervised Data Augmentation Through Prompting for Dialogue Understanding

https://arxiv.org/pdf/2210.14169.pdf

[EMNLP21] Retrieval Augmentation Reduces Hallucination in Conversation

link
EMNLP 2021 long

概要

検索を活用したテキスト生成モデルにはRetrieval Augmented Generator (RAG) とFusion-in-Decoder (FiD) がある。RAGは検索とテキスト生成の同時学習ができる一方で、検索結果を多く活用できなかった。FiDは検索結果を多く活用することができる一方で、検索とテキスト生成を個別していた。そこでRAGとFiDを組み合わせる手法を提案する。検索の学習にはRAGを用い、その後、学習済み検索モデルを使ってFiDを学習する。

[Rep4nlp] Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup

https://arxiv.org/pdf/2101.06983.pdf

[ICTIR21] Revisiting Open Domain Query Facet Extraction and Generation

pdf
ICTIR 2021

A 3-minute read on how to accelerate NLP model inferences on commodity hardware

https://towardsdatascience.com/a-3-minute-read-on-how-to-accelerate-nlp-model-inferences-in-commodity-hardware-575a8075d424

[NAACL19] Outlier Detection for Improved Data Quality and Diversity in Dialog Systems

paper

概要

多様かつ高品質なデータの作成のための例外検知。例外検知によって、アノテーション誤り、学習事例にあまりふくまれない珍しい事例を見つけることができる。クラウドソーシングを使って、例外検知によって候補として選ばれた事例のアノテーション誤りの修正、また珍しい事例を提示することで多様な事例の作成を支援する。

Building and Evaluating Open-Domain Dialogue Corpora with Clarifying Questions

https://aclanthology.org/2021.emnlp-main.367.pdf

Hydra Attention: Efficient Attention with Many Heads

pdf

[WWW20] Generating Clarifying Questions for Information Retrieval

pdf
WWW 2020

概要

ウェブ検索におけるクエリの意図を明確にするために質問を生成する研究。
ユーザスタディによって、質問を生成することに価値があることを確認。
明確化のための質問のタクソノミーを作成しテンプレートに対して穴埋めを生成することで質問を生成する手法を提案。
学習データは少ないため提案手法は弱教師あり学習に基づく。
数百からなる検索クエリに対する人手評価の結果、提案手法の有効性を確認した。

Mega: Moving Average Equipped Gated Attention

pdf

実装

非公式実装: https://github.com/lucidrains/Mega-pytorch

[NAACL21] Self-training Improves Pre-training for Natural Language Understanding

https://aclanthology.org/2021.naacl-main.426.pdf

[COLING22] Knowledge Distillation with Reptile Meta-Learning for Pretrained Language Model Compression

https://aclanthology.org/2022.coling-1.435.pdf

[EMNLP16] How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation

pdf
EMNLP 2018 long

[ICLR'21] Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval

pdf
ICLR 2021

概要

contrastive learningでは負例の選択が重要になる。従来は一様分布からサンプリングしたり、同じミニバッチに含まれる他の事例を負例とみなしていたが、収束が遅い。そこでモデルにとって識別が難しい負例を学習事例全体の中から選択する方法を提案する。

[ACL22] Efficient Classification of Long Documents Using Transformers

pdf
ACL2022

概要

長い文書をTransformerを使って分類する手法はあるものの比較できるようなベンチマークデータがなかった。
精度に加えて、処理速度やメモリの観点でも比較する。
実験結果では、長い文書を扱うLongformerなどのモデルが、消費メモリ増加や処理速度低下などのデメリットがある割に、先頭から512単語のみを利用する単純なBERTを上回ることができないことが多いこと、またデータによって精度の変動が大きいことを報告。

Data Augmentation for Intent Classification with Off-the-shelf Large Language Models

https://aclanthology.org/2022.nlp4convai-1.5.pdf

[blog] オンラインショップの商品検索改善に挑戦！KDD CUP 2022で9位入賞した手法の紹介

url

概要

Amazonにおける検索クエリと商品の関係性を分類するタスク。ラベルの偏りや誤りに対する工夫によって精度を上げた。

[ACL22] DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations

https://aclanthology.org/2021.acl-long.72.pdf

[22] SCROLLS: Standardized CompaRison Over Long Language Sequences

pdf
arXiv

概要

長文書を扱う自然言語処理モデルのためのベンチマークデータ。文書要約、質問応答、含意関係認識といった複数タスク。またテキストのドメインも文学、科学、法律と複数に渡る。

概要

対話システムが対応できないドメイン (out-of-domain; OOD) を認識するための疑似学習データ生成手法。このタスクでは学習データを作成するのが高コストのため、少量のシード文と類似する文を検索し、擬似的なOOD文とする。

[SIGIR21] Wizard of Search Engine

pdf
SIGIR 2021

概要

Conversational Information Seeking (CIS) に関する研究。CISを意図推定、キーフレーズ抽出、対話行為選択、クエリ選択、パッセージ選択、応答生成の6つのサブタスクに分割。ベンチマークデータ (Wizard of Search Engine; WISE) を構築し、モデルを提案する。
WISEを構築するに当たり、既存のウェブ検索エンジンで収集したセッションをもとに2人の作業者が参加して対話を作成する。

[RepL4NLP 19] To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks

link
RepL4NLP 2019

概要

事前学習モデルをfine-tuneする際、事前学習モデルのパラメータを固定して、タスク用ヘッドをfine-tuneしてから、モデル全体をfine-tuneすると精度が上がる

[22] DIVE INTO BIG MODEL TRAINING

pdf
arXiv

概要

巨大なニューラルネットワークを学習するためのサマリ。並列化、メモリの節約、モデルを疎にする方法について解説。

RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering

https://aclanthology.org/2021.naacl-main.466.pdf

tma15 / paper-reading-list Goto Github PK

paper-reading-list's Introduction

読んだ論文メモ置き場

paper-reading-list's People

Contributors

Stargazers

Watchers

paper-reading-list's Issues

概要

概要

inpainterの学習

概要

実装

概要

データ作成について

概要

概要

タスク

パスの生成

応答文の生成

概要

概要

概要

概要

関連情報

概要

概要

関連情報

概要

概要

概要

概要

概要

実装

概要

概要

概要

概要

関連リンク

概要

概要

概要

概要

Recommend Projects

Recommend Topics

Recommend Org