Coder Social home page Coder Social logo

paper_memo's Introduction

論文メモ

読んだ論文のメモを残していこうと思ってる

1.論文の概要

アブストラクトを和文要約すれば必要十分。

2. 問題設定と解決した点(先行研究と比べてどこが凄い?)

学術的背景および研究文脈、そこから導かれる問題設定を要約する。問題解決がもたらすインパクト・学術的価値も端的にまとめる。

3. 技術や手法のキモ

研究戦略とそれを導き出した技術的強み・オリジナリティ・独創的発想などについて要約する。論文著者が過去に独自知見を持つケースが多い。

4. 主張の有効性検証

論文のクレーム内容をサポートするための戦術・方法論と、その妥当性について要約する。端的には仮説検証系(実験系)の組み方とキーポイント、得られたデータとその解釈をまとめればOK。Supporting Infoやプロトコル文などにも目を通して補足。

5. 議論すべき点

論文の主張やビジョンそのものに問題はないか?主張がデータによって過不足なくサポートされているか?詰めの甘い点や論理的陥穽はないか?報告時点のリミテーションはどこにあるか?・・・などなど、批判的視点に基づき読み取れる事柄をまとめる。 著者自身が気づいていない魅力や、優れた展開性などに触れられるなら、なお良い。

6. 次に読むべき論文は?

未解決問題へとアプローチするために必要 or 将来展開の想像を助ける論文を選んで提案する。準備時間の都合もあるので、詳細に読んでおく必要は無い。聴講者が情 報選択するため指針になれば必要十分。

7. 参考文献

当該論文で引用されているキー文献の抜粋。

8. 補足(Appendix)

論文読解に必要とされる専門用語・概念・定義などを、簡単に付記・解説しておく。

paper_memo's People

Watchers

 avatar

paper_memo's Issues

ConveRT: Efficient and Accurate Conversational Representations from Transformers

https://arxiv.org/pdf/1911.03688.pdf

1.論文の概要

BERTは計算量、訓練コスト等の問題があり、実応用には理想的ではないためConveRT (Conversational Representations from Transformers)を提案。応答選択タスクでSOTA
本研究では、検索ベースの応答選択タスクを用いて事前学習を行い、デュアルエンコーダの量子化とサブワードレベルのパラメータ化を効果的に利用して、軽量でメモリとエネルギー効率の高いモデルを構築。また、拡張された対話履歴をコンテキストとして使用することで、さらに性能が向上することを示す。また、提案されたエンコーダからの事前学習された表現をインテント分類タスクに適用することで、3つのデータセットに対して高い性能が得られることを示している。
事前学習済みモデルが公開されている。

2. 問題設定と解決した点(先行研究と比べてどこが凄い?)

これまでも軽量化に関する研究は行われてきたがBERTのようなLM(言語モデル)ベースのモデルの最適化に着目したものが多いが、本研究では応答選択タスクにおいてより適していると思われるDual Encoderベースの事前学習モデルを提案。
BERTの実応用には理想的ではない問題点を解決するため
応答選択タスク、意図分類タスクにおいて軽量化と高速化を可能にした。
また3つの応答選択タスク Ubuntu DSTC7, Amazon QA, Reddit response selectionにおいて最高性能も達成。

3. 技術や手法のキモ

シングルコンテキストモデル
スクリーンショット 2020-05-26 1 37 04
マルチコンテキストモデル
スクリーンショット 2020-05-26 1 39 22

positional emmbeddingはBERTとかとは少し違う方法で学習
絶対的位置ではなく相対的位置の情報を使うことで計算効率を上げた?
埋め込みシーケンスを固定次元ベクトルに変換するためNの平方根削減を使用

量子化
標準的な32ビットのパラメータではなく、すべての埋め込みパラメータは8ビット、その他のネットワークパラメータは16ビットで表現されている。
layer normalization, L2- normalization, softmax in attention layersは32bit

マルチコンテキストでは最大直前10個のコンテキストを利用

4. 主張の有効性検証

サイズ
シングルコンテキスト ConveRT 59MB
マルチコンテキスト ConveRT 73MB,
Dual Encoder 444MB

評価指標はRecall 100@1とMRR

スクリーンショット 2020-05-26 2 15 58
スクリーンショット 2020-05-26 2 17 23

スクリーンショット 2020-05-26 2 17 32
Ablation Study
スクリーンショット 2020-05-26 2 17 56

スクリーンショット 2020-05-26 2 18 21
他タスクでも応用可能でintent classification performance(意図推定タスク)でも性能が高い

5. 議論すべき点

他の軽量化モデル等と比較するとどうなのか?

6. 次に読むべき論文は?

7. 参考文献

8. 補足(Appendix)

USE: Universal Sentence Encoder
POLY AI-DUAL: the best-performing dual-encoder model

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.