Coder Social home page Coder Social logo

papers's People

Contributors

oratosa avatar

Watchers

 avatar  avatar

papers's Issues

Enriching Structured Knowledge with Open Information

  • 論文タイトル
    Enriching Structured Knowledge with Open Information (WWW '15)

  • 著者(所属)
    Dutta, Arnab, Christian Meilicke, and Heiner Stuckenschmidt.

  • 論文PDF/ランディングページへのリンク
    https://dl.acm.org/doi/pdf/10.1145/2736277.2741139

  • 論文まとめ(落合フォーマット準拠)

    • どんなもの(どんな問題を解きたい)?
      OpenIEで抽出されたリレーションを既存のKB(例えば,DBpedia)のオントロジーにマッピングするタスクに取り組んだ論文.
      マッピングすることで,抽出されたリレーションの正確性,曖昧性の低減につながる.また,既存のKBにとっては,KBの拡張につながる.
    • 先行研究と比べてどこがすごい?
      brah brah brah
    • 技術や手法のキモはどこ?
      brah brah brah
    • どうやって有効だと検証した?
      brah brah brah
    • 議論はある?
      brah brah brah
    • 次に読むべき論文は?
      brah brah brah

Query Expansion with Freebase (ICTIR’15)

  • 論文タイトル
    Query Expansion with Freebase (ICTIR ’15)

  • 著者(所属)
    Chenyan Xiong and Jamie Callan.

  • 論文PDF/ランディングページへのリンク
    https://dl.acm.org/doi/pdf/10.1145/2808194.2809446

  • 論文まとめ(落合フォーマット準拠)

    • どんなもの(どんな問題を解きたい)?
      Freebaseを使ったウェブコーパスに対するクエリ拡張の研究.
      2015年時点では,知識ベースをIRにどう使うか,という問題はOpen Problemらしい.
    • 先行研究と比べてどこがすごい?
      シンプルだが,効果的な方法,とのこと.
    • 技術や手法のキモはどこ?
      2つのステップで構成される
      1. クエリに関する有力なエンティティ(オブジェクト)を特定すること
        1. Google Search APIにクエリして,ランク付きオブジェクトリストを取得する
        2. クエリして取得したTop-k ドキュメントに対して,FACC1(GoogleのアノテーションデータでFreebaseオブジェクトとClueWeb09とClueWeb12をリンクしている)からオブジェクトを取得して,tfidfでスコア付けする
      2. 特定したオブジェクトに関係するクエリ拡張の語彙を選択すること
        1. Pseudo Relevance Feedbackを利用する.
          オブジェクトのdescription(テキスト)の語彙について,tfidfの考え方でスコア付けする
        2. Freebaseのエンティティのカテゴリー情報を利用する
          オントロジーのハイレベルなカテゴリーごとのエンティティを訓練データとして,カテゴリーについて学習する.クエリと語彙の属すカテゴリーを予測し,クエリと近いカテゴリーに属す語彙を拡張語彙といて選択する.
      • また,a.b, b.a, b.bのスコアを特徴量として,よい結果につながる語彙の選択方法を学習し,よい結果につながる語彙のみを最終的に選択する手法も試した.
    • どうやって有効だと検証した?
      • TREC Web Track adhoc taskでstate of the artより優れていることを示した.
      • 評価指標はMAP@20,NDCG@20,ERR@20, Relative Gain, Win/Loss/Tie
      • 提案手法では,教師ありがベストの結果だが,教師なし手法では,a.a×b.aの組み合わせがベストだった.
    • 議論はある?
      • 先行研究のEQFE by Dalton et al.との比較ができていない
    • 次に読むべき論文は?
      J. Dalton, L. Dietz, and J. Allan. Entity query feature expansion using knowledge base links. (SIGIR 2014)

Open Information Extraction on Scientific Text : An Evaluation (COLING’18)

  • 論文タイトル
    Open Information Extraction on Scientific Text : An Evaluation (COLING’18)

  • 著者(所属)
    Paul Groth, Mike Lauruhn, Antony Scerri, Ron Daniel Jr.

  • 論文PDF/ランディングページへのリンク
    https://www.aclweb.org/anthology/C18-1289/

  • 論文まとめ(落合フォーマット準拠)

    • どんなもの(どんな問題を解きたい)?
      科学に関するテキストに対するOpen Information Extraction(OIE)の適用結果を評価した
    • 先行研究と比べてどこがすごい?
      既存のOIEは,(OIEがOpen domainのテキストに関する適用を謳っているにもかかわらず)WikipediaのテキストやNewsのテキストに対する結果で評価していた.この論文で初めて科学に関するテキストに対する評価を行なった.
    • 技術や手法のキモはどこ?
      既存の評価では,専門家が正解データを作成し,それに対して抽出結果の正否を評価するが,この論文ではクラウドソーシングによる複数のワーカによって正否が判断された.
      評価プロセスが細かくかかれているため,参考になる.
    • どうやって有効だと検証した?
      上に同じ.
    • 議論はある?
      エラーは入力する文の種類が原因となっていることが指摘されており,入力文の選び方によってエラーは避けられる可能性があると議論している.
    • 次に読むべき論文は?
      Schneider, Rudolf, et al. "Analysing Errors of Open Information Extraction Systems." EMNLP 2017

Document Retrieval Using Entity-Based Language Models (SIGIR '16)

  • 論文タイトル
    Document Retrieval Using Entity-Based Language Models (SIGIR'16)

  • 著者(所属)
    Raviv, Hadas, Oren Kurland, and David Carmel.

  • 論文PDF/ランディングページへのリンク
    https://dl.acm.org/doi/pdf/10.1145/2911451.2911508

  • 論文まとめ(落合フォーマット準拠)

    • どんなもの(どんな問題を解きたい)?
      アドホックなドキュメント検索タスクに対して,新しいentity-based language modelを提案した論文.
      提案モデルで何がしたいか:entity-linkingによるエンティティの特定は語彙の多義性により必ずしも文脈において正解を保証しないので信頼度を与える. そして,termをtermのまま扱うのがいいのか,entityとして扱うのがいいのか,そのバランスを考慮できるようにする.

    • 先行研究と比べてどこがすごい?
      entity-linkingを取り入れた手法は広く使われているが,表面的に特定されたentityを利用するメリットについては,はっきりとした説明・結論が出ていなかったので,この研究では,特定されたentityに信頼度を与えることで,それに応える
      この手法は,cluster-based document retrievalやquery expansionへの応用も有効なこと.

    • 技術や手法のキモはどこ?
      エンティティと単なるトークンの両方に信頼度を与えていく.信頼度は言語モデルを利用して付与する.
      ドキュメントとクエリの類似度はクロスエントロピーで評価してランキングする.
      また別の方法として,エンティティだけの信頼度を持つクエリとドキュメント,トークン(term)だけの信頼度を持つクエリとドキュメント,それぞれをクロスエントロピーで評価し,ウェイトを調整して足し合わせた評価を使ってランキングすることもできる.

    • どうやって有効だと検証した?
      ベースラインは,term-based unigram language model retrievalのTermsLM,state-of-the-artのsequential dependence modelのSDMなど.
      データセットはTRECの6種類のデータセット.
      結果は,トークンとエンティティのそれぞれに信頼度を付与する方法が最もよかった

    • 議論はある?

    • 次に読むべき論文は?

Finding Relevant Relations in Relevant Documents (ECIR '16)

  • 論文タイトル
    Finding Relevant Relations in Relevant Documents (ECIR '16)

  • 著者(所属)
    Schuhmacher, M., Roth, B., Ponzetto, S. P., & Dietz, L.

  • 論文PDF/ランディングページへのリンク
    https://link.springer.com/content/pdf/10.1007%2F978-3-319-30671-1_49.pdf

  • 論文まとめ(落合フォーマット準拠)

    • どんなもの(どんな問題を解きたい)?
      クエリに特化したKBの構築に関する論文.
      具体的なタスクイメージ

      • 入力としてクエリQが与えられると,Web上のドキュメント集合からクエリQに関連する(S, P, O)形式のファクトを抽出する
    • 先行研究と比べてどこがすごい?
      WebコーパスからQuery-specificなKBを構築する初めての論文.
      ドキュメントから取り出された既存のKBにはない未知のFactについても対象としているので,先行研究にあるようなKBのエンティティ間の関係を説明するタスクとは異なる.
      また,エンティティとアドホッククエリの関係性を説明するタスクとも異なり,この論文ではドキュメント内のエンティティ間の関係性を扱う.

    • 技術や手法のキモはどこ?
      Document RetrievalとRelation Extractionのstate-of-the-artな手法を組み合わせている.
      Document Retrievalは,Sequential dependence model(SDM)にクエリ拡張手法を合わせた(SDM-RM3,WikiRM1)ものを利用した.
      Relation Extractionは,エンティティリンク済みのFACC1のデータに対して,RelationFactoryというツールを用いた.

    • どうやって有効だと検証した?
      (実験の説明がよく理解できない)
      ファクト抽出の正確性と,クエリとファクトの関係性の評価をそれぞれ個別に評価している.
      ファクト抽出の正確性は,17のクエリに対して,言及された914ファクトと出所となる2658文について,一人のアノテーターが評価し,結果は49.6%のファクトが正確だと判断された.
      クエリとファクトの関係性の評価は,
      なお,クエリはTREC Web track,ドキュメントはClueWeb12を基に,リレーションファクト評価のためにaugmentを行なったものを使用している.

    • 議論はある?
      brah brah brah

    • 次に読むべき論文は?
      brah brah brah

Entity Query Feature Expansion using Knowledge Base Links (SIGIR '14)

  • 論文タイトル
    Entity Query Feature Expansion using Knowledge Base Links (SIGIR '14)

  • 著者(所属)
    Jeffrey Dalton, Laura Dietz, James Allan
    (Center for Intelligent Information Retrieval, School of Computer Science, University of Massachusetts Amherst, Amherst, Massachusetts)

  • 論文PDF/ランディングページへのリンク
    https://dl.acm.org/doi/10.1145/2600428.2609628

  • 論文まとめ(落合フォーマット準拠)

    • どんなもの(どんな問題を解きたい)?
      テキスト内のエンティティとアノテーションされた情報を使ってドキュメント検索をどのように向上させるかという問題に対して取り組んでいる(2014年時点では,open research areaとのこと).

    • 先行研究と比べてどこがすごい?
      クエリ拡張にエンティティリンキングによって取得できるKBの情報を利用したおそらく最初の研究.

    • 技術や手法のキモはどこ?
      エンティティに関する様々な特徴量を対数線型モデルに組み込み,情報取得に最適となるように学習を行なった(Learning-to-rank)

    • どうやって有効だと検証した?
      ベースライン手法は,Sequencial Dependence Model(SDM),その他2つの手法で比較した.
      データセットは,Robust04,ClueWeb09,ClueWeb12で,Titleに記載されている単語をクエリとした.
      MAP, Precision@20, NDCG@20で評価し,有意な差で提案手法がよいと主張しているが,実用的に優位かは微妙な印象.

    • 議論はある?
      Entity linkingの精度に依存してしまうこと.

    • 次に読むべき論文は?
      Schuhmacher, Michael, Laura Dietz, and Simone Paolo Ponzetto. "Ranking entities for web queries through text and knowledge." Proceedings of the 24th ACM international on conference on information and knowledge management. 2015.

Supervised Open Information Extraction (NAACL'18)

  • 論文タイトル
    Supervised Open Information Extraction (NAACL'18)

  • 著者(所属)
    Gabriel Stanovsky, Julian Michael, Luke Zettlemoyer, Ido Dagan

  • 論文PDF/ランディングページへのリンク
    https://www.aclweb.org/anthology/N18-1081/

  • 論文まとめ(落合フォーマット準拠)

    • どんなもの(どんな問題を解きたい)?
      AllenNLPのInformation Extractionモジュールの基となる論文で,教師あり学習を適用したOpen Information Extractionの手法と新しいデータセットを提案.

    • 先行研究と比べてどこがすごい?
      先行研究のOpenIEは,半教師あり学習やルールベースの手法だが,今回は教師あり学習のアプローチで,パフォーマンスも向上させることができた.
      Question-answer driven semantic role labeling(QA-SRL)による自動変換技術を拡張し,QAMRコーパス(幅広いpredicate-argument構造をカバーしたQA-SRLの一種)に適用し,巨大で多様なラベル付きコーパス(データセット)を生成した.

    • 技術や手法のキモはどこ?
      OpenIEをシーケンスに対するタグ付けの問題(Sequence tagging problem)とみなし,1つの述語に対する複数の抽出を符号化する問題として解いた.
      開発したbi-LSTM 変換器は,deep Semantic Role LabelingモデルをOpen IEタプルに拡張子,そのPrecision-Recallのトレードオフを調整するための確信度を提供する.

    • どうやって有効だと検証した?
      brah brah brah

    • 議論はある?
      brah brah brah

    • 次に読むべき論文は?
      brah brah brah

Open Information Extraction from the Web (IJCAI '07)

  • 論文タイトル
    Open Information Extraction from the Web (IJCAI '07)

  • 著者(所属)
    Michele Banko, Michael J Cafarella, Stephen Soderland, Matt Broadhead and Oren Etzioni

  • 論文PDF/ランディングページへのリンク
    https://my.eng.utah.edu/~cs6961/papers/banko-ijca07.pdf

  • 論文まとめ(落合フォーマット準拠)

    • どんなもの(どんな問題を解きたい)?
      OpenIEという新しいパラダイムを提案した論文(ここからOpenIEは始まった)
      OpenIEでは,テキスト情報を入れるだけで,テキストに含まれている関係タプル(sub, pred, obj)を出力する.
      提案されたシステムはTEXTRUNNER
    • 先行研究と比べてどこがすごい?
      従来のIEは,興味のあるドメインのテキスト情報に対して,人間の知識(抽出ルールの作成,教師データへのアノテーション)を付与することで,抽出を可能にしていた.
      OpenIEは人間の知識は必要とせず(or 最低限)な手法なため,さまざまなドメインのテキスト情報からの抽出が可能.
    • 技術や手法のキモはどこ?
      OpenIEが重視することは Automation, Corpus Heterogeneity, Efficiency の3つ
      3つのモジュールを利用して,関係タプルを抽出する.
      1. Self-Supervised Learner
        少量のコーパスを与えて,抽出されたタプル候補に対してTrustworthyか否かラベル付けする分類器を出力する.Learnerは言語パーサーを利用して,抽出タプルがTrustworthyか判断し,それを教師データとしてナイーブベイズ分類器を訓練する.
      2. Single-Pass Extractor
        コーパスに対してシングルパスを作成し,自動的に単語にPart-of-Speechのタグを付与し,可能性のあるタプル候補を抽出する.パーサーは使わない.
      3. Redundancy-Based Assessor
        タプルを正規化し,そのタプルが見つかった文の数を数える,そのカウントを利用して,得られたタプルに対して確率を付与する.
    • どうやって有効だと検証した?
      先行するKNOWITALLというIEシステムが比較対象で,KNOWITALLでは抽出するリレーションを設定する必要があるため,実験では,10種類のリレーションを抽出することにした.
      評価は,recallとerror rateを比較.
      結果は,抽出数はほぼ同じで,error rateは提案システム(TEXTRUNNER)が33%低かった.
      実行時間はOpenIEが圧倒的によい.
    • 議論はある?
      抽出されるタプル集合が膨大なので,全体のうちどの程度が正しいのか評価が難しい.
    • 次に読むべき論文は?
      OpenIEにおける述語のマッピングに関する研究
      Dutta, Arnab, Christian Meilicke and Heiner Stuckenschmidt. “Enriching Structured Knowledge with Open Information.” WWW '15 (2015).

Knowledge Graph Construction from Unstructured Text with Applications to Fact Verification and Beyond (EMNLP'19 | WS)

  • 論文タイトル
    Knowledge Graph Construction from Unstructured Text with Applications to Fact Verification and Beyond

  • 著者(所属)
    Ryan Clancy, Ihab F. Ilyas, Jimmy Lin

  • 論文PDF/ランディングページへのリンク
    https://www.aclweb.org/anthology/D19-6607/

  • 論文まとめ(落合フォーマット準拠)

    • どんなもの(どんな問題を解きたい)?
      組織内の非構造化データと構造化データに対する分析を統合したいという企業のニーズに対して,非構造化データから知識グラフを構築するようなオープンソースの一連のソリューションがないことに着目し,大規模なテキストデータから情報抽出をして知識グラフを構築する一連のプラットフォームを提案・オープンソースで公開している.
    • 先行研究と比べてどこがすごい?
      非構造テキストデータから知識グラフを構築するEnd-to-Endのフレームワークを提案しオープンソース化していること
    • 技術や手法のキモはどこ?
      Apache Solr, Stanford CoreNLP, Apache Spark, Neo4jの4つの技術を統合することで,スケーラビリティを考慮したフレームワークとなっていること.
      フレームワークの応用例の1つとして,抽出された知識のFact verificationについて,外部知識を利用したサブグラフマッチングのアプローチを提案していること.
    • どうやって有効だと検証した?
      TREC Washington Post Corpus(ニュース記事:595K)のテキストデータ に対して,一連のフレームワークを適用し,処理時間が実用に対応できるものであることを検証した.
      ケーススタディとして,抽出された知識を,Supporting Facts,Inconsistent Facts,Missing Factsのパターンに分けて考察した.
    • 議論はある?
      Neo4jを利用する動機がわからなかった.
      外部の知識グラフをローカルに取り込むよりも必要に応じて,Sparql endpointにクエリして,情報を取得する方がいいのでは?と思った.
      検証ケースがニュース記事だったが,企業内利用の背景を踏まえると,メールやオフィス文書などの利用も検討できると思った.その場合,抽出されたトリプルはもっと汚くなるはず.きれいなトリプルや正しいファクトの(人間が行う)取捨選択を支援するようなソリューションが必要と思った.
    • 次に読むべき論文は?
      Thorne, James, and Andreas Vlachos. "Automated fact checking: Task formulations, methods and future directions." arXiv preprint arXiv:1806.07687 (2018).
      Kertkeidkachorn, Natthawut, and Ryutaro Ichise. "T2KG: An end-to-end system for creating knowledge graph from unstructured text." Workshops at the Thirty-First AAAI Conference on Artificial Intelligence. 2017.

CESI: Canonicalizing Open Knowledge Bases using Embeddings and Side Information (WWW '18)

  • 論文タイトル
    CESI: Canonicalizing Open Knowledge Bases using Embeddings and Side Information (WWW '18)

  • 著者(所属)
    Shikhar Vashishth, Prince Jain, Partha Talukdar

  • 論文PDF/ランディングページへのリンク
    https://arxiv.org/abs/1902.00172

  • 論文まとめ(落合フォーマット準拠)

    • どんなもの(どんな問題を解きたい)?
      OpenIEに抽出されたtripleのNP(Noun phrase)や述語(Relation phrase, RP)は冗長で曖昧な表現になっているため,一般的にはマニュアルに定義した特徴空間でクラスタリング を行って正規化を図る.
      しかし,マニュアルにクラスタリング を行うことはコストもかかる上,最適ではない場合もあるので,この研究ではEmbeddingsとSide informationによる正規化で,コスト低減と最適化を図る.
    • 先行研究と比べてどこがすごい?
      • なぜEntity linkingではダメなの?:Entity linkingはメンションされたNPをKBの知識ベースにmapするので,KBにない場合はNILエンティティとされ,NILエンティティのクラスタリング 問題が残る.この研究におけるEntity Linkingの位置付けは正規化の精度をあげるための利用.
      • 他に類似する研究はないのか?:RESOLVERという手法で,文字列類似度に基づくPhraseのクラスタリング が提案されている.また,階層型クラスタリング によるNP正規化の研究がある.前者は類義語に弱く,後者は特徴空間をマニュアルに定義する必要ある.この研究はそうした課題を解消する.
    • 技術や手法のキモはどこ?
      1. 非正規化トリプルに関するSide Information(Entity Linking,PPDB,Wordnet,AMIE,など)を獲得
      2. Side Informationも利用して,NPとRPをEmbeddeingする
      3. 同一と思われるNPやRPをクラスタリングし,正規化する
      • 入力:正規化されていないOpen KB
      • 出力:正規化されたNPとRP
    • どうやって有効だと検証した?
      生成クラスタについて正解クラスタとの比較で評価する.
      評価は,先行研究の評価指標にのっとり,Precision, Recall,F1指標について,macro, micro, pairwiseの切り口で行う.5人の評価者が各クラスタにスコアを付与する.
      • 検証用データセット
        • Base: Freebaseのエンティティを含むデータセット
        • Ambiguous: Baseに対して,同義語のエンティティを加えて拡張したデータセット
        • ReVerb45K: real open KBを模倣して作成(この研究の貢献の1つ)
      • ベースライン手法
        • Entity linker, 先行研究, Glove, HoIEなど
    • 議論はある?
      Side informationとして,トリプルのソースドメイン情報の利用によって,類似した名前の別人物の識別精度を向上させる必要がある.
    • 次に読むべき論文は?
      • 本論文の発展手法と思われる
        Lin, Xueling and Lei Chen. “Canonicalization of Open Knowledge Bases with Side Information from the Source Text.” 2019 IEEE 35th International Conference on Data Engineering (ICDE) (2019): 950-961.
      • 本論文でたびたび言及される先行研究
        Galárraga, Luis et al. “Canonicalizing Open Knowledge Bases.” CIKM '14 (2014).

Document Retrieval Model Through Semantic Linking (WSDM'17)

  • 論文タイトル
    Document Retrieval Model Through Semantic Linking (WSDM'17)

  • 著者(所属)
    Faezeh Ensan, Ebrahim Bagheri.

  • 論文PDF/ランディングページへのリンク
    https://dl.acm.org/doi/pdf/10.1145/3018661.3018692

  • 論文まとめ(落合フォーマット準拠)

    • どんなもの(どんな問題を解きたい)?
      Document retrievalに関する研究で,ドキュメントとクエリの意味的な関連性の導出手法を提案している.

    • 先行研究と比べてどこがすごい?
      ドキュメントが与えられた時のクエリの発生確率をbag-of-wordsモデルで考える研究に対して,entity-linkingを通じて得られるコンセプトの関係性でドキュメントとクエリの関係性を検討していることが新しい.

    • 技術や手法のキモはどこ?
      コアとなるアイデアは,ドキュメントのコンセプトとそれらコンセプト間の関係性を与えられた条件として,クエリ内に観察されるコンセプトの条件付き発生確率を見つけること,である.ここで,コンセプトはEntity linkingを通じて得るものとする.
      CRF(Conditional Random Fields)のようなモデル(ノードがコンセプト,エッジが関係性)で,コンセプト間の依存関係を考える.
      この手法により算出されるScoreは他のScoreに内挿することで,精度の向上に寄与する(したがって,実験でもベースライン手法に提案手法を内挿した結果を比較評価している)

    • どうやって有効だと検証した?
      データセット:Robust04, FACCI-09, ClueWeb09-B, ClueWeb12-B
      クエリ:各データセットのトピックのTitle Field
      評価指標:Mean Average Precision,Precision@20,nDCG@20
      ベースライン:Sequential Dependence Model(SDM),Relevance Model(RM3),Entity Query Feature Query Expansion(EQFE)
      結果:MAPでSDM+SELM(提案手法)がSDM単体より,+9.2%の精度向上を主張しているが,MAP自体の値は0.2615->0.2858の変化で,実用上,効果があるといえるのかよくわからない.

    • 議論はある?
      クエリ意図の分析によって提案手法の精度向上,など

    • 次に読むべき論文は?
      ベースライン(SDM,EQFE)はどの論文でも出てくる印象.

      • Fielded Sequential Dependence Model for Ad-Hoc Entity Retrieval in the Web of Data, Nikita Zhiltsov, Alexander Kotov, Fedor Nikolaev., SIGIR '15.
      • Entity query feature expansion using knowledge base links. Jeffrey Stephen Dalton, Laura Dietz, James Allan., SIGIR '14.

T2KG: An End-to-End System for creating Knowledge Graph from Unstructured Text(AAAI’17)

  • 論文タイトル
    T2KG: An End-to-End System for creating Knowledge Graph from Unstructured Text(AAAI’17)

  • 著者(所属)
    Kertkeidkachorn, Natthawut, and Ryutaro Ichise

  • 論文PDF/ランディングページへのリンク
    https://aaai.org/ocs/index.php/WS/AAAIW17/paper/view/15129/14743

  • 論文まとめ(落合フォーマット準拠)

    • どんなもの(どんな問題を解きたい)?
      テキストデータ からの情報抽出から知識グラフの構築までを一貫したい

    • 先行研究と比べてどこがすごい?
      抽出された述語を,既存のKGの述語にマッピングするというモジュールを含めたフレームワークであること

    • 技術や手法のキモはどこ?
      ルールベースの述語マッピングに加えて,ベクトル表現した述語の類似度によるマッピングの手法を加えていること.これによって,Open-domainからの知識のスパースな性質に対応した

    • どうやって有効だと検証した?

      • 述語マッピングの評価:DBpediaの述語にマッピングされた300個の抽出されたトリプルを正解データとして,ルールベースの述語マッピングと提案手法の述語マッピングの精度をPrecision, Recall, F1スコアで評価し,Recall,F1スコアで優れていることを確認した
      • 知識グラフ構築の評価:100個の文から手作業でトリプルを抽出し,DBpediaとマッピングしたものを正解データとし,ルールベースの述語マッピングのみのシステムと提案手法の精度をPrecision, Recall, F1スコアで評価.全ての指標においてベースラインを上回った(が,2pt~4ptほどで,50%程度の精度)
    • 議論はある?
      エラー(正解データとは異なるトリプル)の原因を調べると,原因の35%がtriple抽出に関するものだった.
      特に複雑な文で抽出精度が低い

    • 次に読むべき論文は?
      Exner, Peter, and Pierre Nugues. "Entity Extraction: From Unstructured Text to DBpedia RDF triples." WoLE@ ISWC. 2012.

YAGO: A Multilingual Knowledge Base from Wikipedia, Wordnet, and Geonames

  • 論文タイトル
    YAGO: A Multilingual Knowledge Base from Wikipedia, Wordnet, and Geonames (ISWC2016)

  • 著者
    Rebele, T., Suchanek, F., Hoffart, J., Biega, J., Kuzey, E., & Weikum, G.

  • 論文PDF/ランディングページへのリンク
    https://doi.org/10.1007/978-3-319-46547-0_19

  • 論文まとめ(落合フォーマット準拠)

    • どんなもの(どんな問題を解きたい)?
      • 代表的な汎用知識ベースの1つであるYAGOの構築について記した論文
      • Wikipediaの豊富な情報がカテゴリー体系が適切ではないことを問題意識として,Wikipediaの情報をWordnetのような精緻なオントロジーで体系化することを目的とする.
    • 先行研究と比べてどこがすごい?
      • DBpediaなど他の知識ベースとの違いは正確性を重要視していること
      • DBpediaやWikidataとは違い,クラウドソーシングは利用せず,IEとMergeによって構築されている.
      • 主な情報源は,Wikipedia(のInfobox), Wordnet, and Geonames
    • 技術や手法のキモはどこ?
      • Fact Identifierという識別子によって,時空間のポイントにおいて確認された情報であることを記述する.
      • Fact Identifierからソース情報に遡れるように設計している.
    • どうやって有効だと検証した?
      • ランダムに抽出したトリプルについて人手でFact Checkしている(コスト大)
      • YAGOの情報は9割が正確であるという評価
    • 議論はある?
      • Fact checkに非常にコストがかかっていること
      • テキスト情報に含まれている知識を取り入れることができていないこと
      • RDFの表現では十分に表現し切れない情報があること など.
    • 次に読むべき論文は?
      • Yahya, M., Barbosa, D., Berberich, K., Wang, Q., Weikum, G.: Relationship Queries on Extended Knowledge Graphs. In: WSDM (2016)
      • Talaika, A., Biega, J.A., Amarilli, A., Suchanek, F.M.: IBEX: Harvesting Entities
        from the Web Using Unique Identi�ers . In: WebDB workshop (2015)
      • Biega, J., Kuzey, E., Suchanek, F.M.: Inside YAGO2s: A transparent information
        extraction architecture. In: WWW demo (2013)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.