Coder Social home page Coder Social logo

bert-topic-models's Introduction

Korean Contextualized Topic Models

모델 소개

BERT 기반의 문맥을 반영한 한국어 토픽 모델입니다. 모델은 CombinedTM을 사용하고 한국어에서 사용할 수 있도록 토크나이저와 SBERT를 수정하였습니다.

  • Paper : https://arxiv.org/abs/2004.03974
  • 토크나이저로는 형태소 분석기 Mecab을 사용.
  • BERT로는 다국어 SBERT인 'sentence-transformers/xlm-r-100langs-bert-base-nli-stsb-mean-tokens'를 사용.
  • 토픽의 수는 임의로 50으로 결정.
  • 별도 불용어 제거 등의 추가 전처리는 진행하지 않았음. (진행할 경우 더 좋은 결과를 얻을 수 있을 것으로 기대.)
  • 실험을 위해 Vocab size는 3,000을 사용. (단, 원본 Repo에 따르면 영어의 Vocab size는 2,000 단어 이하를 권장.)

시각화 결과

topic model

High-level sketch of CombinedTM

  • CombinedTM은 Bag of Words 문서 벡터와 SBERT로부터 얻은 Contextualized Embedding을 concat하여 사용하는 모델입니다.

image

참고) 유사 BERT 기반 한국어 토픽 모델

  • BERT 기반의 한국어 토픽 모델을 찾으신다면 아래의 모델도 참고하시기 바랍니다.
  • KoBERTopic

bert-topic-models's People

Contributors

ukairia777 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.