Coder Social home page Coder Social logo

fingeredman / teanaps Goto Github PK

View Code? Open in Web Editor NEW
105.0 2.0 13.0 64 MB

자연어 처리와 텍스트 분석을 위한 오픈소스 파이썬 라이브러리 입니다.

License: Apache License 2.0

Python 43.69% Jupyter Notebook 56.31%
text-mining korean-nlp korean-text-processing nlp text-processing python data-mining python-package google-colabotory teanaps

teanaps's Introduction

TEANAPS: Text Analysis APIs

teanaps_logo_1600x400

TEANAPS는 자연어 처리(NLP)와 텍스트 분석을 위한 Python 라이브러리 입니다. 텍스트 분석을 위해서는 Python 프로그래밍 뿐만아니라 다양한 자연어 처리 및 머신러닝 라이브러리 사용법 까지 배워야합니다(e.g., KoNLPy, NLTK, Gensim). 하지만 학습해야하는 내용이 적지않고 난이도도 높아 Python 프로그래밍에 충분히 익숙하지 않으신 분들은 접근하기가 쉽지 않습니다.
TEANAPS는 자언어 처리와 텍스트 분석에 필요한 다양한 라이브러리를 하나의 인터페이스로 통합하고 Google Colabotory를 활용해 설치환경을 일원화하여, 텍스트 분석을 위한 사전 준비작업을 최소화하고 분석에 필요한 시간을 최소화 할 수 있도록 도와줍니다. 본 라이브러리를 활용하기 전 Python 기초문법과 텍스트 분석에 필요한 필수 사전지식을 먼저 학습하시기를 추천드리며, WIKI 문서를 참조하시어 TEANAPS를 활용해보시길 권장드립니다. (TEANAPS 소개자료)

  • 본 자료는 텍스트 분석을 활용한 연구 및 강의를 위한 목적으로 제작되었습니다.
  • 본 자료를 강의 또는 연구 목적으로 활용하고자 하시는 경우 반드시 사전에 아래 메일주소로 연락주세요.
  • 본 자료에 대한 상업적 활용과 허가되지 않은 배포를 금지합니다.
  • 강의, 저작권, 출판, 특허, 공동저자에 관련해서는 문의 바랍니다.
  • Contact : ADMIN([email protected])

Notice!

  • !안내! 최근 Google Colaboratory에서 제공하는 Python 버전이 3.10으로 업데이트됨에 따라, 일부 TEANAPS 라이브러리 기능이 Colab 환경에서 제한되고 있습니다. 빠른 시일 내에 업데이트를 통해 정상화하도록 하겠습니다. 급히 활용이 필요하신 분들은 우선 Docker 환경을 활용해주시기 바랍니다.
  • TEANAPS 라이브러리가 v0.9.700 버전으로 업데이트 되었습니다. 기존 설치하신 분들은 반드시 업데이트 후 사용 바랍니다.
  • Docker 가상환경을 활용해 내 PC에서도 간단하게 TEANAPS 라이브러리를 활용해볼 수 있습니다. Docker 설치 가이드를 확인해보세요.
  • TEANAPS WIKI가 업로드 되었습니다. TEANAPS 라이브러리에 대한 자세한 설명과 활용 가이드를 확인해보세요.
  • TEANAPS 라이브러리 사용법 및 샘플코드는 API Documentation을 참조해주시기 바랍니다.
  • TEANAPS Web Scrapper로 텍스트 데이터를 직접 수집하고 TEANAPS 라이브러리를 활용해 분석해보세요.
  • TEANAPS를 활용한 실무/연구 프로젝트 지원이 필요하신 분 또는 사례 공유가 가능하신 분의 연락을 기다립니다.
    (Contact : [email protected])
  • 본 자료는 국내 대학강의 및 학회, 세미나에 교육 및 실습자료로 활용되고 있습니다. (Use Case 살펴보기)

What can you do with TEANAPS?

what_can_you_do

#TEANAPS #티냅스 #티냅스_라고_불러주세요 #텍스트분석 #text_analysis #TA #텍스트마이닝 #text_mining #자연어처리 #nlp #텍스트전처리 #text_pre-processing #띄어쓰기_보정 #불용어 #stopwords #동의어 #synonym #치환사전 #replacement #언어식별 #language_detection #임베딩 #embedding #형태소분석 #pos_tagging #개체명인식 #named_entity #ner #구문분석 #syntax_analysis #TF-IDF #감성분석 #sentiment_analysis #긍부정 #긍부정_키워드 #클러스터링 #문서군집화 #text_clustering #문서분류 #text_classification #문서유사도 #text_similarity #네트워크분석 #network_analysis #네트워크중심성 #network_centrality #연관어분석 #co-word_analysis #키워드추출 #keyword_extraction #문서요약 #text_summarization #docker #jupyter_notebook


Why TEANAPS?

  • TEANAPS를 활용하면 분석코드를 최대 70% 까지 간소화할 수 있습니다. (분석코드 살펴보기)
  • TEANAPS는 최신 언어모델을 적용해 오픈소스 라이브러리 대비 높은 퍼포먼스를 제공합니다. (성능평가 결과 살펴보기)
  • TEANAPS는 분석결과를 효과적으로 표현하기 위한 다양한 시각화 를 제공합니다. (시각화 기능 살펴보기)
  • TEANAPSOPEN API를 통해 다양한 환경에서 텍스트 분석을 지원합니다.
  • TEANAPS는 텍스트 분석을 위한 WIKI 문서, 강의/실습 자료를 무료로 제공합니다.
  • TEANAPS는 다양한 도메인의 프로젝트/연구를 무료로 지원합니다.
    (Contact : [email protected])

teanaps's People

Contributors

fingeredman avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar

teanaps's Issues

draw_tfidf 결과 x축 문제

안녕하세요 패키지 잘 쓰고 있습니다.
draw_tfidf 함수 테스트 중 x축 label이 빈도수 내림차순기준으로 적혀있어야하는데, get_word_list() 결과 순서 기준으로 적힌것을 확인했습니다.

즉 아래 x축에는 tf, tfidf 빈도수 기준으로 상위 단어가 적혀있지 않고, get_word_list() 기준으로 적혀있었습니다.
draw_tfidf 함수 코드를 보니 get_word_list()가 x축 label로 쓰는걸로 되어있더군요.
한번 확인해주실 수 있겠습니까?
newplot

calculation_tfidf 함수는 tfidf_count=100, tfidf_state=True로 학습했으며

아래 리스트로 학습했습니다.(일부만 첨부)

['學/VERB 時/NOUN 習/VERB 亦/ADV 說/VERB 有/VERB 朋/NOUN 遠/VERB 方/NOUN 來/VERB 亦/ADV 樂/VERB 人/NOUN 知/VERB 慍/VERB 亦/ADV 君子/NOUN',
'為/VERB 人/NOUN 孝/VERB 弟/NOUN 好/VERB 犯/VERB 上/NOUN 鮮/VERB 好/VERB 犯/VERB 上/NOUN 好/VERB 作/VERB 亂/VERB 未/ADV 有/VERB 君子/NOUN 務/VERB 本/NOUN 本/NOUN 立/VERB 道/NOUN 生/NOUN 孝/VERB 弟/NOUN 為/VERB 仁/NOUN 本/NOUN',
'巧/VERB 言/NOUN 令/NOUN 色/NOUN 鮮/VERB 仁/NOUN',
'日/NOUN 省/VERB 身/NOUN 為/VERB 人/NOUN 謀/VERB 忠/VERB 朋/NOUN 友/NOUN 交/VERB 信/VERB 傳/NOUN 習/VERB',
'道/NOUN 乘/NOUN 國/NOUN 敬/VERB 事/NOUN 信/VERB 節/VERB 用/VERB 愛/VERB 人/NOUN 使/VERB 民/NOUN 以/VERB 時/NOUN',
'弟子/NOUN 入/VERB 則/ADV 孝/VERB 出/VERB 則/ADV 弟/NOUN 謹/VERB 信/VERB 汎/VERB 愛/VERB 眾/NOUN 親/VERB 仁/NOUN 行/VERB 有/VERB 餘/NOUN 力/NOUN 則/ADV 以/VERB 學/VERB 文/NOUN',
'賢/VERB 賢/VERB 易/VERB 色/NOUN 事/VERB 父/NOUN 母/NOUN 竭/VERB 力/NOUN 事/VERB 君/NOUN 致/VERB 身/NOUN 朋/NOUN 友/NOUN 交/ADV 言/VERB 有/VERB 信/NOUN 雖/ADV 曰/VERB 未/ADV 學/VERB 必/ADV 謂/VERB 學/VERB',
'君子/NOUN 重/VERB 則/ADV 威/VERB 學/NOUN 則/ADV 固/VERB 主/NOUN 忠/VERB 信/VERB 無/VERB 友/NOUN 如/VERB 過/NOUN 則/ADV 勿/ADV 憚/VERB 改/VERB',
'慎/VERB 終/VERB 追/VERB 遠/VERB 民/NOUN 德/NOUN 歸/VERB 厚/VERB',
'夫子/NOUN 至/VERB 邦/NOUN 必/ADV 聞/VERB 政/NOUN 求/VERB 抑/VERB 與/VERB',
'夫子/NOUN 溫/VERB 良/VERB 恭/VERB 儉/VERB 讓/VERB 以/VERB 得/VERB 夫子/NOUN 求/VERB 諸/NOUN 異/VERB 人/NOUN 求/VERB',
'父/NOUN 在/VERB 觀/VERB 志/NOUN 父/NOUN 沒/VERB 觀/VERB 行/NOUN 年/NOUN 無/VERB 改/VERB 父/NOUN 道/NOUN 謂/VERB 孝/NOUN',
'禮/NOUN 用/NOUN 和/VERB 為/VERB 貴/NOUN 先/NOUN 王/NOUN 道/NOUN 斯/ADV 為/VERB 美/NOUN 小/VERB 大/VERB 由/VERB 有/VERB 行/VERB 知/VERB 和/VERB 和/VERB 以/VERB 禮/NOUN 節/VERB 亦/ADV 行/VERB',
'信/PROPN 近/VERB 義/NOUN 言/NOUN 復/VERB 恭/VERB 近/VERB 禮/NOUN 遠/VERB 恥/VERB 辱/VERB 因/VERB 失/VERB 親/NOUN 亦/ADV 宗/VERB',
'君子/NOUN 食/NOUN 無/VERB 求/VERB 飽/VERB 居/VERB 無/VERB 求/VERB 安/VERB 敏/VERB 事/NOUN 慎/VERB 言/NOUN 就/VERB 有/VERB 道/NOUN 正/VERB 謂/VERB 好/VERB 學/NOUN',
'貧/VERB 無/VERB 諂/VERB 富/VERB 無/VERB 驕/VERB 如/VERB',
'可/VERB 未/ADV 若/VERB 貧/VERB 樂/VERB 富/VERB 好/VERB 禮/NOUN',
'詩/NOUN 云/VERB 如/VERB 切/VERB 如/VERB 磋/VERB 如/VERB 琢/VERB 如/VERB 磨/VERB 謂/VERB',
'賜/VERB 始/VERB 與/VERB 言/NOUN 詩/NOUN 告/VERB 往/VERB 知/VERB 來/VERB',
'患/VERB 人/NOUN 知/VERB 患/NOUN 知/VERB 人/NOUN',
'為/VERB 政/NOUN 以/VERB 德/NOUN 譬/VERB 如/VERB 北/NOUN 辰/NOUN 居/VERB 所/NOUN 眾/VERB 星/NOUN 共/VERB',
'詩/NOUN 言/NOUN 以/VERB 蔽/VERB 曰/VERB 思/VERB 無/VERB 邪/NOUN']

한자 인식 관련 질문 드립니다!!

안녕하세요 개발자님,
티냅스를 이용하여 공출현 빈도 분석을 진행하고자 하던 중, 의문이 생겨 질문 남깁니다.
다음 코랩에서,
https://colab.research.google.com/drive/1ID-RRJaPanTLDUR-6cZzdSB_d1rUn3Fu?usp=sharing

토크나이징된 맹자 전문을 리스트로 받고, 분석하고자 하는 단어들을 노드리스트로 받아
노드 리스트 단어들간의 공출현 빈도 분석을 진행하고자 합니다.

진행하는 과정에서 2.에서 투입한 노드 리스트가 여러 개임에도, 4.의 결과 와 같이 일부 키워드만
인식됩니다. 이에 대해 어떻게 하면 인식시킬 수 있을지 질문드립니다.

from teanaps.text_analysis import CoWordCalculator

co = CoWordCalculator()

tokenized_sentence_list = MZ_result[0]
node_list=['孟子', '見', '梁惠王', '王', '曰', '叟', '不', '遠', '千里']
#node_list=[ '殺', '王', '王者', '戰', '攻', '簒', '誅', '伐', '征', '奪', '殺', '戮', '罪','兵','刃','刺','弑','刑','罰','師','撻']

co.calculation_co_matrix(tokenized_sentence_list, node_list = node_list)

edge_list = co.get_edge_list()[:500]
edge_list
[(('孟子', '孟子'), 297), (('千里', '千里'), 12), (('梁惠王', '梁惠王'), 7)]

Colab에서 하던 작업을 Docker로 옮겨서 작업했더니 동시출현빈도 계산이 작동하지 않습니다

Colab 파이썬 버전업 이슈로 안내해주신 Docker로 데이터를 옮겨 작업하였습니다.

SNA가 목적으로 데이터셋 세팅까지는 무리없이 진행하였으나,
calculation_co_matrix 함수를 돌렸더니 오래 걸려야 할 함수가 1초만에 종료되고,

이후
edge_list = co.get_edge_list()[:20]
edge_list
의 결과가 []로 나타납니다.

해결할 방법에 대해 말씀주실 수 있을까요?

tokenized_sentence_list 값이 좀 크기는 하나,
오히려 로딩이 계속 되는 것이 아니라 연산이 바로 종료되는 상태라
수정 방향을 알고 싶습니다.

필요하시면 코드 및 데이터는 개별적으로 보내드릴 수 있도록 하겠습니다.
확인 부탁드립니다.

일반 리눅스 환경에서의 설치 문의

안녕하세요 지난번에 잘 수정해주셔서 연구에 큰 도움이 되고 있습니다.
정식으로 수업시간에 활용한다면 또 연락드리겠습니다.

제가 코랩이 아니라 일반 리눅스 서버환경에서 teanaps를 설치하려는데 mecab 설치하는 부분에서 에러가 갑니다.
content 폴더가 없다는 에러인데요(코랩에만 있는 폴더라 그런가봅니다.)

make: *** No targets specified and no makefile found. Stop. make: *** No rule to make target 'install'. Stop. Traceback (most recent call last): File "teanaps_setup.py", line 163, in <module> os.chdir('/content') FileNotFoundError: [Errno 2] No such file or directory: '/content'

설치 관련해서 /content 폴더가 아니라 다른 폴더(user 이름으로 된 루트 폴더?)로 바꾸면 해결이 가능할지요.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.