Coder Social home page Coder Social logo

ko_en_neural_machine_translation's Introduction

Neural Korean to English Machine Translater with Gluon

2018 마이크로소프트웨어 기사를 통해 오신분은 이곳을 참고하세요.

특징

요구사항

  • Python 3.5 이상
  • MXNet 1.0 이상
  • tqdm, konlpy, stemming, gensim

구성

  • 아키텍처

  • seq2seq

  • Attention

  • bi-directional GRU encoder

  • 영한 교차 임베딩 학습

TODO

  • Beam Search 구현

How to

  • 임베딩 학습
python main.py --embedding 
  • 번역 모형 학습
CUDA_VISIBLE_DEVICES='4,5,6,7' python main.py --train --gpu-count 4 --batch-size 100
  • 번역 모형 테스트
python main.py --test --init-model "models/trained_model.params" 

kor > 오바마는 대통령이다.
오바마는 대통령이다.
eng > obama is a presid .
kor > 좋은 아침.
좋은 아침.
eng > good morn
kor > 북한은 핵무기를 가지고 있다.
북한은 핵무기를 가지고 있다.
eng > north korea has a nuclear weapon .
kor >
  • models/trained_model.params
    1. rmsprop(batch size : 100, lr : 0.01) : 7 epocs
    2. sgd (batch size : 100, lr : 0.01) : 33 epocs

ko_en_neural_machine_translation's People

Contributors

gogamza avatar haven-jeon avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

ko_en_neural_machine_translation's Issues

train 데이터에서 한영 문장이 매치되지 않습니다.

코드 공유 감사드립니다 👍

train 데이터에서 한영 데이터에서 같은 라인에 있는 문장들이 서로 잘 매치되는지 훑어보다가, 데이터에서 특정 라인부터 마지막 라인까지 문장이 매치되지 않는걸 알게됐습니다.

96212~96215 라인 문장들을 비교한 예시입니다.

korean-english-park.train.ko

96212. 사랑하는 앤드류에게, 내가 너에게 이미 말해 주었던 몇 가지 것들을 기억해 주길 바란다.
96213. 그녀는 이미 훌륭한 화가이다. 그리고 그녀는 항상 열심히 한다.
96214. 그래서 이 아이들이 할 수 있는 동안 재미를 갖도록 하십시오.
96215. 영화 '레인맨 과 '컬러 오브 머니'에서 그는 유명한 배우들과 함께 일했다.

korean-english-park.train.en

96212. The school principal visited several classes and was angry at the noise being made by one class
96213. in particular.
96214. I saw an accident this morning.
96215. He said to them.

수동으로 확인해보니 4, 6, 8, 9 만번째 라인 문장은 일치합니다.
제일 뒷쪽에만 오류가 있는 것 같습니다.

훈련 모델 파라미터

안녕하세요. 훈련 모델 파라미터를 제공 받을 수 있을지 여쭤보고자 질문 남깁니다.

리눅스에서 CUDA OUT OF MEMORY 오류가 나서 훈련을 진행하지 못했습니다.

•models/trained_model.params 모델 파라미터를 어디서 다운로드 할 수 있을까요?

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.