The automatic_speech_recognition from undertheseanlp

output folder không đầy đủ các file khi chạy train.py

cụ thể., trong output folder chỉ bao gôm "am","conf","graph", REACME.txt.
không bao gồm "ivector". hơn nữa trong "conf" cũng chỉ có mcff.conf, không có model.conf

Không chạy được file train.py

cho em hỏi lỗi như này thì khắc phục làm sao vậy ạ ! em có tìm kiếm trên google nhưng không tìm thấy cách để khắc phục lỗi này ! xin giúp đỡ cho em !

Traceback (most recent call last):
File "train.py", line 1, in
from egs.vivos.extension.model import KaldiSpeechRecognition
ModuleNotFoundError: No module named 'egs'

Mình đang cần một ứng dụng chạy offline trên môi trường Windows để giải quyết vấn đề Việt Speech to Text. Các bạn có thể tư vấn cụ thể làm như thế nào, step 2 step ... (mã nguồn, cách training hoặc bằng cách nào đó thiết lập một hệ thống chạy độc lập hoặc trên trên môi trường mạngLAN cũng được)
Dùng không cần Internet mà giải quyết được.
Vì trước tới giờ mình toàn dùng Google Docs để chuyển giọng đọc thành text..hihi.

Tạo file model.conf

Em đang gặp vấn đề cấu trúc model (sắp xếp các tệp từ kaldi_folder/egs/uts_{tmp_number}), Em không biết làm sao để tạo file model.conf cho đúng với dự án của mình.
Anh, chị có thể hỗ trợ em được không? Em cảm ơn ạ

WER quá cao

WER là tỉ lệ lỗi từ. Trong này đề cập ở khoảng 70 80% liệu có phải quá cao không

Thêm các step trong training

tri2b
tri2b_mmi
tri2b_bmmi
tri2b_mpe
Tham khảo: https://github.com/kaldi-asr/kaldi/blob/master/egs/farsdat/s5/run.sh

Output folder

Anh ơi cho em hỏi, nếu không có file ivector thì có thể tạo model cho dự án android demo được không anh, em đã train thành công nhưng khi bỏ model sau khi train xong vào dự án android thì bị lỗi "Failed to unpack the model Failed to create a model". Có phải là do thiếu file ivector? Giúp em với ạ

Giúp đỡ: Mình thấy bạn có build thành pack của vosk

Xin chào team,
Mình thấy bạn có build 1 gói cho bên vosk, mong bạn hướng dẫn mình sau khi train.py xong thì build thành pack như vậy.
Cám ơn team.

Khảo sát tập dữ liệu

@jackNhat đọc các bài báo về nhận dạng và tổng hợp tiếng nói. Xem dữ liệu trong bài toán này thường được EDA như thế nào?

Danh sách các báo cáo khoa học đề xuất

Do VLSP'18, https://drive.google.com/file/d/1buzfM07HDoyFZwjWVPeGm5GkKEmpOySn/view
Nguyen VLSP'18, https://drive.google.com/file/d/1Nhb8rYmqUK-d8Q-H9lvAOrzO8-fQjP94/view

Các số liệu thống kê:

Số lượng câu
Tổng số lượng token, phân bố số lượng token trong mỗi câu
Phân bố duration trong các file âm thanh

Thêm hướng dẫn sử dụng

Dự án hiện tại còn thiếu hướng dẫn sử dụng để cho người mới bắt đầu

Yêu cầu về các package để cài đặt môi trường

Anh ơi, em chưa thấy requirements để cài đặt các package cho việc huấn luyện. Anh có thể cập nhật được không ạ? em cảm ơn

Gặp lỗi khi training

Xin phép anh em cho mình hỏi 1 câu.
Khi mình train gặp lỗi này, mình đã làm theo pipeline hướng dẫn tuy nhiên vẫn cứ gặp nó.
Anh em có thể chỉ cho mình cách fix đc ko ạ?
Cảm ơn rất nhiều

Tôi đang gặp lỗi này: data/lang/oov.int: No such file or directory

tôi nên tải dữ liệu vivos ở đâu để có đầy đủ các file khi chạy file train.py. Tôi đang gặp lỗi này: data/lang/oov.int: No such file or directory

GIÚP ĐỠ CÁCH CHẠY FILE "train.py"

không tìm thấy tệp prompts.txt

mình gặp lỗi này: File "preprocess.py", line 43, in create_train_text
content = open("raw/train/prompts.txt").read()
IOError: [Errno 2] No such file or directory: 'raw/train/prompts.txt
mình đã cố tìm file prompts.txt trong project của bạn mà không tìm thấy. Bạn có thể giải thích lỗi này giúp mình được không

Lỗi không tìm thấy file

Chào các bạn, mình bị lỗi này có ai biết không giúp mình với,mình cảm ơn rất nhiều

Sau khi build xong mình chạy predict thì bị lỗi
Can't open transcriptions/one-best.tra: No such file or directory at /root/kaldi -trunk/egs/uts_601/utils/int2sym.pl line 57.
Câu lệnh predict của mình là
python /data/automatic_speech_recognition-master/egs/vivos/predict.py --wav /root/vivos/train/waves/VIVOSSPK01/VIVOSSPK01_R001.wav --kaldi_folder ~/kaldi-trunk --model_path ~/kaldi-trunk/egs/uts_601/exp/tri3a --utils_path /root/kaldi-trunk/egs/uts_601/utils

Mình có làm sai gì không, cảm ơn đã đọc và hỗ trợ nhiều

Song song hóa quá trình decode

Quá trình decode đang gặp vấn đề là chỉ dùng một luồng $nj=1, do đó thời gian rất lâu, cần tìm hiểu cách để song song hóa quá trình decode

echo
echo "===== MONO DECODING ====="
echo

START=$(date +%s);
utils/mkgraph.sh --mono data/lang exp/mono exp/mono/graph || exit 1
steps/decode.sh --config conf/decode.config --nj 1 --cmd "$decode_cmd" \
  exp/mono/graph data/test exp/mono/decode
END=$(date +%s);
MONO_DECODING_TIME=$((END - START))

https://github.com/undertheseanlp/automatic_speech_recognition/blob/master/egs/vivos/extension/run_lda_mllt.sh#L113

Hỏi về hướng dẫn trước khi chạy train.py

Mình đọc trong hướng dẫn thấy nói, là "set đường dẫn tới kaldi_folder trước khi run" vậy cho mình hỏi kaldi_folder nằm ở đâu vậy và còn "N_TRAIN và N_TEST trong init của KaldiSpeechRecognition" nằm ở đâu. Cám ơn bạn đã đọc và trả lời

Thêm script phân tích tập dữ liệu âm thanh

1 script trong thư mục util/eda_vlsp2018.py để phân tích dữ liệu trong tập vlsp2018

Thắc mắc quy trình chạy

Chào undertheseanlp

cho mình hỏi về quy trình chạy project này ạ:

preprocess.py
egs/train.py
Sau khi train xong: mình có chạy 2 file là predict.py và test_model.py
File predict mình thấy nó chạy ra result nhưng WER khá cao
File test_model.py thì mình chạy như thế nào đi nữa thì cái output transcript thì luôn là " "

Đây là command của mình:

python3 train.py --kaldi_folder {path}/kaldi-trunk/ --corpus_folder {path}/automatic_speech_recognition/data/vivos/corpus --export_path {path}/automatic_speech_recognition/egs/vivos/model_export/

python3 predict.py --wav {path}/automatic_speech_recognition/egs/vivos/test/VIVOSDEV01_R043.wav --kaldi_folder {path}/kaldi-trunk/ --model_path /home/duong/Python/kaldi-trunk/egs/uts_795/exp/tri2a/ --utils_path {path}/kaldi-trunk/egs/uts_795/utils/

python3 test_model.py

Mình xin cảm ơn ạ

output(số đầu ra) của mạng

Chào ad. e đang tìm hiểu về asr. có một vấn đề là việc map các kí tự trong tiếng việt để encode sang int array cho vào train model. e xem qua thì thấy code sử dụng map từ word2phone mà e chưa rõ lắm là đang sử dụng out là word hay char(90 kí tự trong TV) hay phone(âm vị hay gì đó..) để encode text và sử dụng cho decode khi predict. và e muốn áp dụng cho CTC trong tensorflow, vì vậy muốn hiểu rõ về số output của mạng đối với tiếng việt
Em cảm ơn!

Mô hình có sẵn của ASR

Anh ơi, em thấy có mục Sử dụng mô hình đã huấn luyện nhưng chưa thấy hướng dẫn cho phần này. Em có thể lấy mô hình đã huấn luyện như thế nào ạ?

Tìm hiểu về đặc trưng LDA

Tìm hiểu về đặc trưng LDA trong việc bài toán nhận dạng tiếng nói

Tham khảo các tài liệu:

can you show me how to use this?

no instruction -.-

Cập nhật kết quả thử nghiệm đối với tập test VLSP 2018

@pubbus cập nhật kết quả thử nghiệm đối với tập test VLSP 2018 trong mục "Kết quả thử nghiệm" nhé

Thay đổi cấu trúc thư mục

Thêm script train.py để train và evaluate
Thêm script predict.py để predict sử dụng mô hình đã huấn luyện

Cập nhật báo cáo kỹ thuật

Viết báo cáo kỹ thuật cho hệ thống

Ngôn ngữ: Tiếng Việt

Nội dung:

Lời mở đầu
Giới thiệu
Mô tả hệ thống
Đánh giá
- Tập dữ liệu
- Kết quả
Kết luận

hướng dẫn sử dụng trên window

Mình muốn hỏi là repo này có sử dụng được trên Window không nhỉ? và nếu có thì các cú pháp cài đặt thế nào vì các command line kia mình gõ thì không làm được trên win10.

Mình cảm ơn

undertheseanlp / automatic_speech_recognition Goto Github PK

automatic_speech_recognition's People

Contributors

Stargazers

Watchers

Forkers

automatic_speech_recognition's Issues

cho mình hỏi về quy trình chạy project này ạ:

Recommend Projects

Recommend Topics

Recommend Org