Здравствуйте! пытаюсь обучить свою ocr для русских номеров, используя файл ocr.py<

Ошибка во время обучения своей ocr about nomeroff-net HOT 16 CLOSED

ria-com commented on July 19, 2024

Ошибка во время обучения своей ocr

from nomeroff-net.

Comments (16)

dimabendera commented on July 19, 2024

Когда вы используете только наш датасет у вас тоже возникает такая ошибка?
Можете приласть полный код возникающей ошибки?
С какой версией python вы работаете?

from nomeroff-net.

kekonaut commented on July 19, 2024

Когда использую только ваш датасет, то ошибки не возникает. Подразумеваю, что она возможна из-за случайного попадания символов кириллицы

from nomeroff-net.

kekonaut commented on July 19, 2024

Ошибка возникает при добавлении доп.json файлов, размеченных при помощи админки латинскими символами ( проверено)

from nomeroff-net.

kekonaut commented on July 19, 2024

2019-11-22 21:47:57.919366: I tensorflow/core/platform/cpu_feature_guard.cc:142] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
Using TensorFlow backend.
WARNING: Logging before flag parsing goes to stderr.
W1122 21:47:58.317430 4587320768 deprecation_wrapper.py:119] From /Users/name/Downloads/nomeroff-net-master/NomeroffNet/Detector.py:14: The name tf.ConfigProto is deprecated. Please use tf.compat.v1.ConfigProto instead.

W1122 21:47:58.318856 4587320768 deprecation_wrapper.py:119] From /Users/name/Downloads/nomeroff-net-master/NomeroffNet/Detector.py:16: The name tf.Session is deprecated. Please use tf.compat.v1.Session instead.

GET ALPHABET
Max plate length in "val": 9
Traceback (most recent call last):
File "/Users/name/Downloads/nomeroff-net-master/train/py/ocr.py", line 31, in
model = ocrTextDetector.prepare(PATH_TO_DATASET, aug_count=0)
File "/Users/name/Downloads/nomeroff-net-master/NomeroffNet/Base/OCR.py", line 222, in prepare
self.letters, max_plate_length = self.get_alphabet(train_path, test_path, val_path, verbose=verbose)
File "/Users/name/Downloads/nomeroff-net-master/NomeroffNet/Base/OCR.py", line 82, in get_alphabet
c_train, max_plate_length_train = self.get_counter(train_path)
File "/Users/name/Downloads/nomeroff-net-master/NomeroffNet/Base/OCR.py", line 72, in get_counter
description = json.load(open(json_filepath, 'r'))['description']
File "/usr/local/Cellar/python/3.7.4_1/Frameworks/Python.framework/Versions/3.7/lib/python3.7/json/init.py", line 293, in load
return loads(fp.read(),
File "/usr/local/Cellar/python/3.7.4_1/Frameworks/Python.framework/Versions/3.7/lib/python3.7/codecs.py", line 322, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 10: invalid start byte

from nomeroff-net.

ApelSYN commented on July 19, 2024

Ищите проблему в ваших JSON-файлах, сначала разберитесь во всех ли файлах проблемы -- добавте 1 пример из ваших данных к нашему датасету и выясните не возникает ли ошибка. Если да то пришлите нам этот пример мы выясним что с ним не так. Если проблема не будет возникать, значит ищите примеры где воспроизводится проблема и попробуйте сами понять где там ошибка, если не получится, можете выслать нам -- мы подскажем.

from nomeroff-net.

kekonaut commented on July 19, 2024

Да, я проверила , добавив разные примеры. Ошибка все равно возникает именно на моих файлах. json файл пришлось перевести в txt формат, чтобы приложить к комментарию. Спасибо!

201908241001114800.txt

from nomeroff-net.

ApelSYN commented on July 19, 2024

Я добавил этот пример в ru датасет у меня все работает. С json-файлом проблем не вижу, а вот с картинкой есть проблема. Номер должен быть вырезан так как его находит наша модель (обычно по границам номера). На таких примерах модель ничему не обучится.
Посмотрите на примеры из нашего датасета.
Если хотите использовать информацию с вашего датасета, сначала повырезайте зоны с номерами а потом только размечайте с помощью адмики.

from nomeroff-net.

kekonaut commented on July 19, 2024

Спасибо!

from nomeroff-net.

kekonaut commented on July 19, 2024

Это достаточно странно, но ошибка появляется даже при обучении на вашем датасете( запустила повторно)....
Traceback (most recent call last):
File "/Users/name/Downloads/nomeroff-net-master/train/py/ocr.py", line 31, in
model = ocrTextDetector.prepare(PATH_TO_DATASET, aug_count=0)
File "/Users/name/Downloads/nomeroff-net-master/NomeroffNet/Base/OCR.py", line 222, in prepare
self.letters, max_plate_length = self.get_alphabet(train_path, test_path, val_path, verbose=verbose)
File "/Users/name/Downloads/nomeroff-net-master/NomeroffNet/Base/OCR.py", line 82, in get_alphabet
c_train, max_plate_length_train = self.get_counter(train_path)
File "/Users/name/Downloads/nomeroff-net-master/NomeroffNet/Base/OCR.py", line 72, in get_counter
description = json.load(open(json_filepath, 'r'))['description']
File "/usr/local/Cellar/python/3.7.4_1/Frameworks/Python.framework/Versions/3.7/lib/python3.7/json/init.py", line 293, in load
return loads(fp.read(),
File "/usr/local/Cellar/python/3.7.4_1/Frameworks/Python.framework/Versions/3.7/lib/python3.7/codecs.py", line 322, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x98 in position 10: invalid start byte

from nomeroff-net.

ApelSYN commented on July 19, 2024

Ошибка говорит о проблеме с кодировкой "utf-8".
Такого рода проблемы могут возникать при редактировании тектов и сохранении их в другой кодировке, например cp1251, которую часто используют текстовые редакторы под Windows.
Возможно вы редактировали те файлы где возникает проблема или есть какая то проблема с установленым в python модулем, который отвечает за это. Также убедитесь, что вы запускаете именно 3-й python.

from nomeroff-net.

kekonaut commented on July 19, 2024

Спасибо!

from nomeroff-net.

GalymzhanAbdimanap commented on July 19, 2024

Добрый день. У меня вышла ошибка во время обучения своего датасета процесс DATA PREPARE "Letters in train, val and test do not match" из за чего может быть эта ошибка? заранее спасибо

from nomeroff-net.

GalymzhanAbdimanap commented on July 19, 2024

Возможно ли что в датасете существуют и кириллица и латиница?

from nomeroff-net.

ApelSYN commented on July 19, 2024

С точки зрения модели OCR нету никакой разницы, возможно есть какие то другие проблемы, мы не тестировали.

from nomeroff-net.

ApelSYN commented on July 19, 2024

"Letters in train, val and test do not match" из за чего может быть эта ошибка?

Ошибка в том что в train, val and test у вас не совпадает набор используемых символов в текстах, как правило в трейне используется букв больше чем в val и test, доработайте свой датасет.

from nomeroff-net.

GalymzhanAbdimanap commented on July 19, 2024

Спасибо за ответ. Я правильно предположил, во время разметки были случайно допущены символы кириллицы. И из за этого не совпадало символы из train и val.

from nomeroff-net.

Ошибка во время обучения своей ocr about nomeroff-net HOT 16 CLOSED

Comments (16)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent