Безопасность цифровых технологий

БЕЗОПАСНОСТЬ ЦИФРОВЫХ ТЕХНОЛОГИЙ

БЕЗОПАСНОСТЬ
ЦИФРОВЫХ ТЕХНОЛОГИЙ

English | Русский

Последний выпуск
№2(2025) Апрель - Июнь 2025

Обработка сканированного текста

Выпуск № 3-4 (93) июль - декабрь 2018
Авторы:

Миловская Юлия Владимировна ,
DOI: http://dx.doi.org/10.17212/2307-6879-2018-3-4-91-100
Аннотация

В статье дается обзор методов и алгоритмов обработки сканированного текста на примере одной из самых популярных программ оптического распознавания символов ABBYY FineReader. Распознавание – процедура получения текста с картинки, которая после сканирования появляется в одном из форматов: BMP, JPG, PNG, GIF (могут быть и другие). Другими словами, это процесс перевода графического изображения символов (букв) в компьютерные текстовые символы. Сделать это можно, имея качественную цифровую копию оригинального текста и набор современных компьютерных программ для распознавания текста. Для корректного распознавания в первую очередь проводится анализ текста (сверхувниз, снизувверх, алгоритм MDA, сочетающий в себе первые два метода). Фрагмент изображения, согласно принципу целостности, будет интерпретирован как некий объект (символ), только если на нем присутствуют все структурные элементы с соответствующими взаимосвязями. При этом система выдвигает ряд гипотез относительно того, на что похож обнаруженный объект с помощью специальных механизмов распознавания, которые называются классификаторами. После обнаружения всех фрагментов и выдвижения гипотез объекты целенаправленно проверяются с использованием принципа адаптивности, подразумевающего наличие накопленных ранее сведений о возможных начертаниях символа в распознаваемом документе. Сложность возникает с документами, содержащими в себе рисунки, таблицы, колонтитулы. Упростить работу с данными структурами позволяет бинаризация. В качестве примера приведен алгоритм Брэдли и его реализация.


Ключевые слова: сканирование, распознавание, анализ изображения, алгоритм Брэдли, бинаризация, классификаторы, гипотезы, цифровое изображение, целостность, целенаправленность, адаптивность, фоновые текстуры
Миловская Юлия Владимировна
630073, РФ, г. Новосибирск, пр. Карла Маркса, 20, Новосибирский государственный технический университет, студентка факультета автоматики и вычислительной техники. E-mail:
milovskaya.1999@yandex.ru
Orcid: 0000-0002-9696-0203

Список литературы

1. Bradley D., Roth G. Adaptive thresholding using the integral image [Electronic resource] // Journal of Graphics Tools. – 2007.– Vol. 12 (2).–P. 13–21. – URL: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.420.7883 (accessed: 15.03.2019).



2. Llammt А. Бинаризация изображений: алгоритм Брэдли [Электронный ресурс]. – URL: https://habr.com/post/278435/ (дата обращения: 15.03.2019).



3. Мозговой А.А. Проблемы извлечения рукописных слов из сканированного изображения [Электронный ресурс] // Моделирование, оптимизация и информационные технологии. – 2013. – № 1. – URL:http://moit.vivt.ru/wp-content/uploads/2013/04/mozgovoy_1_13_1.pdf (дата обращения: 15.03.2019).



4. Гонсалес Р., Вудс Р. Цифровая обработка изображений. – М.: Техносфера, 2005. – 1072 с.



5. Программное обеспечение системы технического зрения. Бинаризация полутоновых изображений /Д.Е. Охоцимский, И.М. Бродская, С.С. Камынин, Е.И. Кугушев. – М.: ИПМ, 1987. – 25 с.



6. Штарьков Ю.М. Универсальное кодирование. Теория и алгоритмы. – Москва: Физматлит, 2013. – 279 с. – ISBN 978-5-9221-1517-9.



7. Недбайлов А.А.Сканирование и распознавание текста: учебное пособие для студентов вузов региона. – Владивосток: Дальневост. гос. техн. ун-т, 2001. – 61 с. – ISBN 5-88871-181-0.



8. Жадаев А.Г.Сканирование и распознавание текстов: самоучитель по работе с ABBYY® FineReader 10.– М.: ДМК, 2010. – 247 с. – ISBN 978-5-94074-595-2.



9. Полилова Т.А.Технологии сканирования изображений: учебно-методическое пособие /Московский ин-т открытого образования. – М.: МИОО, 2004. – 32 с. – ISBN 5-94898-030-8.



10. Трушин Н.Г.Исследование передачи изображений при сканировании и получении копий фотоснимков: дис. ... канд.техн. наук: 02.00.04. – Кемерово, 2006. – 95 с.



11. Горский Н.Д.,Анисимов В., Горская Л.Распознавание рукописного текста: от теории к практике. – СПб.: Политехника, 1997. – 126 с. ISBN 5-7325-0450-8.



12. Литвинюк С.Б.Разработка и исследование методов повышения достоверности информации в системах, использующих технологию оптического распознавания символов: дис. ... канд.техн. наук: 05.25.05. – М., 1999. – 161 с.

Просмотров аннотации: 1586
Скачиваний полного текста: 981
Просмотров интерактивной версии: 0
Для цитирования:

Миловская Ю.В. Обработка сканированного текста // Сборник научных трудов НГТУ. – 2018. – № 3–4 (93). – С. 91–100. – DOI: 10.17212/2307-6879-2018-3-4-91-100.

 

 

For citation:

Milovskaya Yu.V. Obrabotka skanirovannogo teksta [Processing scanned text].Sbornik nauchnykh trudov Novosibirskogo gosudarstvennogo tekhnicheskogo universitetaTransaction of scientific papers of the Novosibirsk state technical university, 2018, no. 3–4 (93), pp. 91–100. DOI: 10.17212/2307-6879-2018-3-4-91-100.