Энди Спенсер - Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”

Тут можно читать онлайн Энди Спенсер - Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” - бесплатно полную версию книги (целиком) без сокращений. Жанр: comp-programming. Здесь Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Читать книгу

Название:

Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”
Автор:

Энди Спенсер
Жанр:

comp-programming
Издательство:

неизвестно
Год:

неизвестен
ISBN:

нет данных
Рейтинг:

4/5. Голосов: 11
Избранное:

Добавить в избранное
Отзывы:

Читать комментарии
Ваша оценка:
80

1

2

3

4

5

Энди Спенсер - Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” краткое содержание

Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” - описание и краткое содержание, автор Энди Спенсер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru

Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” - читать онлайн бесплатно полную версию (весь текст целиком)

Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” - читать книгу онлайн бесплатно, автор Энди Спенсер

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

В частном случае проекта “Летопись журнальных статей”, где основной объем текста представлен на кириллице, были предложены следующие возможные решения: удаление греческого языка из набора задаваемых параметров распознавания с последующей ручной корректировкой текста в тех местах, где встречается греческий; удаление из задаваемых параметров и греческого, и латинского, с последующей ручной корректировкой; и полное распознавание всех трех шрифтов и корректирование всех ошибок, возникающих в результате данного набора установок, на стадии ручной корректировки.

Было установлено, что в проекте “Летопись журнальных статей” количество фактически встречающихся в документе греческих символов значительно меньше, чем количество ошибочно введенных в текст греческих символов при обработке системой OCR. Таким образом, мы решили что в нашем конкретном случае общий результат в плане точности распознавания текста на выходе из системы OCR существенно улучшится если удалить греческий язык из системы требований для распознавания, и внести в текст отдельные встречающиеся греческие символы впоследствии вручную.

Далее, было выявлено, что количество неправильно распознанных производных латинских символов намного превосходит их реальное количество в тексте. Поэтому было решено ограничить распознавание латинских символов базовым набором без производных символов, также как и в случае с греческими символами, с последующим внесением производных латинских символов в текст на стадии ручного корректирования. Если предположить, что текст состоял бы из более или менее равноценно представленных фрагментов текста на разных языках, вполне возможно, что данное решение не было бы наилучшим.

Проект “Летопись журнальных статей” имел определенные преимущества, поскольку практически весь объем текста на кириллице был русским, и мы имели возможность задать конфигурацию системы OCR с целью распознавания только тех символов кириллицы, которые принадлежат к русскому языку. Это позволило исключить еще несколько символов, имеющих изображение, похожее на латинские буквы, например, J (U+0408) и S (U+0405), используемые в сербской разновидности кириллицы.

Для будущих проектов перевода в электронный формат с использованием нескольких наборов шрифтов важным этапом планирования будет правильное определение набора шрифтов, необходимых для включения в стадию OCR при реализации проекта. Чем меньше количество наборов шрифтов в задаваемых параметрах распознавания, тем меньше количество возможных комбинаций идентичных или похожих символов, которые OCR может распознать неправильно. По нашим оценкам наличие в “Летописи журнальных статей” шрифтов помимо русского алфавита, являющегося разновидностью кириллицы, и как следствие данной установки уменьшение точности OCR, втрое увеличивает количество времени, необходимое для корректирования текстов на выходе из системы OCR по сравнению с результатом, получаемым при указании в параметрах распознавания исключительно русского текста.

По мере развития проектов электронных библиотек от текстов с одним или максимум двумя языками в многоязыковом направлении вероятно расширение использования программного продукта Unicode для целей кодирования. В ближайшее время вероятно увеличение степени соответствия стандарту Unicode простых текстовых редакторов, редакторов XML и поисковых систем XML. Как следствие, выбор программного обеспечения для работы с текстами Unicode не будет требовать столь интенсивного тестирования. Тем не менее, Unicode по-прежнему представляет определенные проблемы для нынешнего поколения системы Оптического Распознавания Символов (OCR), которые не возникают при использовании традиционной восьми- битовой системы кодирования и, как следствие, строго ограниченных наборов шрифтов. Таким образом, использование Unicode в ситуациях, где достоинства данного продукта проявляются наиболее полно (многоязыковые тексты), одновременно порождает наибольшее количество проблем в плане точности распознавания. Вероятность подмены похожих символов, принадлежащих к разным наборам шрифтов, порождает возможные серьезные последствия в отношении точности OCR и в особенности точности и полноты наборов результатов, выдаваемых поисковыми системами. Использование Unicode при работе с некоторыми информационными ресурсами стало необходимостью в случае многоязыковых документов. Тем не менее, усложнение использования Uniсode в сочетании с описанными в данном докладе типами проблемных ситуаций следует принимать во внимание на стадиях планирования каждого проекта, который предполагает в будущем использование набора символов Unicode.

Источники:

[1] Адамс, Гленн. Введение в Unicode. Кембридж, Масс.: Институт передовых профессиональных исследований, 1994, стр. 5

[2] Адамс, Гленн. Введение в Unicode. Кембридж, Масс.: Институт передовых профессиональных исследований, 1994, стр. 25

[3] http://www.dlib.indiana.edu

[4] http://webapp1.dlib.indiana.edu/letopis/index.jsp?lang=ru

[5] http://www.fontlab.com/ta_tt_t1.htm#National Language Support & WGL4

[6] http://www.unicode.org/unicode/standard/principles.html

[7] http://www.w3c.org/International/O-charset-lang.html

[8] Родригес, Майкл. Кодирование символов в XML и Perl., стр. 1

[9] Стандарт Unicode: Версия 3.0. Чтение, Масс.: Эддисон-Весли, 2000. стр. 2

Цитата:

Spencer, George Andrew. Digitization, Coded Character Sets, and Optical Character Recognition for Multi-script Information Resources: The Case of the Letopis' Zhurnal'nykh Statei 5th European Conference on Research and Advanced Technology for Digital Libraries (September 2001).

Перевод:

Переведенный с Английского языка Natalia Rome-Lindval