Энди Спенсер - Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”
- Название:Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:неизвестен
- ISBN:нет данных
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Энди Спенсер - Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” краткое содержание
Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Тем не менее, использование многобайтового кодирования позволяет выйти за рамки 256-символьного лимита, установленного восьми-битовым кодированием. Шестнадцати-битовое кодирование позволяет кодировать до 65 536 символов, хотя версия 3.0 станадарта Unicode рассчитана на 49 194 символа [9]. Следует заметить, что одной из целей, заявленных Консорциумом Unicode является “устранение дублирования посредством объединения символов в рамках одного шрифта по языкам и придания единого кодового значения символам, идентичным по форме” [6]. Ключевым выражением в этом заявлении является “в рамках одного шрифта”. Символы, идентичные по форме, но категоризированные как принадлежащие разным шрифтам, рассматриваются как совершенно разные единицы с определенными шестнадцатизначными кодами Unicode. Таким образом, те символы Unicode, которые визуально похожи или идентичны, в различных шрифтах рассматриваются как совершенно разные символы Unicode. Например, в латинском алфавите заглавная буква “X” имеет шестнадцатизначный код Unicode U+0058, в греческом алфавите заглавная буква хи “X” имеет значение U+03A7, и в кириллице заглавная буква “X” имеет значение U+0425.
В то время как определение идентичных или похожих графических изображений символов в соответствующие наборы шрифтов имеет свои преимущества и в некоторых ситуациях имеет абстрактное логическое обоснование (например, латинское “Н” и кириллическое “Н” имеют абсолютно разную фонетическую нагрузку), на практике это негативно влияет на точность распознавания символов программным продуктом OCR, что в свою очередь снижает способность поисковых систем находить отдельные текстовые фрагменты в оцифрованных текстовых документах, которые прошли через процесс оптического распознавания с применением OCR. В тексте на нескольких языках каким является “Летопись журнальных статей”, если OCR запрограмированно на распознавание нескольких языков, существует реальная опасность того, что для читающего человека слово зрительно предстает правильно написанным, однако отдельные символы могут быть неверно распознаны программой OCR. Например, “H” латинского алфавита может быть заменено на “Н” из кириллицы. В зависимости от типа и размера печатного шрифта это различие может быть незаметно взгляду читающего, однако компьютерная поисковая система определенно даст сбой при поиске текста, поскольку она будет искать символ U+041D, в то время как фактически текст содержит символ U+0048.
Данная проблема предстает с особой очевидностью при использовании заглавных букв, где в частности (в зависимости от выбора типографских шрифтов) может не быть разницы в визуальном изображении греческой буквы “альфа”, кириллической “А” и латинской “А”. В отношении строчных букв, греческие буквы существенно отличаются по форме по сравнению с латинскими и кириллическими. Значение данной проблемы становится очевидным при принятии во внимание количества похожих символов в латинском, греческом и кириллическом алфавитах, учитывая что все три набора шрифтов имеют общее происхождение. Как и в случае заглавных букв, для строчных возможно более пятидесяти комбинаций ошибок, если в тексте используются все три алфавита. В более упрощенной ситуации, когда в тексте используются только кириллический и латинский шрифты, все же возможно большое количество ошибок. Оценить значение данной проблемы помогает Приложение, в котором представлены несколько примеров.
Наш опыт показывает, что большинство случаев ошибочного принятия символа из одного шрифта за символ другого программным продуктом OCR характерно для относительно изолированных символов, например, инициалов авторов, или изолированных символов римских цифр. Поскольку система OCR, которую мы используем, сопоставляет слова из текста с встроенными словарями, вероятность того, что она вставит букву из другого алфавита в середине слова, правильность которого была подтверждена одним из словарей, достаточно низка. Два фактора повлияли в сторону уменьшения неопределенности распознавания строчных букв при помощи OCR: прописные буквы как правило представлены в составе слов и эти слова сопоставляются со словарями, встроенными в программный продукт OCR; и меньшее количество идентичных (или похожих) строчных букв в указанных трех алфавитах.
К сожалению структура библиографических ссылок, составляющих “Летопись журнальных статей” соответствует стандартной русской библиографической практике, в соответствии с которой практически все имена представлены в формате “фамилия плюс инициалы”. В данной ситуации ошибки OCR наиболее вероятны: одиночные заглавные буквы без контекста, по которому OCR могла бы определить к какому алфавиту принадлежит наиболее похожая буква. То обстоятельство , что за инициалом следует точка, не меняет дела в плане выбора соответствующего алфавита, поскольку часто встречающиеся знаки пунктуации универсальны по всей системе Unicode. Точке (в конце предложения) соответствует символ Unicode U+002E вне зависимости от того, какой текст ее окружает - на русском, греческом или каком-либо другом языке, имеющем в своей основе латинский алфавит. Таким образом, наличие точки не добавляет информации в отношении того, к какому шрифту относится пунктуация.
Еще один распространенный источник ошибок, характерный для всех типов OCR, интерпретация отдельных дефектов и пятен на бумаге как знаков пунктуации или диакритики. Эта проблема особенно актуальна для “Летописи журнальных статей” при использовании греческого алфавита, поскольку внутри греческого алфавита в системе символов Unicode существуют некоторые буквы, представляющие собой производные от основного алфавита буквы с дополнительными tonos (U+0384) или dialytika (U+0308). Наш опыт показывает, что часто плохо пропечатанная или неразборчивая латинская заглавная I (U+0049) распознавалась системой OCR как заглавная греческая “Иота” c диалитикой (U+03AA) или заглавная греческая “Иота” c тонос (U+038A). Таким образом, в дополнение к ошибкам, допускаемым OCR при распознавании визуально идентичных символов, существует проблема производных символов, которая также ведет к снижению точности распознавания. Заглавная иота со связанными производными формами представляет собой большую проблему поскольку латинская заглавная “I” (U+0049), за которую ее чаще всего неправильно принимает OCR, обычно стоит в тексте обособленно, в особенности в составе римских чисел. Другие греческие буквы, имеющие производные формы, в частности “эпсилон” с tonos (U+0388) и “эта” с tonos (U+0389), и латинские и кириллические буквы, за которые их ошибочно принимают, как правило, встречаются внутри слов, так что их проверка по встроенным словарям OCR позволяет устранить большинство подобных ошибок. Тем не менее, эта проблема не сводится только к распознаванию, поскольку производные символы существуют во многих вариантах латинского шрифта, используемого в качестве основы французского, чешского и многих других алфавитов.
Читать дальшеИнтервал:
Закладка: