Джон Уолш - Создание инструмента научных исследований на основе XML: Проблемы и методология
- Название:Создание инструмента научных исследований на основе XML: Проблемы и методология
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:неизвестен
- ISBN:нет данных
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Джон Уолш - Создание инструмента научных исследований на основе XML: Проблемы и методология краткое содержание
Создание инструмента научных исследований на основе XML: Проблемы и методология - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Структура DTD Летописи повторяет структуру печатного варианта. В печатном варианте Летописи библиографические ссылки структирировны по более чем 300 предметным заголовкам. Предметные заголовки имеют трех-ступенную иерархию. Первый уровень включает 33 предметных заголовка, подразделяемых в свою очередь на подзагловки второго и третьего уровня. Заголовки первого уровня пронумерованы с использованием римских цифр; разделы второго уровня пронумеровны с использованием арабских цифр. Для третьего уровня подзаголовков были использованы строчные кириллические буквы. Ниже приведены некоторые примеры заголовков из иерархии:
I. Марксизм-ленинизм
1. Произведения основоположников марксизма-ленинизма.
2. Литература об основоположниках марксизма-ленинизма. Работы по марксизму-ленинизму.
XIII. Государство и право
1. Общие вопросы. Теория и история государства и права.
2. Государство и право СССР.
а. Общие вопросы. Советское строительство. Государственное и административное право.
б. Другие отрасли советского права.
в. Суд и прокуратура. Работа органов юстиции.
1.4. DTD «Летописи журнальных статей»
Ниже приводится DTD, которое мы используем для кодирования Летописи. Оно имеет элемент letopis, который вбирает в себя выпуски за несколько лет. В нем таже имеются контейнерные элементы для года и еженедельных выпусков. Мы использовали три элемента подразделов (div1, div2 и div3) для обозначения предметных подзаголовков внутри трехступенчатной предметной иерархии. Элемент cit заключает в себе одну библиографическую ссылку. Дополнительная информация об этих и других элементах и атрибутах содержится в комментариях к DTD приводимых ниже.
target IDREF #REQUIRED >
2. Процесс оцифровывания
Основные этапы процесса оцифровывания таковы:
Выпуски Летописи в печатном виде без переплета отосыляются фирме-подрядчику для перевода в электронный формат. Страницы Летописи сканируются и сохраняются с параметрами 600 точек на дюйм (dpi) в двухцветном режиме TIFF образов.
• По получении цифровых изображений страниц от подрядчика они подвергаются обработке системой Оптического Распознавания Символов (OCR) компании ABBYY( http://www.abbyy.com/). Программный продукт “Fine Reader” российской компании ABBYY, единственный из известных нам, способен распознавать русский (киррилический) текст. Тексты, распознанные при помощи процесса OCR, сохраняются как UTF-8 файлы Unicode.
• Файлы, содержащие выпуски Летописи, проходят через первоначальное ручное кодирование, включающее проставление символов элементов div1, div2 и div3 согласно подразделениям предметных заголовков. Необходмые атрибуты id каждого раздела на данном этапе игнорируются.
• Файлы, содержание выпуски Летописи, подвергаются заказчиком обработке программой Java, позволяюцей автоматизировать основной объем работы по кодированию текста. Программа Java, названная LMU от английского выражения “Letopis MarkUp” («Кодирование Летописи»), делает следующее:
1. Производит прекодировочную обработку по корректированию типичных ошибок OCR и форматирует текст с целью увеличения эффективности и надежности процесса кодирования.
2. Проставляет правильные значения id атрибутов (в соответствии с годом выпуска, номером выпуска и положением предметного заголовка в иерархии) во всех элементах div1, div2 и div3.
3. Заключает тысячи библиографических ссылок в символы элементов cit, проставляя автоматически правильные значения атрибутов cit/id.
4. Внутри каждого элемента cit проставляет символ года публикации “year”.
Программа кодирования Летописи, имеющая в своей основе Java, активно использует публичный источник gnu.regexp package ( http://www.cacas.org/~wes/java/) для отражения регулярных выражений.
• Далее файлы, содержащие выпуски Летописи, подвергаются заключительному ручному редактированию и проверке. На данном этапе исправляются ошибки, выявленные в результате проверки на соответствие требованиям XML, и прочие неточности.
3. Проблемы
3.1. Слишком большой объем данных, слишком мало времени
Одной из основных проблем, с которыми мы столкнулись в ходе реализации проекта, является попытка перевода в цифровую форму громадного объема данных. Наша цель, повторюсь, перевод в электронный формат и кодирование выпусков Летописи за период в двадцать лет. Этот объем соответствует 1040 еженедельным выпускам Летописи, с более чем 250000 страниц и более чем тремя миллионами отдельных библиографических ссылок. Создание цифровых изображений страниц с печатных оригиналов и последующая обработка при помощи OCR прошли относительно гладко и безболезненно в первый год работы по гранту (октябрь 1999 — сентябрь 2000). Трудоемкий процесс кодирования и корректирования текста гораздо болезненнее и поглощает много времени.
В основном кодирование и исправление ошибок могут производится с использованием программ, однако даже после этого остается большой объем работы, которая может быть сделана только вручную специально обученными людьми с хорошим знанием русского языка. Наш проект реализуется на базе университета Большой Десятки, имеющего сильную кафедру славянских исследований, много иностранных студентов, так что у нас нет недостатка в русско-говорящих работниках. Мы обучаем персонал производить ручную кодировку и корректирование текста. Будущее покажет, сможем ли мы обработать все двадцать лет Летописи за трехлетний период гранта. Мы итак были вынуждены идти на компромиссы с целью увеличения производительности.
3.1.1. Компромиссы DTD
Один из компромиссов, на которые мы были вынуждены пойти с целью увеличения производительности, было радикальное упрощение DTD, в особенности содержательной модели библиографической ссылки, заключемой в символы элемента cit (ссылка). Первоначально мы планировали использовать несколько других элементов внутри элемента cit. В частности элемент contributor с атрибутами type, обозначающими авторов, редакторов, иллюстраторов и т.д.; элемент title с атрибутами типа, обозначающими название статьи и журнала; элемент enumeration, в который предполагалось заключать год выпуска и номера страниц статьи в журнале; и элемент notes для прочей информации, содержащейся в библиографической ссылке. Ниже приводятся примеры вариантов кодирования одной и той же ссылки «до» и «после» - с использованием первоначального, более сложного варианта DTD, и нового, упрощенного.
«До» - первоначальный вариант DTD:
Жаров, А. [К выпуску изд-вом «Молодая гвардия» сборника «Воспоминания о В. И. Ленине»]. Новый мир, 1955, № 12, с. 232-233.
«После» - используемый в настоящее время, упрощенный вариант DTD:
Читать дальшеИнтервал:
Закладка: