Джон Уолш - Создание инструмента научных исследований на основе XML: Проблемы и методология

Тут можно читать онлайн Джон Уолш - Создание инструмента научных исследований на основе XML: Проблемы и методология - бесплатно полную версию книги (целиком) без сокращений. Жанр: comp-programming. Здесь Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Читать книгу

Название:

Создание инструмента научных исследований на основе XML: Проблемы и методология
Автор:

Джон Уолш
Жанр:

comp-programming
Издательство:

неизвестно
Год:

неизвестен
ISBN:

нет данных
Рейтинг:

4/5. Голосов: 11
Избранное:

Добавить в избранное
Отзывы:

Читать комментарии
Ваша оценка:
80

1

2

3

4

5

Джон Уолш - Создание инструмента научных исследований на основе XML: Проблемы и методология краткое содержание

Создание инструмента научных исследований на основе XML: Проблемы и методология - описание и краткое содержание, автор Джон Уолш, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru

"В своем докладе я опишу процесс создания электронного исследовательского инструмента, имеющего в своей основе печатный библиографический указатель, который предназначен для использования в научных целях, а также проанализирую некоторые трудности, с которыми мы столкнулись в ходе реализации данного проекта, и расскажу об избранных нами вариантах решения возникших проблем."

Создание инструмента научных исследований на основе XML: Проблемы и методология - читать онлайн бесплатно полную версию (весь текст целиком)

Создание инструмента научных исследований на основе XML: Проблемы и методология - читать книгу онлайн бесплатно, автор Джон Уолш

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

Структура DTD Летописи повторяет структуру печатного варианта. В печатном варианте Летописи библиографические ссылки структирировны по более чем 300 предметным заголовкам. Предметные заголовки имеют трех-ступенную иерархию. Первый уровень включает 33 предметных заголовка, подразделяемых в свою очередь на подзагловки второго и третьего уровня. Заголовки первого уровня пронумерованы с использованием римских цифр; разделы второго уровня пронумеровны с использованием арабских цифр. Для третьего уровня подзаголовков были использованы строчные кириллические буквы. Ниже приведены некоторые примеры заголовков из иерархии:

I. Марксизм-ленинизм

1. Произведения основоположников марксизма-ленинизма.

2. Литература об основоположниках марксизма-ленинизма. Работы по марксизму-ленинизму.

XIII. Государство и право

1. Общие вопросы. Теория и история государства и права.

2. Государство и право СССР.

а. Общие вопросы. Советское строительство. Государственное и административное право.

б. Другие отрасли советского права.

в. Суд и прокуратура. Работа органов юстиции.

1.4. DTD «Летописи журнальных статей»

Ниже приводится DTD, которое мы используем для кодирования Летописи. Оно имеет элемент letopis, который вбирает в себя выпуски за несколько лет. В нем таже имеются контейнерные элементы для года и еженедельных выпусков. Мы использовали три элемента подразделов (div1, div2 и div3) для обозначения предметных подзаголовков внутри трехступенчатной предметной иерархии. Элемент cit заключает в себе одну библиографическую ссылку. Дополнительная информация об этих и других элементах и атрибутах содержится в комментариях к DTD приводимых ниже.

target IDREF #REQUIRED >

2. Процесс оцифровывания

Основные этапы процесса оцифровывания таковы:

Выпуски Летописи в печатном виде без переплета отосыляются фирме-подрядчику для перевода в электронный формат. Страницы Летописи сканируются и сохраняются с параметрами 600 точек на дюйм (dpi) в двухцветном режиме TIFF образов.

• По получении цифровых изображений страниц от подрядчика они подвергаются обработке системой Оптического Распознавания Символов (OCR) компании ABBYY( http://www.abbyy.com/). Программный продукт “Fine Reader” российской компании ABBYY, единственный из известных нам, способен распознавать русский (киррилический) текст. Тексты, распознанные при помощи процесса OCR, сохраняются как UTF-8 файлы Unicode.

• Файлы, содержащие выпуски Летописи, проходят через первоначальное ручное кодирование, включающее проставление символов элементов div1, div2 и div3 согласно подразделениям предметных заголовков. Необходмые атрибуты id каждого раздела на данном этапе игнорируются.

• Файлы, содержание выпуски Летописи, подвергаются заказчиком обработке программой Java, позволяюцей автоматизировать основной объем работы по кодированию текста. Программа Java, названная LMU от английского выражения “Letopis MarkUp” («Кодирование Летописи»), делает следующее:

1. Производит прекодировочную обработку по корректированию типичных ошибок OCR и форматирует текст с целью увеличения эффективности и надежности процесса кодирования.

2. Проставляет правильные значения id атрибутов (в соответствии с годом выпуска, номером выпуска и положением предметного заголовка в иерархии) во всех элементах div1, div2 и div3.

3. Заключает тысячи библиографических ссылок в символы элементов cit, проставляя автоматически правильные значения атрибутов cit/id.

4. Внутри каждого элемента cit проставляет символ года публикации “year”.

Программа кодирования Летописи, имеющая в своей основе Java, активно использует публичный источник gnu.regexp package ( http://www.cacas.org/~wes/java/) для отражения регулярных выражений.

• Далее файлы, содержащие выпуски Летописи, подвергаются заключительному ручному редактированию и проверке. На данном этапе исправляются ошибки, выявленные в результате проверки на соответствие требованиям XML, и прочие неточности.

3. Проблемы

3.1. Слишком большой объем данных, слишком мало времени

Одной из основных проблем, с которыми мы столкнулись в ходе реализации проекта, является попытка перевода в цифровую форму громадного объема данных. Наша цель, повторюсь, перевод в электронный формат и кодирование выпусков Летописи за период в двадцать лет. Этот объем соответствует 1040 еженедельным выпускам Летописи, с более чем 250000 страниц и более чем тремя миллионами отдельных библиографических ссылок. Создание цифровых изображений страниц с печатных оригиналов и последующая обработка при помощи OCR прошли относительно гладко и безболезненно в первый год работы по гранту (октябрь 1999 — сентябрь 2000). Трудоемкий процесс кодирования и корректирования текста гораздо болезненнее и поглощает много времени.

В основном кодирование и исправление ошибок могут производится с использованием программ, однако даже после этого остается большой объем работы, которая может быть сделана только вручную специально обученными людьми с хорошим знанием русского языка. Наш проект реализуется на базе университета Большой Десятки, имеющего сильную кафедру славянских исследований, много иностранных студентов, так что у нас нет недостатка в русско-говорящих работниках. Мы обучаем персонал производить ручную кодировку и корректирование текста. Будущее покажет, сможем ли мы обработать все двадцать лет Летописи за трехлетний период гранта. Мы итак были вынуждены идти на компромиссы с целью увеличения производительности.

3.1.1. Компромиссы DTD

Один из компромиссов, на которые мы были вынуждены пойти с целью увеличения производительности, было радикальное упрощение DTD, в особенности содержательной модели библиографической ссылки, заключемой в символы элемента cit (ссылка). Первоначально мы планировали использовать несколько других элементов внутри элемента cit. В частности элемент contributor с атрибутами type, обозначающими авторов, редакторов, иллюстраторов и т.д.; элемент title с атрибутами типа, обозначающими название статьи и журнала; элемент enumeration, в который предполагалось заключать год выпуска и номера страниц статьи в журнале; и элемент notes для прочей информации, содержащейся в библиографической ссылке. Ниже приводятся примеры вариантов кодирования одной и той же ссылки «до» и «после» - с использованием первоначального, более сложного варианта DTD, и нового, упрощенного.

«До» - первоначальный вариант DTD:

Жаров, А. [К выпуску изд-вом «Молодая гвардия» сборника «Воспоминания о В. И. Ленине»]. Новый мир, 1955, № 12, с. 232-233.

«После» - используемый в настоящее время, упрощенный вариант DTD:

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑