Надежда Поврозник - Исторические информационные системы: теория и практика [litres]
- Название:Исторические информационные системы: теория и практика [litres]
- Автор:
- Жанр:
- Издательство:Литагент Высшая школа экономики
- Год:2021
- Город:Москва
- ISBN:978-5-7598-2321-6
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Надежда Поврозник - Исторические информационные системы: теория и практика [litres] краткое содержание
Книга содержит результаты исследования теоретических и прикладных проблем создания и внедрения историко-ориентированных информационных систем. Это первое комплексное исследование по данной тематике. Одни проблемы в книге рассматриваются впервые, другие – хотя и находили ранее отражение в литературе, но не изучались специально.
Издание адресовано историкам, специалистам в области цифровой истории и цифровых гуманитарных наук, а также разработчикам цифровых ресурсов, содержащих исторический контент или ориентированных на использование в исторических исследованиях и образовании.
В формате PDF A4 сохранен издательский макет.
Исторические информационные системы: теория и практика [litres] - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Наборы метаданных источников в историко-ориентированных информационных системах могут быть краткими или расширенными. Детализированная разметка метаданных предоставляет, соответственно, более широкие возможности для последующего поиска необходимых пользователю ресурсов. Использование XML-разметки при структурировании метаданных не всегда означает ее применение в самих текстах опубликованных источников. Так, в проекте The Early Americas Digital Archive [24] Th e Early Americas Digital Archive [Электронный ресурс]. URL: http://eada.lib. umd.edu (дата обращения: 27.03.2020).
, посвященном публикации документов по ранней американской истории (1492–1820-е годы), в качестве метаданных источников размечены авторство, предметно-тематическая рубрика, принадлежность к временному периоду, географическая принадлежность, жанр, тип текстового источника и форма. При этом тексты источников также опубликованы в машиночитаемом формате на сайте проекта (и реализован контекстный поиск), но сами тексты не размечены дополнительно с помощью XML.
Широкие возможности для использования имеют информационные системы с XML-разметкой текстов публикуемых источников.
В настоящее время многие текстовые источники, в особенности рукописные, представляются преимущественно в форматах изображений. Это связано и с необходимостью репрезентации внешнего вида источника, и с затратностью распознавания и транскрибирования текста. Представление текстовых источников исключительно в форматах изображений несет массу ограничений: поскольку они не идентифицируются как текст, то, соответственно, не могут быть обработаны на содержательном уровне компьютеризированными методами. В связи с этим возникает необходимость разнопланового представления данных – в качестве текста (в совокупности его содержательных особенностей, слоев и смысловых уровней) и изображения источника. Современные информационные системы позволяют представить документы в многоформатном отображении; для решения этой задачи используется XML.
Разметка особенностей текстовых источников на основе XML позволяет в более полной мере передать аутентичный характер источника. Многие источники имеют слабоструктурированный характер, поэтому их публикация в традиционных для цифрового мира форматах (как, например, HTML) несет существенные ограничения. Использование XML-разметки для публикации текстовых источников имеет значительные преимущества перед традиционными типами электронной публикации ввиду возможностей репрезентации комплексного характера источников. Использование языка XML в историко-ориентированных информационных системах позволяет повысить качество представления цифровых версий документов. Разметка структуры документов (заголовков, абзацев, строк и других элементов текста), особенностей синтаксиса и морфологии позволяет максимально полно представить многослойность источника без потери информативности.
На данный момент реализовано множество проектов публикации текстовых источников с использованием XML-разметки, в том числе информационная система, посвященная актовым книгам судов Великого княжества Литовского [25] LDK Teismų knygų [Электронный ресурс]. URL: http://www.teismuknygos.mb.vu.lt (дата обращения: 10.07.2020).
, которые хранятся в библиотеке Вильнюсского университета [Тимченко, 2013]. Другим крупным проектом публикации транскрибированных рукописных источников является «Манускрипт. Древние славянские памятники» [26] Манускрипт. Древние славянские памятники [Электронный ресурс]. URL: http://manuscripts.ru (дата обращения: 10.07.2020).
.
Создатели электронных публикаций ориентируются на пользователя, выбирая формы представления текстовых источников, максимально соответствующие оригиналу или отредактированные в разной степени для расширения возможностей его прочтения менее подготовленной аудиторией. XML позволяет представить один и тот же источник в разной степени редактирования. Примером такого подхода является проект публикации цифровых версий документов Medieval Nordic Text Archive [27] Medieval Nordic Text Archive [Электронный ресурс]. URL: http://clarino.uib. no/menota/document-element (дата обращения: 10.07.2020).
, в котором представленные документы кодированы несколькими уровнями разметки. Факсимильная разметка предполагает представление документа максимально близко к тексту источника; дипломатическая – означает изменения, внесенные в текст для облегчения прочтения документа; в нормализованной версии текста полностью обновлена орфография.
Использование разметки XML в кодировании текстов рукописных источников связано с возможностями этого языка в обработке столь специфичных документов, поскольку рукописные источники часто отличаются многослойностью. XML является эффективным инструментом представления всей совокупности информационных пластов исторического источника. К многослойным документам могут относиться как палимпсесты или рукописи, которые с течением времени дополнялись и изменялись внесением поправок, так и иные источники, например музыкальные нотные альбомы, содержащие информацию музыкального характера (совокупность строк и знаков – сами ноты, нотный стан и т. д.) и текстовую информацию. Технология XML позволяет эффективно учесть и извлечь источниковую информацию. Это подтверждают существующие информационные системы, содержащие источники указанного типа, например проект TheDanish National Digital Sheet Music Archive [28] The Danish National Digital Sheet Music Archive // The Royal Danish Library [Электронный ресурс]. URL: http://www.kb.dk/en/nb/samling/ma/digmus (дата обращения: 27.03.2020).
.
Электронная публикация рукописных источников имеет дополнительные сложности, связанные с разнообразием языков и диалектов, различными способами написания, вариативностью шрифтового оформления и иными особенностями. Фиксация этих источниковых особенностей в электронной версии может быть успешно осуществлена с помощью инструментария XML. В качестве иллюстрации подобного рода многоязычных электронных коллекций можно привести информационный ресурс, посвященный арабским рукописям, Arabic Manuscripts Online [29] Arabic Manuscripts Online [Электронный ресурс]. URL: http://wamcp.bibalex. org (дата обращения: 27.03.2020).
. В информационной системе представлено более 12 тыс. рукописей и 4 тыс. печатных книг на 43 языках. Достоинством этой системы является транскрибирование фрагментов текстов источников на основе XML-разметки (в основном это заголовки, некоторые ключевые слова и персоналии), а также представление оригинального арабского текста и его транскрипции на латинице.
XML-разметка позволяет связывать и семантику текстов. Самый простой уровень – разметка ключевых слов, в первую очередь географических объектов и персоналий. Такой подход дает возможность поисковой системе вывести полный список документов, в которых упоминается искомое ключевое слово. В случае с персоналиями – возможность найти документы с инвариантными написаниями имени одного человека. Примером информационной системы, в которой в документах размечены географические объекты и персоналии, является проект The Fuggerzeitungen [30] The Fuggerzeitungen. An early modern informative medium and its indexing [Электронный ресурс]. URL: http://fuggerzeitungen.univie.ac.at (дата обращения: 01.08.2018).
, посвященный рукописному периодическому изданию раннего Нового времени в Европе. Информационная система, созданная при реализации этого проекта, позволяет видеть различные форматы отображения источников, а также их размеченный электронный текст. Схема разметки включает информацию о персоналиях и географических объектах. Часть схемы разметки, посвященной персоналиям, содержит прямые и непрямые указания на конкретные личности из газет, а также сведения о них – даты жизни, другие имена (в случае смены имени), титулы, сферы деятельности. Элементы разметки географических объектов обозначают названия стран и регионов, рек, озер, гор, городов и районов всей Римской империи. На основе размеченных текстов удалось создать регистры персоналий и географических объектов, упоминающихся в источниках. XML-разметка позволила объединить элементы (в том числе персоналии и географические объекты) независимо от написания и языка источника. Таким образом, данная информационная система способна формировать по результатам поисковых запросов списки источников с упоминанием необходимых элементов.
Интервал:
Закладка: