Надежда Поврозник - Исторические информационные системы: теория и практика [litres]
- Название:Исторические информационные системы: теория и практика [litres]
- Автор:
- Жанр:
- Издательство:Литагент Высшая школа экономики
- Год:2021
- Город:Москва
- ISBN:978-5-7598-2321-6
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Надежда Поврозник - Исторические информационные системы: теория и практика [litres] краткое содержание
Книга содержит результаты исследования теоретических и прикладных проблем создания и внедрения историко-ориентированных информационных систем. Это первое комплексное исследование по данной тематике. Одни проблемы в книге рассматриваются впервые, другие – хотя и находили ранее отражение в литературе, но не изучались специально.
Издание адресовано историкам, специалистам в области цифровой истории и цифровых гуманитарных наук, а также разработчикам цифровых ресурсов, содержащих исторический контент или ориентированных на использование в исторических исследованиях и образовании.
В формате PDF A4 сохранен издательский макет.
Исторические информационные системы: теория и практика [litres] - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Многие исторические информационные системы объединяют различные по типу источники и используют в структуре разметки более разнообразные сущности, как, например, проект Founders Online [31] Founders Online [Электронный ресурс]. URL: http://founders.archives.gov (дата обращения: 22.03.2020).
, посвященный отцам-основателям США и выполненный при сотрудничестве различных архивов, академических учреждений и правительственных организаций Соединенных Штатов Америки. В основе информационной системы проекта ― текстовые исторические источники, размеченные на основе XML. Схема разметки содержит разнообразные элементы, описывающие персоналии, географические объекты разных типов, даты и временные характеристики события и другие элементы. Разметка текстов обеспечивает широкие возможности поиска по коллекции документов, связывая тексты по общности характеристик и упоминаемым элементам (в том числе персоналиям, географическим объектам и т. д.). Однако не все опубликованные источники размечены с одинаковой степенью глубины. Проект является продолжающимся, и в состав системы периодически добавляются новые текстовые источники, обеспечивая работу проекта в режиме work-in-progress . По состоянию на март 2020 г. в информационную систему введено более 183 тыс. документов. Чтобы обеспечить работу со всеми источниками, в том числе и с теми, которые находятся на ранней стадии обработки и аннотирование которых продолжается, было принято решение открыть к ним предварительный доступ ( Early Access ). Работа с такими документами осуществляется через специально разработанное веб-приложение Document Compass. Архитектура информационной системы Founders Online основана на платформе управления данными MarkLogic, а также использует приложения для индексации и обработки текстового контента, размеченного на основе XML. Поисковая система способна реализовывать многозадачные запросы для получения релевантной выгрузки.
Стандартизация тегов разметки метаданных и текстов исторических источников является ключевым вопросом для обеспечения устойчивости, долговременности и эффективности развития гуманитарной информационной среды в целом и историко-ориентированных информационных ресурсов в частности. В этом плане важную роль играет консорциум TEI (Text Encoding Initiative) [32] Консорциум TEI был создан в 1997 г. и имел целью разработать формат обмена данными для использования его в гуманитарных науках. См.: TEI P5: Guidelines for Electronic Text Encoding and Interchange / ed. by L. Burnard, S. Bauman. S. l., 2010. Последняя версия TEI P5 с Руководством версии 4.0.0 размещена онлайн; URL: http://www.tei-c.org/release/doc/tei-p5-doc/en/html/ index.html (дата обращения: 27.03.2020).
, основная цель функционирования которого – развитие и поддержка стандарта представления текстов в цифровой форме, а также помощь создателям электронных ресурсов в кодировании текстов методом глубокой разметки по единому стандарту, разработанному TEI. Этот консорциум включает различные организации, в числе которых издательства, университеты, а также индивидуальных ученых, использующих и развивающих стандарт TEI в гуманитарной сфере.
Целесообразность использования единого стандарта описания (с 2007 г. действует Руководство версии TEI P5) связана с тем, что исследователи и разработчики проектов по разметке текстов, с одной стороны, могут пользоваться стандартными элементами разметки и при необходимости добавлять отсутствующие теги в стандарт TEI, а с другой – при использовании единого стандарта становится принципиально возможным интегрирование данных различных корпусов (проектов) и обмен ими.
На сайте консорциума TEI доступен список проектов, выполненных с помощью разметки по стандарту TEI [33] Projects Using the TEI [Электронный ресурс]. URL: http://www.tei-c.org/ Activities/Projects (дата обращения: 27.03.2020).
. Значительная доля этих проектов является историко-ориентированными ресурсами. Среди них, например, проект Menota (Medieval Nordic Text Archive), посвященный норвежским рукописям [34] Menota (Medieval Nordic Text Archive) [Электронный ресурс]. URL: http:// clarino.uib.no/menota/page (дата обращения: 27.03.2020).
; CELT Project: TheCorpus of Electronic Texts [35] CELT Project: The Corpus of Electronic Texts [Электронный ресурс]. URL: http://www.ucc.ie/celt (дата обращения: 24.03.2020).
; Chronicling America, связанный с американскими газетами 1836–1922 гг. [36] Chronicling America [Электронный ресурс]. URL: http://chroniclingamerica. loc.gov (дата обращения: 24.03.2020).
, и др.
В рамках инициативы TEI развиваются также и специализированные стандарты, связанные с описанием исторических источников одного типа. Таким стандартом является TheCharters Encoding Initiative (CEI) [37] The Charters Encoding Iniciative (CEI) [Электронный ресурс]. URL: http:// www.cei.lmu.de (дата обращения: 24.03.2020).
– стандарт описания средневековых хартий, интегрированный в TEI. Основой для стандартизированного описания хартий стал разработанный словарь соответствия терминов для этих документов, написанных на французском, немецком, английском, итальянском, латинском и испанском языках [38] The Vocabulaire International de la Diplomatique / ed. by M. Milagros Cárcel Ortí. 2а ed. Valéncia, 1997.
. Для представления хартий была создана информационная система Monasterium.net (МОМ) [39] MOM [Электронный ресурс]. URL: https://www.monasterium.net/mom (дата обращения: 20.03.2020).
, объединяющая 664 372 хартии из 182 европейских учреждений хранения (преимущественно архивов) и регулярно пополняемая новыми источниками. Размещение хартий на портале сопровождается созданием краткой аннотации, в которой отражаются библиографические и архивоведческие данные о документе и его история. XML-разметка аннотации предполагает дублирование каждого размеченного элемента на национальном (по принадлежности документа к учреждению хранения) и английском языках. Информационная система MOM включает встроенный XML-редактор EditMOM для обработки и разметки документов в режиме онлайн. Веб-приложение EditMOM позволяет пользователю работать с несколькими слоями документа одновременно и наряду с изображением иметь доступ к размеченному тексту источника, а также размечать тегами или редактировать (транскрибировать) текст документа.
Структура разметки, используемой при обработке и публикации исторических источников, может содержать как элементы археографического описания, так и расширенную информацию об источнике, его особенностях, состоянии, форме и содержании, а также сведения об электронной текстовой версии и другие данные. Элементы с идентификаторами (id, name и др.) в структуре тега фиксируют персоналии и географические места, упоминаемые в тексте документов. Например, при анализе указателей к стенографическим отчетам с применением XML-разметки [Поврозник, 2018] использовались теги с идентификаторами, в том числе для связывания персоналий со всеми разделами данных о деятельности каждого депутата во всех сессиях созыва Государственной Думы начала XX в. Структура тега с идентификатором персоны выглядит так:
Читать дальшеИнтервал:
Закладка: