Михаил Мальковский - Прикладное программное обеспечение: системы автоматической обработки текстов
- Название:Прикладное программное обеспечение: системы автоматической обработки текстов
- Автор:
- Жанр:
- Издательство:Издательство МАКС Пресс; Издательский отдел факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова
- Год:2000
- Город:Москва
- ISBN:5-89407-086-4
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Михаил Мальковский - Прикладное программное обеспечение: системы автоматической обработки текстов краткое содержание
Учебное пособие знакомит читателей с одной из наиболее интересных и перспективных задач прикладного программирования - задачей автоматической обработки тестов на естественном языке. Рассмитриваются рациональные сферы применения систме автоматической обработки текстов , проблемы их линвистиеского обеспечения.
Для студентов 2 курса факультета ВМК МГУ в поддержку обязательного лекционного курса "Прикладное программное обеспчение".
Авторы пособия благодарят Владимира Геннадиевича Абрамова и Валерия Ивановича Родина за ценные советы и замечания.
Рецензенты: проф. Р.Л. Смелянский, доц. Л.С. Корухова.
Печатается по решению Редакционно-издательского совета факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова.
Прикладное программное обеспечение: системы автоматической обработки текстов - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Индексирование - выражение центральной темы или предмета какого-либо текста или описание какого-либо объекта на информационно-поисковом языке [1].
Предмет - объект (материальная вещь, понятие, свойство или отношение), который рассматривается или упоминается в документе/информационном запросе.
Тема документа/информационного запроса - раздел науки или техники, область практической деятельности или проблема, которой посвящен документ/ информационный запрос.
По характеру поискового массива и выдаваемой информации ИПС подразделяют на документальные и фактографические .
Документальная ИПС предназначена для отыскания документов (статей, книг, отчетов, описаний к авторским свидетельствам и патентам), содержащих необходимую информацию. Поисковый массив такой ИПС состоит из поисковых образов документов (т.е. элементов, каждый из которых передает основное содержание документа) или из самих документов. В ответ на предъявляемый информационный запрос ИПС выдает некоторое множество документов (или адреса их хранения), содержащих искомую информацию. Документом называют любой осмысленный текст, который обладает определенной логической завершенностью и содержит сведения о его источнике и/или создателе.
Фактографическая ИПС обеспечивает выдачу непосредственно фактических сведений, затребованных потребителем в информационном запросе. Поисковый массив состоит из фактографических записей, т.е. из описаний фактов, извлеченных из документов и представленных на некотором формальном языке.
Например, если бы Служба знакомств решила создать документальную ИПС, поисковый массив состоял бы непосредственно из писем ее клиентов типа: "Меня зовут Илья Муромец. Просидел я сиднем на печи 33 года, а теперь у царя в охранниках...". Для создания фактографической ИПС по письмам клиентов заполнялись бы таблицы вида: "Фамилия - Муромец. Имя - Илья. Возраст - 33. Должность - секьюрити" . Соответственно и запросом в первом случае будет служить часть письма клиента с пожеланиями относительно его партнера: "Невесту хочу моложе меня, но премудрую и чтоб хозяйством домашним интересовалась" , а во втором - составленная по ней таблица: "Возраст ‹33, интеллект - высокий, интересы - домашнее хозяйство" .
В настоящее время фактографические ИПС (как специальный класс поисковых систем) практически не разрабатываются, выполняемые ими действия реализуются с помощью штатных СУБД. Далее, говоря ИПС, будем иметь в виду документальную информационно-поисковую систему.
Одним из популярных способов перевода документа на внутренний язык системы является координатное индексирование - присвоение документу набора ключевых слов или кодов, определяющих его содержание. Возможны два способа индексирования: свободное, когда непосредственно из текста документа извлекаются ключевые слова без учета всех видоизменений их форм и отношений между ними; и контролируемое, когда в поисковый образ документа включаются только те слова, которые зафиксированы в информационно-поисковом тезаурусе , где указаны их синонимические, морфологические и ассоциативные отношения.
4.2. Тезаурус
Тезаурус - специально организованный нормативный словарь лексических единиц информационно-поискового и естественного языка. Лексическими единицами информационно-поискового языка являются дескрипторы . Дескриптор ставится в однозначное соответствие группе ключевых слов естественного языка, отобранных из текста определенной предметной области. Например, в качестве дескриптора может быть выбрано любое (предпочтительно наиболее часто используемое или короткое) ключевое слово или словосочетание или же цифровой код. Многозначному слову естественного языка соответствует несколько дескрипторов, а нескольким синонимичным словам и выражениям - один дескриптор. Тезаурус учитывает семантические связи между словами: антонимы, синонимы, гипонимы, гиперонимы, ассоциации.
Синонимы - слова (словосочетания), разные по написанию, но одинаковые (в рассматриваемой предметной области) по значению: ведьма = злая волшебница . Антонимы - слова с противоположным значением: добрый - злой . Гипоним - термин, являющийся частным случаем другого, более общего понятия. Гипероним - термин, наоборот, являющийся общим для ряда других, частных понятий.
Солдат = гипоним ( военный ); человек = гипероним ( военный )
гипероним ( вкусно готовит )= гипероним ( содержит дом в чистоте )=
гипероним ( умеет шить )= хорошая хозяйка.
В Государственном стандарте на "Тезаурус информационно-поисковый одноязычный" определены следующие типы связей:
– род-вид: средства передвижения - телега , ковер-самолет , сапоги-скороходы , печка
– часть-целое: стена , дверь , курья ножка - части избушки ;
– причина-следствие: опустил меч - голова с плеч ;
– сырье-продукт: сталь - меч ;
– административная иерархия: султан - визирь - стражник ;
– процесс-субъект: казнить - палач ;
– процесс-объект: казнить - жертва ;
– функциональное сходство: печка Емели - джип Cherokee ;
– свойство - носитель свойства: огнедышащий - дракон ;
– антонимия;
– синонимия.
Ассоциативное отношение является объединением других отношений, не входящих в иерархические отношения или в отношения синонимии (то есть любые виды связей между словами, возможно весьма специфичные, существующие только в определенной предметной области).
Словарная статья (на неформальном уровне) могла бы выглядеть так:
ПРЕМУДРАЯ = умная
АНТОНИМ - глупая
ГИПОНИМЫ: знающая, образованная, догадливая, начитанная
ВИД - показатель интеллекта (высокий)
Тезаурус и грамматика составляют информационно-поисковый язык . Грамматика содержит правила образования производных единиц языка (семантических кодов, синтагм, предложений) и регламентирует использование средств обозначения синтаксических отношений (например, указателей связи).
В рассмотренной выше сказочной информационной службе знакомств тезаурус должен описывать всевозможные качества и характеристики, встречающиеся в письмах клиентов, правила их классификации. Грамматика и тезаурус должны быть составлены таким образом, чтобы система могла понимать, что задает, скажем, число, указанное в запросе: рост, возраст или количество зубов (это может определяться по ключевому слову - единице измерения), уметь отличить сведения, сообщаемые клиентом о себе, от его требований к партнеру (здесь помогут словосочетания хотел бы познакомиться , должен соответствовать ).
Читать дальшеИнтервал:
Закладка: