Михаил Мальковский - Прикладное программное обеспечение: системы автоматической обработки текстов
- Название:Прикладное программное обеспечение: системы автоматической обработки текстов
- Автор:
- Жанр:
- Издательство:Издательство МАКС Пресс; Издательский отдел факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова
- Год:2000
- Город:Москва
- ISBN:5-89407-086-4
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Михаил Мальковский - Прикладное программное обеспечение: системы автоматической обработки текстов краткое содержание
Учебное пособие знакомит читателей с одной из наиболее интересных и перспективных задач прикладного программирования - задачей автоматической обработки тестов на естественном языке. Рассмитриваются рациональные сферы применения систме автоматической обработки текстов , проблемы их линвистиеского обеспечения.
Для студентов 2 курса факультета ВМК МГУ в поддержку обязательного лекционного курса "Прикладное программное обеспчение".
Авторы пособия благодарят Владимира Геннадиевича Абрамова и Валерия Ивановича Родина за ценные советы и замечания.
Рецензенты: проф. Р.Л. Смелянский, доц. Л.С. Корухова.
Печатается по решению Редакционно-издательского совета факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова.
Прикладное программное обеспечение: системы автоматической обработки текстов - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
N 2 - формируемом в начале работы с текстом на основе перечня используемых сокращений;
N 1 - словаре общепринятых сокращений.
В списке N 1 поиск ведется в последнюю очередь так как он, во-первых, самый большой, и во-вторых, если, например, в списках N 3 и N 1 присутствует одно и то же сокращение, но с различными расшифровками, то приоритет имеет сокращение из списка N 3. Результатом работы является список используемых в тексте аббревиатур с указанием их локализации в тексте и типа аббревиатуры.
Программа осуществляет контроль за переопределением известных системе аббревиатур. Если, например, в разделе 1.2. встретилась аббревиатура СВП (с расшифровкой в тексте - "схема внешних прерываний"), а в списке N 2 аббревиатура СВП сопоставлена термину "субкомплекс внешней памяти", фиксируется ошибка: недопустимое переопределение аббревиатуры из перечня.
Программа проверяет правильность расшифровки, то есть тот факт, что аббревиатура читается в расшифровке по началам слов, причем некоторые слова расшифровки могут не участвовать в образовании аббревиатуры. Пример работы программы:
Эта организация - центр переводов (ВЦП).
НЕСООТВЕТСТВИЕ АББРЕВИАТУРЫ И РАСШИФРОВКИ:
ВЦП - центр переводов
Программа ЛЕКС8 (без параметров) проверяет правильность оформления списка используемых в тексте аббревиатур (для отчета по НИР - это "Перечень условных обозначений, символов, единиц и терминов"). Предполагается, что каждая пара "аббревиатура - расшифровка" в перечне представлена одной строкой. В процессе обработки перечня заполняется список замечаний. Пример работы программы:
ОБРАБАТЫВАЕТСЯ ПЕРЕЧЕНЬ АББРЕВИАТУР:
БНК - бортовой нейрокомпьютер
БНФ - бекусовская нормальная форма
КПД - канал прямого доступа
ОЗУ
МПК - микропрограммируемый контроллер
ОРЗ - общий регистр записи
ПНП - перейти в неустойчивое положение
СВП - субкомплекс внешней памяти
СПТ - субкомплекс рабочего таймера
ЗАМЕЧАНИЯ:
4 : ОЗУ * НЕТ РАСШИФРОВКИ
5 : МПК * НАРУШЕНИЕ АЛФ. ПОРЯДКА
7 : ПНП * РАСШИФРОВКА НЕ ЯВЛЯЕТСЯ ГРУППОЙ СУЩЕСТВИТЕЛЬНОГО
9 : СПТ * НЕСООТВ: АББР.-РАСШ.
3.2.3.3. Стилистический контроль
Программы данного блока фиксируют внешние характеристики фраз, свидетельствующие о сложности их структуры, а следовательно, и о сложности восприятия смысла. Имеются, например, программы, контролирующие длину фраз, количество запятых, количество придаточных предложений, наличие во фразах текста длинных цепочек слов в родительном падеже ( например, значений аргументов программы пользователя ) или цепочек однокоренных слов ( пользователь может воспользоваться, транслятор транслирует ). Есть программы контроля стилистической окраски слов. В научно-технической литературе нежелательно употребление устаревших слов и канцеляризмов ( ибо, вышепоменованный ), жаргонизмов ( виндуза ), разговорных оборотов ( этот алгоритм, уж поверьте, . . . ). При обнаружении таких слов в тексте их рекомендуется убрать или заменить более нейтральными синонимами. Особый класс составляют слова, явно характеризующие специфику темы (предметной области), раскрывать которую иногда нежелательно. Например, в документе для внутреннего пользования можно употребить термин военно-космический , а в тексте сообщения, передаваемого по открытым каналам связи его целесообразно заменить (соответствующая программа предлагает слово-замену специальный ).
3.2.3.4. Контроль структуры текста
Данные программы контролируют правильность оформления отдельных структурных частей текстового документа с точки зрения соответствующих нормативных требований (например, требований ГОСТа 7.32-81, регламентирующего правила оформления научно-технического отчета). Проверяется оформление титульного листа, списка исполнителей, реферата и других разделов документа.
3.2.3.5. Синтаксический контроль
Программа СИНТ1 находит в указанной области именные словосочетания вида ‹прилагательное› + ‹существительное› и ‹существительное› + ‹существительное в форме родит. падежа› и др. Программа может оказаться полезной при анализе лексического состава текста и при поиске терминологических словосочетаний, особенно в тех случаях, когда различные фрагменты текста написаны разными авторами (возможно, использующими близкие, но не совпадающие термины). Найденные программой словосочетания группируются вокруг "ключевого слова" - существительного, играющего роль синтаксической вершины словосочетания. Ряд программ синтаксического контроля обнаруживает нарушения обычного (нейтрального) порядка слов и взаимного расположения групп слов. Такие нарушения могут затруднить восприятие текста.
Например: " Раздел второй посвящен описанию новых алгоритмов". или " Использует этот алгоритм всего две вспомогательные переменные ."
Отметим, что иногда нарушение нейтрального порядка слов может намеренно использоваться автором текста с целью изменения логического ударения, усиления (" Алгоритм этот очень эффективен!" ).
Программа СИНТ2 осуществляет контроль придаточных предложений с союзным словом который , а именно, проверяет однозначность установления связи между союзным словом и его словом-хозяином из главного предложения. В случае, когда таких слов-хозяев не обнаружено или их более одного, выдается соответствующая диагностика. Пример работы программы:
Рассмотрим структуру памятивычислительной машины, в которойхранятся команды.
СЛОВО которойИМЕЕТ БОЛЕЕ ОДНОГО СЛОВА-ХОЗЯИНА В
ГЛАВНОМ ПРЕДЛОЖЕНИИ: машины, памяти, структуру
Каждому каналу соответствует свое устройство, которыев свою очередь связаны с главной ЭВМ.
СЛОВО которыеНЕ ИМЕЕТ СЛОВА-ХОЗЯИНА В ГЛАВНОМ ПРЕДЛОЖЕНИИ
Мощь языка Си - результат выявления его авторами потребностей программистов, которыевозникают при программировании на языке ассемблера.
СЛОВО которыеИМЕЕТ БОЛЕЕ ОДНОГО СЛОВА-ХОЗЯИНА В ГЛАВНОМ ПРЕДЛОЖЕНИИ: программистов, потребностей, авторами
3.2.3.6. Пунктуационный контроль
Пунктуационные ошибки в реальных предложениях русского языка встречаются довольно часто. Разделим их условно на две группы. Ошибки одной группы связаны с уровнем пунктуационной грамотности и появляются в основном в тех типах текстов русского языка, которые не проходят этап профессионального редактирования (например, в репликах в диалоге пользователя с ЭВМ).
Читать дальшеИнтервал:
Закладка: