Анатолий Фоменко - Методы статистического анализа исторических текстов (часть 2)
- Название:Методы статистического анализа исторических текстов (часть 2)
- Автор:
- Жанр:
- Издательство:Наука
- Год:1996
- Город:Москва
- ISBN:5-02-013542-9
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Анатолий Фоменко - Методы статистического анализа исторических текстов (часть 2) краткое содержание
Книга посвящена новому направлению в современной прикладной статистике. Предлагаются эмпирико-статистические методы распознавания зависимых и независимых текстов, в том числе исторических, т. е. текстов повествовательного характера, например хроник, летописей Эти методы позволяют во многих случаях датировать древние тексты, описанные в них события и могут применяться для анализа текстов самой разной природы, в теории распознавания образов, при анализе генетических кодов, для уточнения дат древней хронологии. Представлен богатый научный материал — результаты статистической обработки хроник, древних астрономических сообщений, летописей. Книга стала уникальным явлением в мировой научной литературе по прикладной статистике.
Для специалистов в области математической статистики и распознавания образов, лингвистики, филологии, хронологии, истории, а также широкого круга читателей.
Методы статистического анализа исторических текстов (часть 2) - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
ГОГОЛЬ 23,82 2,25 2,10 / 23,54 2,29 1,86 / 23,61 2,61 1,82 / 23,62 2,75 1,90
ГЕРЦЕН 22,42 2,87 2,03 / 22,87 3,10 2,04 / 22,98 2,64 1,92 / 23,85 2,10 2,50
сред. знач. 23,65 2,45 1,95 / сред. знач. 22,71 2,91 2,01
отклонение 0,013 0,027 0,35 / отклонение 0,024 0,16 0,06
параметры: | 3 | 7 | 8 / параметры: | 3 | 7 | 8
ДОСТОЕВСКИЙ 25,43 2,48 2,21 / 25,26 2,23 1,70
ЛЕОНОВ 23,11 2,97 1,81 / 23,04 2,58 2,00
ФАДЕЕВ 23,40 2,54 1,78 / 25,29 2,13 2,14
сред. знач. 25,32 2,38 2,02
сред. знач. 23,06 2,83 1,90
сред. знач. 23,40 2,62 1,89
отклонение 0,007 0,15 0,25
отклонение 0,003 0,14 0,10
отклонение 0,002 0,07 0,11
Приведем таблицу значений параметров 3,1,2,9 для Гончарова и Лескова.
параметры: | 3 | 1 | 2 | 9
ГОНЧАРОВ 25,13 11,67 2,09 2,92 / 24,88 13,16 2,03 3,31 / 25,83 18,11 2,16 4,69
ЛЕСКОВ 26,08 15,65 2,05 3,99 / 24,98 13,72 2,06 3,68 / 25,47 15,05 2,10 3,58
сред. значение 25,06 13,41 2,06 3,37
сред. значение 26,01 16,58 2,11 4,28
отклонение 0,019 0,25 0,03 0,26
отклонение 0,010 0,16 0,05 0,163
Высокой стабильностью характеризуются значения параметра 3 для А.М. Горького: 22,02, 22,21, 22,20, 22,17 и т. д. Среднее значение 22,15, а отклонение 0,009.
Кстати, значения всех перечисленных параметров вычислялись с точностью до ТРЕХ десятичных знаков. В таблицах значения округлены до двух десятичных знаков. Три знака оставлены только для отклонений параметра 3 от среднего значения.
Поскольку параметр 3 — процентное содержание всех служебных слов — выделяется среди остальных параметров своей поразительной СТАБИЛЬНОСТЬЮ И РАЗЛИЧАЮЩЕЙ СПОСОБНОСТЬЮ, то интересно специально проследить за его колебаниями в зависимости от объема выборки. Приведем таблицу, показывающую зависимость величины отклонения от среднего значения при разных выборках.
Писатели / Процент служебных слов / Величина отклонения этого параметра от его среднего значения при следующих объемах выборок:
2000 / 4000 / 8000 / 16000
ЧУЛКОВ…………..22,15……0,064….0,004……-……..
НОВИКОВ………….23,57……0,136….0,019……-……..
ФОНВИЗИН…………23,62……0,069….0,013….0,001……
РАДИЩЕВ………….22,30……0,054….0,018……-……..
КАРАМЗИН…………19,44……0,051….0,014….0,003……
КРЫЛОВ…………..23,67……0,040….0,013……-……..
ГОГОЛЬ…………..23,65……0,169….0,066….0,019….0,013
ГЕРЦЕН…………..22,71……0,165….0,109….0,025….0,024
ГОНЧАРОВ…………25,06……0,229….0,116….0,046….0,019
ТУРГЕНЕВ…………22,24……0,126….0,069….0,040….0,016
МЕЛЬНИКОВ-ПЕЧЕРСКИЙ.24,49……0,240….0,062….0,005……
ДОСТОЕВСКИЙ………25,32……0,203….0,098….0,030….0,007
САЛТЫКОВ-ЩЕДРИН…..24,56……0,173….0,042….0,016……
ЛЕСКОВ…………..26,01……0,132….0,057….0,017….0,010
ТОЛСТОЙ Л.Н…….23,62……0,199….0,103….0,036….0,020
ГОРЬКИЙ………….22,15……0,201….0,109….0,020….0,009
БУНИН……………24,64……0,143….0,027….0,013……
НОВИКОВ-ПРИБОЙ……21,10……0,129….0,090….0,049……
ФЕДИН……………21,20……0,151….0,064….0,028….0,019
ЛЕОНОВ…………..23,08……0,147….0,049….0,014….0,003
ШИШКОВ…………..20,60……0,152….0,115….0,019……
ФАДЕЕВ…………..23,40……0,184….0,111….0,018….0,002
Как видно из таблицы, стабилизация параметра 3 иногда наступает на объемах выборок, меньших чем 16000. Особенно это относится к писателям XVIII века. Например, для Карамзина стабилизация авторского инварианта наступает при объеме в 8000 слов, для Фонвизина — также 8000 слов. Вероятно, это указывает на несколько большую устойчивость стиля писателей XVIII века по сравнению с их коллегами в XIX и XX веках.
Подмеченное нами обстоятельство — ранняя стабилизация показывает, что в некоторых случаях авторским инвариантом (процент служебных слов) можно пользоваться и при изучении текстов небольших объемов. Однако при широких исследованиях необходимо все-таки пользоваться выборками в 16000 слов, поскольку только для них стабилизация параметра 3 наступает ОДНОВРЕМЕННО для всех исследованных авторов.
После обнаружения авторского инварианта для перечисленных 22 писателей, рамки эксперимента были расширены и аналогичные подсчеты были проведены еще для пяти авторов: А.Н. ОСТРОВСКОГО, А.К. ТОЛСТОГО, В.А. ЖУКОВСКОГО, А.С. ПУШКИНА и А.П. ЧЕХОВА. Были отобраны ПРОЗАИЧЕСКИЕ тексты БОЛЬШОГО объема. Расширенный эксперимент полностью подтвердил высокую стабильность параметра 3 при выборках в 16000 слов и его способность различать разные группы авторов. Таким образом, полный список писателей, для которых параметр 3 оказался устойчивым и различающим авторским инвариантом, расширился с 22 до 27.
10. Как можно применять обнаруженный авторский инвариант?
Возможное обнаружение плагиата
Одно из возможных применений обнаруженного авторского инварианта — это распознавания плагиата, установления возможного авторства и т. п. Можно предложить следующую естественную методику. Если для двух исследуемых произведений значения параметра 3 (процент служебных слов) разнятся больше, чем на единицу, то есть основания заподозрить различное авторство сравниваемых текстов. Чем больше разница в значениях инварианта, тем подозрение серьезнее.
С другой стороны (как и в проблеме установления отцовства) близкие значения инварианта отнюдь не означают, что исследуемые произведения написаны одним автором. Как мы отмечали, встречаются разные писатели с близкими значениями инварианта. Например, Леонов и Фадеев, у которых эти числа равны соответственно 23,08 и 23,40.
Кроме того, применять методику распознавания авторов к текстам МАЛОГО объема следует чрезвычайно осторожно. Возникающие здесь трудности можно проиллюстрировать на примере крупных и мелких произведений А.П. Чехова. Параметр 3 (процент служебных слов) был просчитан вдоль всех его произведений в собрании сочинений 1960–1964 гг., Москва. Оказалось, что параметр 3 ведет себя следующим образом:
мелкие рассказы / большие тексты / номер тома | I | II | III | IV | V | VI | VII | VIII / процент служебных слов
22,6 22,5 23,4 22,7 23,4 25,4 25,5 25,4.
Разница между значениями параметра 3 для ранних МЕЛКИХ рассказов Чехова (I–V тома) и для более КРУПНЫХ повестей и рассказов позднего периода его творчества (VI–VIII тома) достаточно ощутима. См. рис. Доп-3.8. Причем в ранних МЕЛКИХ рассказах не только МЕНЬШЕ служебных слов, но главное заключается в том, что разброс их больше, чем в последующих КРУПНЫХ произведениях. БОЛЬШИЕ (поздние) тексты Чехова характеризуются ВЫСОКОЙ СТАБИЛЬНОСТЬЮ авторского инварианта, как впрочем и для всех других 26 авторов БОЛЬШИХ текстов из нашего списка. В этом смысле Чехов не выделяется на их фоне — параметр 3 прекрасно «обслуживает» все его БОЛЬШИЕ сочинения.
В заключение отметим еще одно интересное обстоятельство. Оказалось, что процент служебных слов наиболее стабилен (при величине порций в 8000 и 16000 слов) на ПРОЗАИЧЕСКИХ произведениях и менее устойчив на ПОЭТИЧЕСКИХ текстах. Этот вопрос заслуживает отдельного рассмотрения и здесь мы не будем на нем останавливаться.
Обнаружение авторского инварианта в русском литературном языке делает весьма правдоподобным гипотезу о существовании аналогичных авторских инвариантов и в других языках. Они могут, конечно, отличаться от процента служебных слов. Особый интерес представляли бы авторские инварианты греческого и латыни, если иметь в виду применения аналогичных методик для распознавания авторства древних текстов.
Читать дальшеИнтервал:
Закладка: