Анатолий Фоменко - Методы статистического анализа исторических текстов (часть 1)
- Название:Методы статистического анализа исторических текстов (часть 1)
- Автор:
- Жанр:
- Издательство:Наука
- Год:1999
- Город:Москва
- ISBN:5-02-013542-9
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Анатолий Фоменко - Методы статистического анализа исторических текстов (часть 1) краткое содержание
Книга посвящена новому направлению в современной прикладной статистике. Предлагаются эмпирико-статистические методы распознавания зависимых и независимых текстов, в том числе исторических, т. е. текстов повествовательного характера, например хроник, летописей Эти методы позволяют во многих случаях датировать древние тексты, описанные в них события и могут применяться для анализа текстов самой разной природы, в теории распознавания образов, при анализе генетических кодов, для уточнения дат древней хронологии. Представлен богатый научный материал — результаты статистической обработки хроник, древних астрономических сообщений, летописей. Книга стала уникальным явлением в мировой научной литературе по прикладной статистике.
Для специалистов в области математической статистики и распознавания образов, лингвистики, филологии, хронологии, истории, а также широкого круга читателей.
Методы статистического анализа исторических текстов (часть 1) - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Описанное построение было выполнено в предположении, что мы фиксировали некоторый вариант введения кратных максимумов у графиков объема летописей. Таких вариантов, конечно, много. Рассмотрим все такие варианты и для каждого из них подсчитаем число p'(X,Y), после чего возьмем наименьшее из всех получившихся чисел. Обозначим его через p''(X,Y). То есть, мы минимизируем коэффициент p'(X,Y) по всем возможным способам введения локальных максимумов у графиков vol X(t) и vol Y(t).
Наконец, вспомним, что при подсчете коэффициента p''(X,Y) летописи X и Y оказались в неравноправном положении. Дело в том, что выше мы рассматривали «n-мерный шар» радиуса r(X,Y) с центром в точке a(X). Чтобы устранить возникшее неравноправие между летописями X и Y, просто поменяем их местами и повторим описанную выше конструкцию, взяв теперь за центр «n-мерного шара» точку a(Y). В результате получится некоторое число, которое мы обозначим через p''(Y,X). В качестве «симметричного коэффициента» p(X,Y) мы возьмем среднее арифметическое чисел p'(X,Y) и p''(X,Y), то есть
p''(X,Y) + p''(Y,X)
p(X,Y)= —
Для наглядности поясним смысл «предварительного коэффициента» p'(X,Y) на примере графиков объема с всего лишь двумя локальными максимумами. В этом случае оба вектора a(X)=(x 1,x 2,x 3) и a(Y)=(y 1,y 2,y 3) являются векторами в трехмерном евклидовом пространстве. Концы этих векторов лежат на двумерном равностороннем треугольнике L, отсекающем от координатных осей в пространстве R 3одно и то же число B-A. См. рис. 3.8. Если расстояние от точки a(X) до точки a(Y) обозначить через |a(X)-a(Y)|, то множество K — это пересечение треугольника L с трехмерным шаром, центр которого находится в точке a(X), а радиус равен |a(X)-a(Y)|. После этого нужно подсчитать количество «целых точек» (то есть точек с целочисленными координатами) в множестве K и в треугольнике L. Взяв отношение получившихся чисел, мы и получим коэффициент p'(X,Y).
При конкретных вычислениях удобно пользоваться приближенным способом вычисления коэффициента p(X,Y). Дело в том, что подсчет числа «целых точек» в множестве K довольно затруднителен. Но оказывается эту трудность можно обойти, перейдя от «дискретной модели» к «непрерывной модели». Хорошо известно, что если (n-1) — мерное множество K в (n-1) — мерном симплексе L достаточно велико, то число «целых точек» в K примерно равно (n-1) — мерному объему множества K. Поэтому с самого начала в качестве «предварительного коэффициента» p'(X,Y) можно брать просто отношение (n-1) — мерного объема K к (n-1) — мерному объему L, то есть
(n-1) — мерный объем K
p'(X,Y)= —
(n-1) — мерный объем L.
Например, в случае двух локальных максимумов в качестве коэффициента p'(X,Y) следует взять отношение:
площадь множества K.
площадь треугольника L.
Конечно, при малых значениях B-A, «дискретный коэффициент» и «непрерывный коэффициент» различны. Но в наших исследованиях мы будем иметь дело с временнЫми интервалами B-A в несколько десятков и даже сотен лет, так что для интересующих нас целей можно, не делая большой ошибки, уверенно пользоваться «непрерывной моделью» p'(X,Y). Точные математические формулы для подсчета «непрерывного коэффициента» p'(X,Y) приведены в работе [375], с. 107.
Укажем еще одно уточнение описанной статистической модели. При работе с конкретными графиками объема исторических текстов следует «сглаживать» эти графики, чтобы устранить мелкие случайные всплески. Мы проводили такое сглаживание графика, «усредняя по соседям», то есть заменяя значение функции объема в каждой точке t на среднее арифметическое трех значений функции, а именно, в точках t-1, t, t+1. В качестве «окончательного коэффициента» p(X,Y) следует взять его значение, подсчитанное для таких «сглаженных графиков».
Сформулированный выше принцип корреляции максимумов подтвердится, если для большинства пар заведомо зависимых текстов X и Y коэффициент p(X,Y) окажется «малым», а для большинства пар заведомо независимых текстов, напротив, «большим».
1.4. Экспериментальная проверка принципа корреляции максимумов
Примеры зависимых и независимых исторических текстов
В 1978–1985 годах нами был проведен первый обширный вычислительный эксперимент по подсчету чисел p(X,Y) для нескольких сотен пар конкретных исторических текстов — хроник, летописей и т. п. Детали см. в [416], [438], [419], [375].
Оказалось, что коэффициент p(X,Y) достаточно хорошо различает ЗАВЕДОМО ЗАВИСИМЫЕ и ЗАВЕДОМО НЕЗАВИСИМЫЕ пары исторических текстов. Было обнаружено, что для всех исследованных нами пар реальных летописей X,Y, описывающих ЗАВЕДОМО РАЗНЫЕ события (разные исторические эпохи или разные государства), — то есть для НЕЗАВИСИМЫХ текстов, число p(X,Y) колеблется от 1 до 1/100 при количестве локальных максимумов от 10 до 15. Напротив, если исторические летописи X и Y ЗАВЕДОМО ЗАВИСИМЫ, то есть описывают одни и те же события, то число p(X,Y) не превосходит 10 -8для того же количества максимумов.
Таким образом, между значениями коэффициента для зависимых и независимых текстов обнаруживается разрыв примерно на 5–6 порядков. Подчеркнем, что здесь важны не абсолютные величины получающихся коэффициентов, а тот факт, что «зона коэффициентов для заведомо зависимых текстов» отделена НЕСКОЛЬКИМИ ПОРЯДКАМИ от «зоны коэффициентов для заведомо независимых текстов». Приведем типичные примеры. Точные значения функций объемов для особо интересных летописей мы приводим в Приложении, в конце книги, чтобы не загромождать здесь изложение.
На рис. 3.9, рис. 3.10 и рис. 3.11 показаны графики объемов двух заведомо зависимых исторических текстов.
А именно, в качестве текста X мы взяли историческую монографию современного автора В.С. Сергеева «Очерки по истории древнего Рима», тома 1–2, М., 1938, ОГИЗ.
В качестве текста Y мы взяли «античный» источник, а именно, «Римскую историю» Тита Ливия, тома 1–6, М., 1897–1899.
Согласно скалигеровской хронологии, эти тексты описывают события на интервале якобы 757–287 годы до н. э. Итак, здесь A = 757 год до н. э., B = 287 год до н. э. Оба текста описывают одну и ту же историческую эпоху, примерно одни и те же события. Наглядно видно, что графики объемов делают свои ОСНОВНЫЕ всплески практически одновременно. Для количественного сравнения функций следует предварительно сгладить «мелкую зыбь», то есть вторичные всплески, накладывающиеся на основные, первичные колебания графиков. При вычислении коэффициента p(X,Y) мы сгладили, усреднили эти графики, чтобы выделить лишь их ОСНОВНЫЕ локальные максимумы, в количестве не превышающем пятнадцати. Оказалось, что здесь p(X,Y) = 2×10 -12. Малая величина коэффициента указывает на ЗАВИСИМОСТЬ сравниваемых текстов. В данном случае это неудивительно. Как мы уже отмечали, оба текста описывают один и тот же период в истории «античного» Рима. Малое значение коэффициента p(X,Y) показывает, что если рассматривать наблюдаемую близость точек всплесков обоих графиков как случайное событие, то его вероятность чрезвычайно мала. Как мы видим, современный автор В.С. Сергеев достаточно аккуратно воспроизвел в своей книге «античный» оригинал. Конечно, он дополнил его своими соображениями и комментариями, но, как выясняется, они не влияют на характер зависимости этих текстов.
Читать дальшеИнтервал:
Закладка: