Анатолий Фоменко - Методы статистического анализа исторических текстов (часть 1)
- Название:Методы статистического анализа исторических текстов (часть 1)
- Автор:
- Жанр:
- Издательство:Наука
- Год:1999
- Город:Москва
- ISBN:5-02-013542-9
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Анатолий Фоменко - Методы статистического анализа исторических текстов (часть 1) краткое содержание
Книга посвящена новому направлению в современной прикладной статистике. Предлагаются эмпирико-статистические методы распознавания зависимых и независимых текстов, в том числе исторических, т. е. текстов повествовательного характера, например хроник, летописей Эти методы позволяют во многих случаях датировать древние тексты, описанные в них события и могут применяться для анализа текстов самой разной природы, в теории распознавания образов, при анализе генетических кодов, для уточнения дат древней хронологии. Представлен богатый научный материал — результаты статистической обработки хроник, древних астрономических сообщений, летописей. Книга стала уникальным явлением в мировой научной литературе по прикладной статистике.
Для специалистов в области математической статистики и распознавания образов, лингвистики, филологии, хронологии, истории, а также широкого круга читателей.
Методы статистического анализа исторических текстов (часть 1) - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
1) Михаил Пселл, «Хронография», М., 1987. Описывает период 976-1075 годы.
2) Анна Комнина, «Сокращенное сказание о делах царя Алексея Комнина» (1081–1118), СПБ, 1859.
3) Иоанн Киннам, «Краткое обозрение царствования Иоанна и Мануила Комнинов» (1118–1180), СПБ, 1859.
4) Никита Хониат, т. 1, «История, начинающаяся с царствования Иоанна Комнина» (1118–1185), СПБ, 1860.
5) Никита Хониат, т. 2, «История со времени царствования Иоанна Комнина» (1186–1206), СПБ, 1862.
6) Георгий Акрополит, «Летопись» (1203–1261), СПБ, 1863.
7) Георгий Пахимер, «История о Михаиле и Андронике Палеологах» (1255–1282), СПБ, 1862.
8) Никифор Григора, «Римская история» (1204–1341), СПБ, 1862).
Этот набор текстов содержит несколько десятков тысяч упоминаний полных имен, с кратностями. Оказалось, что все частотные графики K(Q,T) на интервалах 976-1200 годы и 1200–1341 годы практически тождественны с идеальным. И здесь принцип затухания частот оказался выполненным. А с другой стороны, оказалось, что хронологический порядок текстов внутри каждого из указанных интервалов времени ПРАВИЛЕН.
ПРИМЕР 4. Ф. Грегоровиус, «История города Рима в средние века», СПБ, тт. 1–6, 1902–1912. Из этого текста были выделены куски, описывающие:
1) 300–560 гг. н. э.,
2) 560–900 гг. н. э.,
3) 900-1250 гг. н. э.,
4) 1250–1500 гг. н. э.
Каждый из них был разбит на «главы-поколения», резервуар имен насчитывает несколько десятков тысяч упоминаний. Оказалось, что принцип затухания частот верен и упорядочивание «глав» в каждом из текстов 1–4 хронологически правильно.
Аналогичный результат получен и для монографии Кольрауша «История Германии» (М., тт. 1–2, 1860), в которой были выделены куски, описывающие:
1) 600-1000 годы н. э.,
2) 1000–1273 годы н. э.,
3) 1273–1700 годы н. э.
5. Методика датирования событий
Всего нами было обработано несколько десятков исторических текстов. Во всех случаях принцип затухания частот подтвердился. Отсюда вытекает методика хронологически правильного упорядочивания «глав-поколений» в тексте, или в наборе текстов, где этот порядок нарушен или неизвестен. Рассмотрим совокупность «глав-поколений» летописи Х и занумеруем их в каком-нибудь порядке. Для каждой «главы» X(Q) подсчитаем число K(Q,T) при заданной нумерации «глав». Все числа K(Q,T), при переменных Q и T, естественно организуются в квадратную матрицу К{Т} размера n × n, где n — число «глав». В идеальном теоретическом случае частотная матрица К{Т} имеет вид, показанный на рис. 3.38.
На рис. 3.38, ниже главной диагонали стоят нули, на главной диагонали расположен абсолютный максимум в каждой строке. Затем каждый график, в каждой строке, монотонно падает, затухает.
Оказывается, аналогичная картина затухания наблюдается и для столбцов матрицы. Это означает, что частота употребления в «главе» X(Q) имен более раннего происхождения «в среднем» падает по мере удаления поколения T, породившего эти имена, от фиксированного поколения Q.
Для оценки скорости затухания частот удобно пользоваться усредненным графиком
сумма величин K(Q,P), где P-Q=T
K сред.(T) = —.
n-T
В этой формуле суммирование выполняется по всем парам (Q,P), для которых разность P-Q фиксирована и равна T. Другими словами, график K сред.(T) получается усреднением матрицы K{T} по ее диагоналям, параллельным главной. Он изображает «усредненную строку» или «усредненный столбец» частотной матрицы. Здесь T изменяется от 0 до n-1.
Конечно, экспериментальные графики могут не совпадать с теоретическим.
Если теперь изменить нумерацию «глав» в летописи, то изменятся и числа K(Q,T), поскольку возникает довольно сложное перераспределение «впервые появившихся имен». Следовательно, меняется частотная матрица К{T} и ее элементы. Меняя порядок «глав» летописи с помощью различных перестановок s, и вычисляя каждый раз новую частотную матрицу К{sТ}, где sT — новая нумерация, соответствующая перестановке s, будем искать такой порядок «глав» летописи, при котором все или почти все графики будут иметь вид, показанный на рис. 3.37. В этом случае экспериментальная частотная матрица К{sТ} будет наиболее близка к теоретической матрице на рис. 3.38. Тот порядок «глав» летописи, при котором отклонение экспериментальной матрицы будет наименьшим, и следует признать хронологически правильным и искомым.
Эта методика позволяет также датировать события. Пусть дан какой-то исторический текст Y, о котором известно только, что он описывает какие-то события из эпохи (А,В), уже описанной в тексте X, разбитом на «главы-поколения», причем порядок этих «глав» в X хронологически правилен. Как узнать, какое именно поколение описано в интересующем нас тексте Y? При этом мы хотим использовать только количественные характеристики текстов, не апеллируя к их смысловому содержанию, которое может быть существенно неоднозначно и может допускать разнящиеся трактовки.
Ответ таков. Присоединим текст Y к совокупности «глав» текста X, считая при этом Y новой «главой» и приписав ей какой-то номер Q. Затем находим оптимальный, хронологически правильный порядок всех «глав» получившейся «летописи». При этом мы найдем правильное место и для новой «главы» Y. В простейшем случае, построив для нее график K(Q,T), можно добиться, меняя ее положение относительно других «глав», чтобы этот график был как можно ближе к идеальному. То положение, которое Y займет среди других «глав», и следует признать за искомое. Тем самым мы датируем события, описанные в Y. Методика применима и тогда, когда рассматриваются не все имена, а только одно или несколько имен, например, какие-либо «знаменитые имена». Но в этом случае требуется дополнительный анализ, поскольку уменьшение числа используемых имен делает результаты неустойчивыми.
Методика была проверена на больших текстах с большим числом имен и с заранее известной достоверной датировкой. Во всех этих случаях эффективность метода подтвердилась.
6. Принцип дублирования частот
Методика обнаружения дубликатов
Настоящая методика является в некотором смысле частным случаем предыдущей методики, но ввиду важности для датировки мы выделили прием обнаружения дубликатов в отдельный пункт. Этот метод был предложен в [375]-[377], [379], [381], [385], [390]-[393], [396], [398].
Пусть интервал времени (А,В) описан в летописи X, разбитой на «главы-поколения» X(T). Пусть они в целом занумерованы хронологически верно, но среди них есть два дубликата, то есть две «главы», говорящие об одном и том же поколении, дублирующие, повторяющие друг друга. Рассмотрим простейшую ситуацию, когда одна и та же «глава» встречается в летописи X ровно два раза, а именно, с номером Q и с номером R. Пусть Q меньше R. Наша методика позволяет обнаружить и отождествить эти дубликаты. Ясно, что частотные графики K(Q,T) и K(R,T) имеют вид, показанный на рис. 3.39.
Читать дальшеИнтервал:
Закладка: