Денис Соломатин - mixOmics для гуманитариев

Тут можно читать онлайн Денис Соломатин - mixOmics для гуманитариев - бесплатно ознакомительный отрывок. Жанр: Программы, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Читать книгу

Название:

mixOmics для гуманитариев
Автор:

Денис Соломатин
Жанр:

Программы
Издательство:

неизвестно
Год:

2021
ISBN:

978-5-532-96218-7
Рейтинг:

4/5. Голосов: 11
Избранное:

Добавить в избранное
Отзывы:

Читать комментарии
Ваша оценка:
80

1

2

3

4

5

Денис Соломатин - mixOmics для гуманитариев краткое содержание

mixOmics для гуманитариев - описание и краткое содержание, автор Денис Соломатин, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru

Тематика посвященного основам статистической обработки педагогической информации учебного пособия оказалась на редкость востребованной и актуальной, что послужило стимулом к написанию продолжения. Учебное пособие предназначено для бакалавров, обучающихся по направлению подготовки «Математическое образование» интересы которых лежат в области статистической обработки социальной и педагогической информации. Из отличительных особенностей R хорош тем, что бесплатен и установлен на серверах Google Cloud и ИМ СО РАН, а значит позволяет задействовать вычислительную мощь современных суперкомпьютеров. Кроме того, статистический анализ большого числа переменных на сегодняшний день лучше всего реализован в его дополнительном пакете mixOmics, а в современных реалиях R позволяет неподготовленному читателю разворачивать веб-сервер для решения задач собственной онлайн-школы, на открытие которой всё больше нас вдохновляют современные реалии.

mixOmics для гуманитариев - читать онлайн бесплатно ознакомительный отрывок

mixOmics для гуманитариев - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Денис Соломатин

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

Например, для анализа основных компонентов сначала загружаем данные:

My_table <��– structure(list(Класс = c("7а", "7а", "7а", "7а", "7а", "7а", "7а", "7а", "7а",

"7а", "7б", "7б", "7б", "7б", "7б", "7б", "7б", "7б", "7б", "7б", "эталон", "отстающий"),

`Фимилия Имя` = c("Иванов Иван", "Петров Петр", "Сидоров Сидор", "Егоров Егор",

"Романов Роман", "Николаев Николай", "Григорьев Григогий", "Викторов Виктор",

"Михайлов Михаил", "Тимуриев Тимур", "Ульянова Ульяна", "Ольгина Ольга",

"Людмилова Людмила", "Дарьева Дарья", "Кристинина Кристина",

"Натальина Наталья", "Глафирова Глафира", "Янина Яна", "Иринова Ирина",

"Валентинова Валентина", "Идеальный ученик", "Другая крайность"), Тема1 = c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 1), Тема2 = c(2, 3, 3, 2, 2, 3, 3, 2, 2, 3, 4, 5, 5, 4, 4, 4, 5, 5, 4, 5, 5, 1), Тема3 = c(1, 2, 2, 1, 1, 2, 2, 1, 2, 2, 1, 2, 2, 1, 1, 2, 2, 2, 1, 2, 5, 1), Тема4 = c(4, 5, 5, 4, 4, 4, 5, 5, 5, 4, 5, 5, 4, 4, 5, 5, 4, 4, 5, 4, 5, 1), `Тема 5` = c(1, 2, 2, 2, 1, 2, 1, 1, 2, 2, 1, 2, 2, 1, 1, 2, 2, 1, 2, 5, 5, 1), `№№` = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22)), row.names = c(NA, -22L), class = c("tbl_df", "tbl", "data.frame"))

Затем выполним следующие шаги:

My_result.pca <��– pca(My_table) # 1 Запуск выбранного метода анализа

plotIndiv(My_result.pca) # 2 Визуальное представление образцов

plotVar(My_result.pca) # 3 Визуальное представление переменных

Это только первый пример, в дальнейшем появится много вариантов, из которых можно будет выбрать, наиболее соответствующий стоящим перед вами исследовательским задачам статистического анализа. Пакет mixOmics предлагает различные методы представления переменной и широкий выбор функций сбора информации на довольно больших наборах данных.

Сохраним числовые данные из исходной таблицы во вспомогательной переменной:

to.remove <��– c('Фимилия Имя', 'Класс', '№№')

X <��– My_table[, !colnames(My_table) %in% to.remove]

Следуя примеру выше, методы PCA могут быть применены для выбора первых пяти переменных, тесно связанных с первыми двумя компонентами в PCA. Пользователь определяет количество переменных, выбранных по каждому компоненту, например, здесь выберем пять переменных на каждом из первых двух компонентов командой keepX=c(5,5):

My_result.spca <��– spca(X, keepX=c(5,5)) # 1 Запуск выбранного метода анализа

plotIndiv(My_result.spca) # 2 Визуальное представление образцов

plotVar(My_result.spca) # 3 Визуальное представление переменных

Можно заметить что сократилось количество элементов на круге корреляции Не - фото 5

Можно заметить, что сократилось количество элементов на круге корреляции. Не останавливайтесь на достигнутом, находясь в начале большого пути. Можно улучшить наглядность представляемых результатов анализа следующим образом: загляните в справочное руководство по каждой из функций используемой в примерах, введя в консоли ?pca, ?plotIndiv, ?sPCA. Для запуска сопутствующих примеров можно использовать функцию example: example(pca), example(plotIndiv), и другие.

Глава 2. Метод главных компонент (PCA)

Зададимся следующим вопросом: как определить основные источники различий в имеющихся данных, а после этого выяснить, соответствуют ли такие источники объективным условиям педагогического эксперимента или они образовались в результате предвзятости экспериментаторов? Попутно хотелось бы визуализировать основные тенденции и закономерности изменения значений между образцами, в частности, естественного характера, в соответствии с известными условиями педагогического наблюдения.

Так, например, исходные данные для анализа могут содержать таблицу с n рядами и p столбцами, соответствующими уровню успеваемости p студентов, измеренных на n курсах. Чтобы проиллюстрировать PCA, фокусируемся на уровнях успеваемости по темам, описанным в таблице данных My_table, сохранённой ранее.

Цель PCA заключается в том, чтобы уменьшить размерность данных, сохраняя при этом как можно больше информации, насколько это возможно. «Информация» здесь обусловлена дисперсией. Идея заключается в создании попарно несвязанных между собой вспомогательных переменных, называемых главными компонентами (PC), которые являются линейной комбинацией исходных (возможно, коррелирующих между собой) переменных (например, тематика контрольных работ и так далее).

Уменьшение размерности достигается за счет отображения исходных данных в пространство, порождаемое главными компонентами (PC). На практике это означает, что каждому образцу присваивается координата по каждому новому измерению PC – эта координата рассчитывается как линейная комбинация исходных переменных, с некоторыми весовыми коэффициентами. Вес каждой из исходных переменных хранится в так называемых векторах нагрузки, связанных с каждым образцом. Размер данных уменьшается за счет проецирования данных в подпространство меньшей размерности, порождаемое PC, при одновременном охвате крупнейших источников различий между образцами.

Главные компоненты получены таким образом, чтобы их дисперсия была максимальной. С этой целью вычисляются собственные векторы и собственные значения матрицы дисперсии-ковариации, часто с помощью алгоритмов линейного разложения значения, когда количество переменных достаточно велико. Данные, как правило, центруют (опцией center = TRUE), а иногда и масштабируют (scale = TRUE) при вызове метода. Масштабирование рекомендуется применять в том случае, если дисперсия неоднородна по переменным.

Первая главная компонента (PC1) определяется линейной комбинацией исходных переменных, что объясняет наибольшее количество вариаций. Вторая главная компонента (PC2) затем определяется как линейное сочетание исходных переменных, на которые приходится наибольшее количество оставшегося объема вариаций ортогонального (несвязанного) с первым компонентом. Последующие компоненты определяются также для других размерностей PCA. Таким образом, пользователь должен сообщить, сколько информации объясняется первыми ПК, поскольку они используются для графического представления выходов PCA.

Сначала загружаем данные. Чтобы загрузить свои собственные данные можно воспользоваться следующей командой:

My_result.pca <��– pca(X) # 1 Запуск выбранного метода анализа

plotIndiv(My_result.pca) # 2 Визуальное представление образцов