Валентин Арьков - Анализ распределения в Excel
- Название:Анализ распределения в Excel
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:2019
- ISBN:нет данных
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Валентин Арьков - Анализ распределения в Excel краткое содержание
Анализ распределения в Excel - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Чтобы установить правильную ширину столбиков, щёлкаем левой кнопкой по столбикам гистограммы и устанавливаем нулевой зазор между столбиками:
Format Data Series — Series Options — Gap Width — 0%
Формат ряда данных — Параметры ряда — Боковой зазор — 0%
Зазор между столбиками
Теперь настроим изображение столбиков. Слишком много закрашенных столбиков на графике отвлекает внимание от графика. Убираем заливку столбиков:
Format Data Series — Series Options — Fill & Line — Fill — No fill
Формат ряда данных — Параметры ряда — Заливка и границы — Заливка — Нет заливки
Очертания столбиков должны изображаться сплошной линией:
Border — Solid Line
Граница — Сплошная линия
Линии должны быть чёрного цвета:
Border — Color — Black
Граница — Цвет — Черный
Установим толщину линий 0,5 пункта:
Border — Width — 0.5 pt
Граница — Ширина — 0,5 пт
Только линии
Наконец, настроим масштаб по горизонтальной оси. Щёлкаем по горихонтальной оси. Выбираем вкладку
Axis Options
Параметры оси
Устанавливаем формат вывода числовых меток на оси:
Format Axis — Axis Options — Number — Category — Number
Decimal places = 0
Формат оси — Параметры оси — Число — Категория — Числовой
Число десятичных знаков = 2
Масштаб
Рассмотрим полученный график. При большой объёме выборки отдельные редкие значения появляются очень далеко от среднего значения — гораздо дальше, чем три сигмы. Чтобы собрать редкие удалённые значения в крайние интервалы, используем дополнительные настройки оси:
Format Axis — Axis Options — Underflow bin / Overflow bin
Формат оси — Параметры оси — Выход за нижнюю / верхнюю границу интервала
Выход за границы
После группировки крайних значений получаем два крайних интервала: «меньше 189» и «больше 311». При необходимости корректируем общее число интервалов.
Следующая особенность нашего графика — это форма скобок: круглая скобка для нижней границы и квадратная скобка для верхней границы интервала:
(250, 254]
Это означает, что нижняя граница не входит в интервал значений, то есть не учитывается при подсчёте количества попаданий случайных чисел в данный интервал. Аналогично работают остальные функции Excel, которые выполняют группировку данных. Отметим, что такой подсчёт частот полностью соответствует основным положениям теории вероятностей.
И последнее, что можно отметить в полученной гистограмме: высота столбиков соответствует количеству попаданий в интервал, что в статистике называется термином ЧАСТОТА или АБСОЛЮТНАЯ ЧАСТОТА. Для анализа гистограммы более информативным будет ОТНОСИТЕЛЬНАЯ ЧАСТОТА (в процентах). И такая возможность отсутствует в текущей версии встроенной статистической диаграммы.
Самое главное — графический интерфейс позволяет ознакомиться с инструментом и в диалоге, на ходу выбрать количество интервалов группировки. Эту настройку мы будем использовать при построении гистограммы с помощью других инструментов пакета.
Повторите все описанные выше шаги для выборки с равномерным распределением. Здесь и далее мы проводим свой анализ для обоих наборов исходных данных — с нормальным и с равномерным распределением.
Гистограмма. Надстройка
Второй способ построения гистограммы — функция надстройки
Histogram
Гистограмма
Вызываем эту функцию через верхнее меню:
Data — Analysis — Data Analysis — Histogram
Данные — Анализ — Анализ данных — Гистограмма
Параметры гистограммы
Появляется диалоговое окно
Histogram
Гистограмма
Надстройка требует, чтобы мы сами подготовили столбец чисел, которые станут границами интервалов группировки.
Input — Bin Range
Входные данные — Интервал карманов
На этот раз интервалы группировки названы КАРМАНАМИ. Причём имеются в виду только ВЕРХНИЕ (ПРАВЫЕ) ГРАНИЦЫ этих интервалов. В роли нижней границы интервала выступает верхняя граница предыдущего интервала. Эта часть интерфейса была разработа гораздо раньше встроенной статистической диаграммы и, скорее всего, другими людьми. Такой же подход к заданию границ интервалов встретится нам и при вызове статистической функции группировки.
Закрываем окно параметров гистограммы.
Нам нужно вручную сформировать столбец ВЕРХНИХ (ПРАВЫХ) ГРАНИЦ интервалов группирования. Возьмём постоянную длину интервала. Попробуем длину, равную 5. Судя по предыдущему графику и по нашим предварительным оценкам, нас будет интересовать диапазон значений от 190 до 310. Сформируем два столбца, чтобы легче было работать с нижними и верхними границами интервалов.
Сделаем заготовку таблицы для границ интервалов. Первый интервал от 190 до 195, второй — от 195 до 200.
Заготовка границ
Выделяем две строки таблицы и перетаскиваем маркер заполнения, то есть «растягиваем» таблицу вниз. Удаляем лишние ячейки.
Границы интервалов
Снова вызываем гистограмму в надстройке
Data — Analysis — Data Analysis — Histogram
Данные — Анализ — Анализ данных — Гистограмма
Появляется диалоговое окно
Histogram
Гистограмма
Выбираем диапазон ячеек, где находятся наши исходные данные:
Input — Input Range
Входные данные — Входной интервал
Нажимаем кнопку выбора диапазона со стрелкой, нарпавленной вверх — см. рисунок.
Выбор диапазона
Появляется окно выбора диапазона.
Выбор диапазона
Переходим на нужный лист нашей рабочей книги и выделяем столбец округлённых данных — вместе с заголовком. В этом случае имя переменной — заголовок столбца — автоматически появится в таблицах и на графиках. Поэтому щёлкаем по первой ячейке столбца Bи нажимаем комбинацию клавиш Ctrl + Shift + ↓, а затем клавишу Enterили кнопку со стрелкой, направленной вниз. Кроме диапазона адресов указывается название листа, на котором находятся наши данные — см. рисунок.
Здесь 04 — указание на лист с названием 04.
$B$1:$B$10001 — диапазон ячеек на указанном листе
Выбранный диапазон
Чтобы использовать заголовок столбца в качестве названия переменной, поставим галочку в разделе
Labels
Метки
Следующий шаг — выбираем диапазон ячеек, в котором мы сформировали ВЕРХНИЕ (ПРАВЫЕ) ГРАНИЦЫ интервалов группировки. Не перепутайте, именно верхние границы!
Input — Bin Range
Входные данные — Интервал карманов
Щёлкаем кнопку выбора диапазона и выделяем диапазон верхних границ — тоже вместе с заголовком.
Читать дальшеИнтервал:
Закладка: