Никита Сергеев - Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев…
- Название:Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев…
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:неизвестен
- ISBN:9785005007346
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Никита Сергеев - Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… краткое содержание
Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
А ЕСЛИ ВЫ РАБОТАЛИ СО ВСЕЙ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТЬЮ И ОТ НЕЕ ПОЛУЧИЛИ ТОЛЬКО НЕКИЙ % ОТВЕТОВ?
Такое часто бывает, к примеру, когда Вы опрашиваете всех сотрудников предприятия. Вы раздали анкеты всем, а получили только некое количество ответов.
Тогда задача сводится к обратному: зная размер генсовокупности и выборки – рассчитать доверительный интервал, чтобы понимать, насколько полученные в выборке данные ± могут отличаться в генеральной совокупности.
Имея размер генеральной совокупности и количество заполненных анкет (выборка) можно рассчитать доверительный интервал (те наши ±%) для того или иного % ответов определенной категории.
Например, если в компании 5.000 сотрудников, а сдали анкеты только 3.250, то при доверительной вероятности 95% доверительный интервал будет ±1,02%. Считается это также в онлайн калькуляторах. Пример, как выглядят такие онлайн калькуляторы в сети Интернет на рис.10.1 :

Рис.10.1. Пример онлайн калькулятора расчета доверительного интервала
Но в расчете доверительного интервала есть один нюанс по поводу поля «Процент ответов».
Внимательно читаем:рассчитанный доверительный интервал будет справедливым для альтернатив ответов сотрудников, которые набрали 50%. Для альтернатив, которые набрали другие % – доверительный интервал будет другим .
Например, Вы задали сотрудникам такой компании вопрос «Довольны ли Вы стилем менеджмента в компании?» с тремя вариантами ответа и такими % ответов персонала:
· Доволен – 50%
· Насколько доволен, настолько недоволен – 15%
· Недоволен – 35%
В данном случае, доверительный интервал (или ошибка выборки) будет ±1,02% будет справедлива только для «довольных» – т.е. доля довольных будет в диапазоне 50±1,02% (от 48,98 до 51,02).
Но для средней альтернативы доверительный интервал (или ошибка выборки) будет ±0,73%.
А для «недовольных» ±0,97%.
Т.е, подставляя в поле «Процент ответов» разные значения альтернатив в зависимости от % отметивших их сотрудников, мы будем получать разные значения доверительного интервала для альтернатив.
На практике, если в целом ошибка выборки (значения доверительно интервала) Вас устраивает в целом для «Процент ответов» 50, то далее просто смотрят полученные % ответов.
Переменные
Данные обычно состоят из большого количества отдельных показателей, которые называют переменными. Это, например, доход, количество клиентов, город или страна, отдел, род войск, зарплата, пол, частота курения, количество посещений или часов порносайтов, частота занятия сексом в неделю, количество детей, социальный статус и т. д.
Переменная имеет свое значение для того или иного объекта /случая / наблюдения.
По большому счету переменная – это характеристика объекта / случая / наблюдения. Например, цвет глаз у каждого человека будет свой.
Т.о., каждый случай, объект или наблюдение имеют свои характеристики, т.е., имеет свое значение той или иной переменной. Переменные описывают объект.
Например, на рис. 11 в качестве примера приведены Валя и Иван – это объекты / случаи / наблюдения.

Рис. 11. Объекты и переменные
А их рост, цвет глаз, доход, место проживания, частота путешествий и другие характеристики – это переменные.
Например,
· Валя -женщина, Иван – мужчина.
· Рост Вали = 1,7 метра, а Ивана 1,82.
· У Вали глаза голубые, у Ивана зеленые.
· Валя живет в Омске, Иван в Москве.
· Месячный доход Вали – 80.000 руб, а Ивана – 200.000 руб.
· Валя ездит на отдых за границу редко – раз в несколько лет, Иван часто – несколько раз в год.
Шкалы для измерения переменных
Каждая переменная может принимать различные значения. Значения переменных варьируются и отличаются от случая к случаю, от объекта к объекту.
Ну и Вы уже наверняка заметили, что они могут быть измерены в различных шкалах.
Например, пол – 0 и 1 или 1 и 0. Т.е, мужчина или женщина.
Доход, который выражается в рублях и может принимать большое количество разных значений, хоть до копеек.
Или частота поездок за границу, курения, использования интернета…
Разные шкалы имеют разную информативность. От того, какая шкала используется, зависят также и методы анализа, которые к ней можно применять.
Статисты придумали разные типы шкал (см. рис.) но их в целом можно объединить в три основных типа, которые в книге приводятся в порядке возрастания информативности:

Рис. Типы шкал – и их 3 основные вида
Номинальная шкала( рис. 12 ) – например, пол, город, страна, семейное положение, политическая партия, ФИО кандидата в президенты.

Рис. 12. Номинальная шкала
По сути, это шкала наименований и классификаций. С ней бессмысленно проводить какие-либо математические операции. Цифры в ней ничего не значат (не имеют эмпирического значения). Если, например, мы поставим 1 Уфе, а 2 – Самаре, это не означает, что Уфа на ступеньку ниже Самары. Мы можем даже поменять цифры между городами – это ничего не изменит.
Т.е., эта шкала всего лишь определяет принадлежность наблюдения, случая или объекта к какой-то группе и позволяет классифицировать объекты. Тут мы можем посчитать только количество объектов в группе (количество или % мужчин и женщин в нашей выборке; количество людей из разных стран или профессий).
Отдельно при рассмотрении номинальных шкал стоит выделить дихотомии – переменные с двумя значениями. Пол, прошёл / не прошёл тест, выжил / погиб, любой вопрос с вариантами ответа только да / нет. Есть методы анализа, при которых удобно использовать именно дихотомии.
Второй тип шкал – порядковая или ранговая( рис. 13 ).

Рис.13. Порядковая (ранговая) шкала
Еще ее называют ординальная(от order – c англ. порядок ). Например, воинское звание, место в организационной иерархии или уровень образования. Тут закладывается степень проявления какого-то свойства между объектами, но непонятна ни его точность, ни расстояния между ними.
Читать дальшеИнтервал:
Закладка: