Никита Сергеев - Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев…

Тут можно читать онлайн Никита Сергеев - Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… - бесплатно ознакомительный отрывок. Жанр: О бизнесе популярно. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев…
  • Автор:
  • Жанр:
  • Издательство:
    неизвестно
  • Год:
    неизвестен
  • ISBN:
    9785005007346
  • Рейтинг:
    4/5. Голосов: 21
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 80
    • 1
    • 2
    • 3
    • 4
    • 5

Никита Сергеев - Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… краткое содержание

Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… - описание и краткое содержание, автор Никита Сергеев, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Когда люди не инженерных специальностей слышат «аналитика и Data Science», то представляют разное. Кто-то видит таблицы и графики. Кто-то неподъемно сложные математические формулы. Кто-то программирование и искусственный интеллект…Но истоки этих понятий из области статистики, которая делится на описательную и аналитическую.И эта кажущаяся непостижимой аналитика – на самом деле нескучная, интересная и простая вещь. Чтобы ею пользоваться, не нужно ни изучение сложных формул, ни программирования…

Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… - читать онлайн бесплатно ознакомительный отрывок

Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Никита Сергеев
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Для этого у Вас, по сути, есть доступ к базе данных по всей генеральной совокупности – и Вы можете сделать аналитику, используя данные всей базы. Посмотреть, люди с каким профилем демографии, поведения, предпочитаемых рубрик чтения и т. д. не продлевали подписку в прошлом и, наложив обнаруженные закономерности на существующую базу, получить условно доверительный прогноз кто не продлит ее сейчас.

Также с генеральной совокупностью могут иметь дело специалисты кадровых служб, проводящие анализ сотрудников предприятия.

Другое дело, когда Вы решите изучить всех потенциальных клиентов, рынок кандидатов на вакансии или избирателей. Вот тут Вы столкнетесь с тем, что всех их изучить невозможно и дорого. Поэтому Вы будете исследовать только некоторых, а полученные результаты распространять на всю генеральную совокупность.

Вот те некоторые выбранные из генеральной совокупностиобъекты / образцы / люди / события и будут называться выборкой.

Но с выборкой не все так просто. Основная сложность в формировании выборки – это понимание того, какие именно объекты / образцы в нее включить так, чтобы иметь полную картину. Ведь она должна быть репрезентативной – т.е., полученные по ней результаты должны с высокой долей точности отражать генеральную совокупность.

Иллюстративно генеральная совокупность, выборка и вопрос ее репрезентативности изображены на рис. 10 .

Рис 10 Генеральная совокупность выборка и вопрос ее репрезентативности - фото 13

Рис. 10. Генеральная совокупность, выборка и вопрос ее репрезентативности

Неужели это настолько важно – какая будет выборка? Приведу такой пример (надеюсь, не обижу чувства верующих). Например, Вы выберете всех, кто участвовал в военных действиях. Эти люди выжили – и Вы обнаружите статистически значимую зависимость с молитвой перед боем. Вы будете впечатлены – неужели молитва реально помогает выжить? Можно ли заявить об этом?

Нет, нельзя. Во-первых, возможно Вы просто путаете причину и следствие (статистические взаимосвязи не означают причинно-следственные связи, о которой мы поговорим позже) – просто во время боевых и критических для жизни моментов люди начинают чаще молиться и надеяться на высшие силы. Поэтому правильная интерпретация – это опять же вопрос модели (элементов и их взаимосвязей) объекта / явления / процесса, который Вы исследуете.

А во-вторых, есть главная проблема в Вашем исследовании – Вы не знаете, сколько также молились, но погибли. Потому что не можете их опросить – они мертвы. Т.е., Вы отобрали нерепрезентативную выборку: она не представляет собой генеральную совокупность.

Для того чтобы выборка отражала генеральную совокупность, чаще всего используют три основных подхода:

1. Случайный: когда объекты для изучения отбираются из генеральной совокупности случайным образом.

2. Стратифицированный: когда генеральную совокупность разбивают на группы (страты) по важным для модели признакам (например, пол, возраст, отрасли, поведение, использование продукта с определенной частотой, частота посещения церкви и т.д.). Объём (%) каждой группы задает то количество объектов / наблюдений, которые надо отобрать из каждой группы. Получаются квоты на отбор тех или иных объектов.

3. Серийный: когда изымают партию товара, выбирают людей, проживающих в многоквартирном доме на конкретной улице, или берут целиком отдельные отделы в компании и т. д.

Соответсвенно, генеральная совокупность и выборка связаны напрямую: чтобы отобрать репрезентативную выборку, главное иметь правильное представление о всей генеральной совокупности.

А как рассчитать, сколько же объектов / случаев / наблюдений из генеральной совокупности необходимо включить в выборку?

Для этого есть специальная формула расчета ( спокойствие: книга, как и обещано, без формул ), которая для расчета размера выборки использует «размер генеральной совокупности», «допустимую вероятность» и «доверительный интервал»:

· Размер генеральной совокупности – это количество всехобъектов / наблюдений / случаев в генеральной совокупности.

· Доверительная вероятность – это считайте показателем точности / достоверности (о сути вероятности как таковой мы поговорим чуть позже). В практике обычно принимается 95%. Можно брать, конечно, значение выше или ниже – например, от 85% до 99,9%. Но тогда число объектов /случаев / наблюдений в выборке будет уменьшаться или увеличиваться соответственно.

· Доверительный интервал – это допускаемый Вами диапазон реальных значений при применении полученных на выборке результатов к генеральной совокупности. Задается в % и говорит о том, насколько ± % (в каком «коридоре») может отличаться истинное значение в генеральной совокупности от полученного в выборке. Например, если товаром по какому-то параметру в выборке клиентов довольны только половина (50%), то при доверительном интервале ±5% с вероятностью 95% истинное значение будет лежать в диапазоне от 47,5% до 52,5% (это ±5% от полученных в выборке 50% довольных).

Для сравнения:например, мы хотим узнать мнение 100.000 клиентов (генеральная совокупность).

Если нас устроит 95% вероятность с ±5% доверительным интервалом – то достаточно опросить 383 клиента.

Если Вас устроит ±10% – то хватит мнений всего 96 клиентов.

Ну а если нам «кровь из носа» необходима почти 100% вероятность (например, 99,7%) и чтоб почти без интервала (скажем, ±0,1%) – то готовьтесь исследовать почти всех клиентов, а именно 95.745.

Стандартно для социально-экономической реальности достаточно надежным считается использовать вероятность 95% и доверительный интервал ±5%.

По большому счету, чем выше Вы укажете вероятность и меньший доверительный интервал – тем больше объектов из генеральной совокупности должно попасть в выборку.

Сколько объектов брать в выборку – решать Вам исходя из допускаемых Вами погрешностей (все равно 100% достичь не получится) и экономичности (сколько затрат готовы понести на извлечение данных из выборки).

Сама формула расчета размера / объема выборки по большому счету Вам не нужна, так как расчет выборки автоматизирован как в спецпрограммах, так и в ряде онлайн калькуляторов.

Онлайн калькуляторыможно найти через любой поисковик в интернет (задайте запрос «онлайн калькулятор выборки»).

В калькулятор останется внести размер генсовокупности, а также устраивающую Вас вероятность и доверительный интервал – и калькулятор рассчитает сколько образцов (объектов / наблюдений / случаев) Вам необходимо исследовать в генеральной совокупности.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Никита Сергеев читать все книги автора по порядку

Никита Сергеев - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… отзывы


Отзывы читателей о книге Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев…, автор: Никита Сергеев. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x