Кругозор
«Сырые данные? Да вы просто не умеете их готовить!», или Статистика в комиксах
16 ноября 2016 7 087 просмотров

Алена Лепилина
Алена Лепилина

В МИФе вышла уже вторая книга, которая разрушает миф о том, что статистика скучна. «Статистика. Базовый курс в комиксах» — увлекательный путеводитель по нашему миру, которым правят данные. Наука не может быть скучной по определению! Ведь любое исследование — это любопытство, детективная работа, щепотка азарта, тайна и, конечно, ее разгадка. Smart is the new sexy — вы же знаете. Так что сегодня делаем себя более привлекательными для фертильных особей противоположного пола (и в спортзал идти не надо!) узнаем, что такое сырые данные и как их собирают.

Случайные сырые данные

С момента сотворения мира у людей есть потребность считать все, что их окружает.

syrye-dannye-1

По мере развития цивилизации появлялось все больше и больше вещей, которые нужно было считать. И тут возникла проблема. Нельзя посчитать все, что нам захочется. Иногда это просто невозможно.

syrye-dannye-12

И тогда кто-то умный придумал исследовать выборку (часть людей или предметов), а на основании этого сделать выводы обо всем остальном (это называется «генеральной совокупностью»).

syrye-dannye-4

Конечно, не получится абсолютно точно судить о генеральной совокупности лишь по части данных. Но и статистика этого не требует: надо лишь сделать максимально точное предположение. А эта задача вполне выполнима.

syrye-dannye-13

И, конечно, нужно собрать эту выборку аккуратно. Иначе можно серьезно исказить выводы — и тогда работу можно будет выбросить в мусорное ведро (а ведь иногда сбор данных занимает годы!).

syrye-dannye-14

Данные можно получить по-разному. Особенно это трудно, если речь идет о чем-то крупном (предположим, вам нужно измерить средний вес стаи летающих драконов) или, наоборот, о мелком (узнать, сколько стрекоз из всей популяции переливаются радужно-синим, а сколько — радужно-зеленым).

syrye-dannye-7

Определить выборку нелегко в том случае, если мы пытаемся понять, о чем думают люди и что они чувствуют. Или когда люди преувеличивают. И если, например, они что-то хотят скрыть.

syrye-dannye-6

Возможно, основная сложность в формировании выборки — понять, что (или кого) именно в нее следует включить. Кажется невыполнимым? А вот и нет. На этот случай у статистиков припасен надежный способ.

syrye-dannye-2

Конечно, это совсем не легко. Но если внимательно отнестись к делу, все получится.

syrye-dannye-3

syrye-dannye-5

Зато ваши старания окупятся с лихвой.

syrye-dannye-11

Правда, со времен сотворения мира количество сырых данных все увеличивается и увеличивается….

syrye-dannye-9

syrye-dannye-10

Но зачем же все это? Зачем тратить время и силы на то, чтобы собрать случайную выборку и обработать огромное количество данных? Чтобы принести пользу себе (например, удовлетворив свое любопытство), отдельно взятой компании или даже целой планете. Статистика — наука с огромными возможностями. И пора ими воспользоваться.

По материалам книги «Статистика. Базовый курс в комиксах»

Обложка поста: pexels

Рубрика
Кругозор
Похожие статьи