В МИФе вышла уже вторая книга, которая разрушает миф о том, что статистика скучна. «Статистика. Базовый курс в комиксах» — увлекательный путеводитель по нашему миру, которым правят данные. Наука не может быть скучной по определению! Ведь любое исследование — это любопытство, детективная работа, щепотка азарта, тайна и, конечно, ее разгадка. Smart is the new sexy — вы же знаете. Так что сегодня делаем себя более привлекательными для фертильных особей противоположного пола (и в спортзал идти не надо!) узнаем, что такое сырые данные и как их собирают.
Случайные сырые данные
С момента сотворения мира у людей есть потребность считать все, что их окружает.
По мере развития цивилизации появлялось все больше и больше вещей, которые нужно было считать. И тут возникла проблема. Нельзя посчитать все, что нам захочется. Иногда это просто невозможно.
И тогда кто-то умный придумал исследовать выборку (часть людей или предметов), а на основании этого сделать выводы обо всем остальном (это называется «генеральной совокупностью»).
Конечно, не получится абсолютно точно судить о генеральной совокупности лишь по части данных. Но и статистика этого не требует: надо лишь сделать максимально точное предположение. А эта задача вполне выполнима.
И, конечно, нужно собрать эту выборку аккуратно. Иначе можно серьезно исказить выводы — и тогда работу можно будет выбросить в мусорное ведро (а ведь иногда сбор данных занимает годы!).
Данные можно получить по-разному. Особенно это трудно, если речь идет о чем-то крупном (предположим, вам нужно измерить средний вес стаи летающих драконов) или, наоборот, о мелком (узнать, сколько стрекоз из всей популяции переливаются радужно-синим, а сколько — радужно-зеленым).
Определить выборку нелегко в том случае, если мы пытаемся понять, о чем думают люди и что они чувствуют. Или когда люди преувеличивают. И если, например, они что-то хотят скрыть.
Возможно, основная сложность в формировании выборки — понять, что (или кого) именно в нее следует включить. Кажется невыполнимым? А вот и нет. На этот случай у статистиков припасен надежный способ.
Конечно, это совсем не легко. Но если внимательно отнестись к делу, все получится.
Зато ваши старания окупятся с лихвой.
Правда, со времен сотворения мира количество сырых данных все увеличивается и увеличивается….
Но зачем же все это? Зачем тратить время и силы на то, чтобы собрать случайную выборку и обработать огромное количество данных? Чтобы принести пользу себе (например, удовлетворив свое любопытство), отдельно взятой компании или даже целой планете. Статистика — наука с огромными возможностями. И пора ими воспользоваться.
По материалам книги «Статистика. Базовый курс в комиксах»
Обложка поста: pexels