«Есть три вида лжи: ложь,
наглая ложь и статистика».
Марк Твен
Статистика — это не заумные формулы и абстрактные выводы, это то, что имеет непосредственное отношение к реальной жизни и помогает принимать важные решения. Статистика вездесуща, начиная с вероятности выиграть в лотерею заканчивая прогнозной полицией. Хол Вариан, главный экономист компании Google, в интервью Нью-Йорк Таймс сказал, что в следующем десятилетии работа со статистическими данными станет the sexy job.
Автор книги «Голая статистика», профессор Чарльз Уилан, с юмором и блестящими наглядными примерами рассказывает о том, как правильно интерпретировать числа, озвученные в новостях, использовать необычайную силу данных и получать наслаждение от статистики.
Бесконечный путь до стены
Сумма бесконечного ряда сходится к конечному числу. WTF?! Звучит сложно, правда? Но давайте разберем на примере и вам сразу станет все понятно. Возьмем ряд, который представляет собой бесконечную последовательность чисел и посчитаем его сумму:
1 + ½ + ¼ + ⅛ +… = ?
Допустим, вы стали ровно в двух метрах от стены. Пододвиньтесь к стене на половину этого расстояния (1 метр). В результате вы окажетесь в одном метре от стены. Еще раз придвиньтесь к стене на половину оставшегося расстояния (½ метра или 50 сантиметров). Находясь в 50 сантиметрах от стены, повторите описанные выше действия. И так далее. Постепенно вы почти упретесь в стену. Но ключевым здесь является слово почти: сколько бы раз вы ни повторяли это действие, расстояние между вами и стеной никогда не станет в точности равно нулю, поскольку, по определению, каждое такое продвижение приближает вас к стене лишь на половину оставшегося расстояния.
Если измерять ваши продвижения в футах, то соответствующую последовательность можно описать как 1 + ½ + ¼ + ⅛ … Сколько бы вы ни продвигались таким способом к стене (а вы будете делать это до бесконечности), совокупное расстояние, пройденное вами, не может превышать 2 метров, то есть вашего исходного расстояния от стены. С математической точки зрения, совокупное расстояние, пройденное вами, можно приравнять к 2 метрам, что весьма удобно в плане вычислений. Математик сказал бы, что сумма бесконечного ряда 1 метр+ ½ метра+ ¼ метра + ⅛ метра… сходится к 2 метрам, то есть именно то, что пытался объяснить преподаватель.
Теперь, исходя из собственного опыта вы можете утверждать, что благодаря интуиции математика и другие технические детали становятся гораздо понятнее.
Прогнозная полиция
В фильме 2002 года Minority Report Том Круз играет детектива, предотвращающего преступления. Его герой является сотрудником некоего бюро, которое использует определенную технологию для прогнозирования преступлений еще до того, как они будут совершены. И это уже не фантастика. В 2011 году в газете The New York Times вышла статья под заголовком: «Полиция прибывает на место до совершения преступления». В ней рассказывалось, что специальная компьютерная программа предсказала высокую вероятность совершения краж из автомобилей в этот день на подземной парковке, расположенной в деловом районе города Санта-Круз. Когда туда приехали детективы, они обнаружили двух женщин, слишком уж пристально всматривающихся в окна автомобилей. Одна из них уже неоднократно задерживалась за воровство, а у другой нашли запрещенные наркотики.
Система, использовавшаяся в Санта-Круз, была разработана двумя математиками, антропологом и криминалистом. Отдел полиции в Чикаго создал у себя целое подразделение аналитиков-прогнозистов. Частично его формирование объяснялось тем, что банды, терроризировавшие город, действовали по определенным шаблонам.
Корреляция
Корреляция измеряет степень связи между двумя явлениями. Например, существует корреляция между летними температурами и продажей мороженого. Когда повышается температура, растут объемы продажи мороженого. Две переменные положительно коррелированы, если изменение одной переменной вызывает изменение другой в том же направлении, то есть в направлении увеличения или уменьшения (например, взаимосвязь между ростом и весом человека). У более высоких людей больший вес (в среднем); низкорослые люди весят меньше. Корреляция отрицательна, если положительное изменение одной переменной обусловливает отрицательное изменение другой (например, связь между регулярным выполнением физических упражнений и весом человека).
Важным моментом в этом обсуждении является то, что корреляция не предполагает причинно-следственной связи: положительная или отрицательная корреляция между двумя переменными вовсе не обязательно означает, что изменения одной переменной вызывают изменения другой. Статистическая зависимость между A и B не доказывает, что A является причиной B. Вообще говоря, не исключено, что B — это причина A.
Допустим, согласно проводимому вами исследованию, регионы, которые тратят больше денег на школьное образование, демонстрируют более высокие темпы экономического роста, чем регионы, вкладывающие в школьное образование меньше денег. Наличие положительной и значимой зависимости между этими двумя переменными ничего нам не говорит о направлении этой зависимости. Инвестиции в программу школьного образования могут вызывать экономический рост. С другой стороны, регионы, демонстрирующие более высокие темпы экономического роста, могут себе позволить больше инвестировать в школьное образование; стало быть, сильная экономика может быть причиной увеличения расходов на образование.
Другой вариант: дополнительные траты на школьное образование могут стимулировать экономический рост, что позволяет вкладывать больше средств в образование, то есть причинно-следственные связи могут носить двусторонний характер. Следовательно, мы не должны использовать объясняющие переменные, зависящие от исхода, который мы пытаемся объяснить, — в противном случае результаты могут оказаться безнадежно запутанными.
Концепция вероятности понятным языком
В определенных случаях концепцию вероятности можно использовать для поимки мошенников. Фирма Caveon Test Security специализируется на так называемой экспертизе данных, позволяющей выявить некие закономерности, которые предполагают обман. Например, эта компания обратит внимание общественности на результаты экзаменов в том или ином учебном заведении или каком-либо другом месте их проведения, если обнаруженное количество идентичных неправильных ответов окажется крайне маловероятным (обычно речь идет о картине, которая складывается реже чем один раз на миллион).
При этом она руководствуется следующей математической логикой: когда большая группа учащихся правильно отвечает на какой-то вопрос, из этого нельзя сделать однозначный вывод. Здесь возможны два варианта: либо они дружно списали правильный ответ у кого-то из своих товарищей, либо все как один очень умные ребята. Но когда большая группа учащихся отвечает на какой-то вопрос неправильно, это настораживает: все не могут ответить одинаково неправильно — по крайней мере вероятность такого сценария чрезвычайно мала. Это говорит о том, что они списали неправильный ответ у кого-то из одноклассников.
Кроме того, Caveon Test Security выявляет экзамены, в ходе которых экзаменуемые отвечают на сложные вопросы значительно лучше, чем на простые (в таком случае предполагается, что ответы им были известны заранее), или количество исправлений неправильного ответа на правильный существенно превышает количество исправлений правильного ответа на неправильный (в таком случае предполагается, что после экзамена преподаватель или экзаменатор подменил листы с ответами).
Разумеется, нетрудно заметить ограничения, присущие использованию вероятностей. Достаточно большая группа экзаменуемых может абсолютно случайно дать одинаково неправильные ответы на какой-то вопрос; к тому же чем больше учебных заведений будет проверяться, тем выше вероятность натолкнуться на подобную картину. Однако никакая статистическая аномалия не опровергает принципиальную правильность предлагаемого подхода.
В книге «Голая статистика» автор постарался по возможности избегать употребления математических формул, уравнений и графиков. Статистика может быть действительно интересной и по большей части не так сложна, как кажется поначалу.
Фото обложки поста — bowriversolutions.com.P.S. Понравилось? Подписывайтесь на нашу рассылку. Раз в две недели мы будем присылать вам 10 лучших материалов из блога.