Сегодня в рубрике «Интеллектуальный час» займемся статистикой. Вы слышали когда-нибудь о регрессионном анализе? А сможете хотя бы что-то о нем рассказать? Если нет — эта статья как раз для вас. О регрессионном анализе рассказывает Чарльз Уилан в своей книге «Голая статистика». Ну что ж, приступим.
Смертельный стресс
Может ли стресс на работе стать причиной вашей смерти? Да, вполне. Существуют убедительные доказательства того, что суровые условия на работе могут привести к преждевременной смерти, особенно в результате развития сердечно-сосудистых заболеваний. Однако это не тот вид стресса, о котором вы, наверное, подумали.
Главы компаний, которым буквально каждый день приходится принимать чрезвычайно сложные и ответственные решения, определяющие дальнейшую судьбу их бизнеса, рискуют значительно меньше, чем их секретарши, бесконечно отвечающие на телефонные звонки, параллельно выполняя множество других задач, предусмотренных должностной инструкцией. Как такое может быть?
Оказывается, самый опасный вид стресса на работе обусловлен невозможностью человека в достаточной степени контролировать способы и условия выполнения поставленных задач. Ряд исследований, проводившихся (по заказу правительства) в отношении тысяч британских мелких чиновников, показал, что от них практически не зависит, чем именно им предстоит заниматься и как именно это выполнять, что и является причиной их высокой смертности по сравнению с чиновниками более высоких рангов, ответственных за принятие важных решений.
Как проводятся исследования
Но как ученые приходят к подобным выводам? Очевидно, что это не результат рандомизированного эксперимента. Мы не можем произвольно поручать людям некую работу, заставляя их долгие годы ею заниматься, а затем выяснять, кто из них раньше умер. (Случайным образом поручая людям выполнение тех или иных задач, мы рискуем нанести огромный вред государственной службе Британии, не говоря уже об этической стороне дела.)
Вместо этого исследователи собирали о тысячах государственных служащих Британии подробные повторные данные, анализ которых позволяет выявить определенные связи, например между невозможностью человека в достаточной степени контролировать способы и условия выполнения своей работы и развитием сердечно-сосудистых заболеваний. Но такой связи мало для того, чтобы сделать вывод о вреде тех или иных видов работ для здоровья человека.
Любое сравнительное исследование — изменение состояния здоровья у большой группы британских работников или какой-то другой крупной группы населения — не позволяет нам сделать далекоидущие выводы. Возможно, что другие источники изменения полученных нами данных внесут искажения в интересующую нас связь. Можем ли мы быть уверены в том, что именно невозможность человека в достаточной степени контролировать содержание, способы и условия выполнения своей работы является подлинной причиной развития у него сердечно-сосудистых заболеваний? Или истинная причина — в сочетании действия ряда факторов, которые оказались общими для данной категории людей?
Статистический инструмент под названием регрессионный анализ помогает решить данную проблему.
А если конкретнее, то регрессионный анализ позволяет нам измерить величину зависимости между какой-то переменной и интересующим нас исходом, зафиксировав действие всех прочих факторов.
Другими словами, мы можем вычленить влияние одной переменной (например, занятие определенным родом деятельности), сохраняя на постоянном уровне действие других переменных.
Знакомьтесь, регрессионный анализ
Большинство исследований, о которых вам приходилось читать в прессе, основываются на регрессионном анализе. Когда ученые приходят к выводу, что у детей, посещавших детсад, чаще возникают проблемы с успеваемостью в начальной школе, чем у детей, которые воспитывались дома, это вовсе не означает, что они случайным образом сформировали выборку из нескольких тысяч детей, одну половину которых отправили в детсады, а другую оставили на попечении родителей.
Это также не означает, что исследователи просто сравнили успеваемость в начальной школе детей, посещавших детсад, и детей, находившихся дома, не отдавая себе отчета в том, что эти две группы детей фундаментально разнятся между собой по ряду других показателей. В разных семьях принимаются разные решения относительно воспитания детей именно потому, что эти семьи — разные.
В случае надлежащего выполнения регрессионный анализ помогает оценить влияние воспитания, исключив из рассмотрения другие факторы воздействия на детей: семейный доход, структуру семьи, образование родителей и т. п.
Главная трудность — определить, какие именно переменные следует рассматривать в этом анализе и как это лучше всего сделать.
Что важно. Наше исследование воспитания детей не дает нам «правильного» ответа относительно зависимости между способом воспитания ребенка (в детсаду или дома) и его успеваемостью в начальной школе. Вместо этого оно оценивает величину этой связи у конкретной группы детей на определенном отрезке времени.
Регрессионный анализ подобен проведению опросов общественного мнения, — источник.
Можем ли мы сделать выводы, применимые к более широкой совокупности? Да, но при этом нам придется иметь дело с такими же ограничениями и условиями, с какими мы сталкиваемся, делая любой другой статистический вывод. Во-первых, используемая нами выборка должна быть репрезентативной, то есть представлять всю интересующую нас совокупность. Исследование 2000 детей в Швеции не позволит нам прийти к сколь-нибудь значимым выводам относительно оптимальных методов дошкольного образования детей в сельскохозяйственных районах Мексики. И во-вторых, не следует забывать о существовании разброса между выборками. Если мы выполняем ряд исследований, касающихся детей и их воспитания, то их результаты будут несколько отличаться между собой, даже если используемые при этом методологии будут одинаковы и совершенно надежны.
Есть сигнал!
Регрессионный анализ обладает замечательным свойством вычленять в каждом отдельном случае статистическую связь, которая представляет для нас интерес, например связь между невозможностью человека в достаточной степени контролировать содержание, способы и условия выполнения своей работы и развитием сердечно-сосудистых заболеваний, учитывая при этом другие факторы, которые могут внести в нее искажения.
Как действует данный механизм? Если нам известно, что мелкие государственные служащие Британии курят чаще, чем их начальники, то как нам определить, в какой мере плохое состояние их сердечно-сосудистой системы обусловлено спецификой работы, а в какой — этой пагубной привычкой? Оба фактора кажутся неразрывно связанными между собой.
Регрессионный анализ (выполненный надлежащим образом!) позволяет разделить эти факторы.
Чтобы объяснить процесс на интуитивном уровне, мне придется начать с базовой идеи, лежащей в основе всех форм регрессионного анализа, от простейших статистических связей до сложных моделей, разработанных лауреатами Нобелевской премии. По своей сути регрессионный анализ стремится найти «наилучшее приближение» линейной зависимости между двумя переменными. Простой пример — зависимость между ростом и весом людей. Те, кто выше ростом, как правило, весят больше, хотя эта закономерность соблюдается не всегда.
Если бы вас попросили описать получившуюся картину, вы бы наверняка сказали что-то вроде: «Вес, по-видимому, увеличивается пропорционально росту». Такую догадку вряд ли можно назвать озарением. Регрессионный анализ позволяет нам пойти дальше и «провести линию», которая точнее всего отражает линейную зависимость между этими двумя переменными.
Регрессионный анализ позволяет распутывать сложные взаимосвязи, в которых многие факторы оказывают влияние на интересующий нас исход.
По материалам книги «Голая статистика». Обложка поста: pexels