Элементы Элементы большой науки

Поставить закладку

Напишите нам

Карта сайта

Содержание
Энциклопедия
Новости науки
LHC
Картинка дня
Библиотека
Методология науки
Избранное
Публичные лекции
Лекции для школьников
Библиотека «Династии»
Интервью
Опубликовано полностью
В популярных журналах
Из Книжного клуба
Статьи наших друзей
Статьи лауреатов «Династии»
Выставка
Происхождение жизни
Видеотека
Книжный клуб
Задачи
Масштабы: времена
Детские вопросы
Плакаты
Научный календарь
Наука и право
ЖОБ
Наука в Рунете

Поиск

Подпишитесь на «Элементы»



ВКонтакте
в Твиттере
в Фейсбуке
на Youtube
в Instagram



Новости науки

 
23.01
«Чудесные круги» в пустыне Намиб можно смоделировать

19.01
Чтобы ослабить атаку Т-клеток, опухоль меняет набор неоантигенов

17.01
Ученые разгадали тайну хиолитов — загадочных палеозойских животных

16.01
Описан новый надтип архей, к которому относятся предки эукариот

11.01
Многолетнее исследование черных ворон в Испании выявило преимущества коммунального гнездования






Главная / Библиотека / Из Книжного клуба версия для печати

«Голая статистика». Главы из книги

Чарльз Уилан


Голая статистика

Чарльз УИЛАН

Голая статистика

Самая интересная книга о самой скучной науке

(Charles Wheelan. Naked Statistics: Stripping the Dread from the Data)

О том, как статистика помогает принимать важные социальные решения, находить скрытые взаимосвязи между явлениями, лучше понимать ситуацию в бизнесе и на рынке.


Глава 6. Проблемы с вероятностью

Как самоуверенные знатоки математики едва не разрушили глобальную финансовую систему

Статистика не может быть более совершенной, чем люди, которые ее используют. Но иногда она заставляет умных людей делать глупости. Одним из самых безответственных случаев применения статистики за последнее время стал механизм оценивания рисков на Уолл-стрит перед финансовым кризисом 2008 года. В то время компании, представляющие финансовый сектор, использовали общепринятый барометр риска — модель стоимости риска, или рисковой стоимости (Value-at-Risk — VaR). Теоретически VaR сочетала в себе элегантность индикатора (совмещая обширную информацию в едином числовом показателе) с мощью вероятности (присоединяя ожидаемую прибыль или убыток к каждому из активов или торговым позициям соответствующей фирмы). Такая модель исходила из того, что для каждой инвестиции компании существует определенный диапазон возможных исходов. Если, например, компания владеет акциями General Electric, то их стоимость может повышаться или понижаться. Когда VaR вычисляется для некоего короткого промежутка времени, например недели, то самым вероятным исходом станет то, что в конце данного периода у этих акций будет примерно такая же стоимость, как и в начале. Вероятность того, что их стоимость повысится или снизится на 10%, относительно невелика. Еще меньше вероятность того, что она повысится или снизится на 25%, и т. д.

На основе прошлых данных о движениях рынка «количественные» эксперты компании (в сфере финансов их часто называют «квантами» [от слова quantitative, то есть «количественный»], а во всех остальных отраслях — «богатенькими ботанами») могли определить максимальную сумму в денежном выражении (например, 13 миллионов долларов), которую фирма может с 99-процентной вероятностью потерять на данной позиции в течение рассматриваемого периода времени. Другими словами, в 99 случаях из 100 компания не потеряет более 13 миллионов долларов на конкретной торговой позиции; а в 1 случае из 100 потеряет.

Запомните последнее утверждение, поскольку вскоре оно станет важным. До финансового кризиса 2008 года фирмы охотно использовали модель VaR для оценки своего суммарного риска. Если у какого-либо отдельно взятого трейдера было 923 различных открытых позиции (инвестиций, стоимость которых могла расти или падать), то каждую из таких инвестиций можно было оценить, как описано выше для акций General Electric, и на основе этого вычислить совокупный риск портфеля данного трейдера. Формула даже учитывала корреляции между разными позициями. Если, например, ожидаемые доходности двух инвестиций отрицательно коррелированы между собой, то убыток по одной из них, скорее всего, будет компенсирован прибылью по другой; таким образом, две инвестиции в совокупности менее рискованны, чем каждая в отдельности. В целом глава торгового отдела должен знать, что, скажем, у Боба Смита, торгующего облигациями, 24-часовая VaR (стоимость риска в течение ближайших 24 часов) 19 миллионов долларов — как указывалось выше, с 99-процентной вероятностью. Максимум, что может потерять Боб Смит в течение ближайших 24 часов, это 19 миллионов долларов — в 99 случаях из 100.

К тому же, что еще лучше, в любой момент можно вычислить совокупный риск для компании, дополнив тот же самый базовый процесс. Математические механизмы, положенные в его основу, по-видимому, невероятно сложны, поскольку каждая из фирм располагает огромным массивом инвестиций в разных валютах, с разными величинами рычагов (по-другому, леверидж, или кредитное плечо; сумма, которая заимствована для выполнения соответствующей инвестиции), торгующихся на рынках с разными степенями ликвидности, и т. д. Несмотря на все это, менеджеры фирмы якобы располагали точным показателем величины риска, принимаемого ею на себя в любой момент времени. Как поясняет бывший экономический обозреватель The New York Times Джо Носера: «Огромная привлекательность VaR в глазах людей, которые не принадлежат к числу „квантов“, заключается в том, что она представляет риск в виде единого числа, в денежном выражении — и никак не меньше!»1. В банке J. P. Morgan, где была разработана и неоднократно уточнялась модель VaR, ее ежесуточное вычисление носило название «отчет 4:15», так как результат этого расчета появлялся на рабочих столах высшего руководства каждый день в 16:15 — сразу же после закрытия в тот день американских финансовых рынков.

По-видимому, это был неплохой вариант, поскольку наличие дополнительной информации в любом случае лучше, особенно когда речь идет о риске. В конце концов, вероятность — довольно мощный инструмент. Разве эти вычисления принципиально отличаются от тех, которыми занималось руководство компании Joseph Schlitz Brewing Company, прежде чем потратить кучу денег на проведение слепой сравнительной дегустации пива в перерыве матча за Суперкубок?

Как сказать... Как только ни называли в свое время показатель VaR: и «потенциально катастрофический», и «надувательский», и... (да, были и другие эпитеты, которые вряд ли следует упоминать в такой солидной книге по статистике, как эта). В частности, именно эту модель обвиняли в наступлении финансового кризиса, разразившегося в 2008 году. Главной причиной критики в адрес VaR является то, что фундаментальные риски, связанные с финансовыми рынками, невозможно предсказать по аналогии с подбрасыванием монетки или слепой сравнительной дегустацией двух сортов пива. Ложное ощущение точности, встроенное в эти модели, породило ложное ощущение безопасности. Показатель VaR был похож на неисправный спидометр; пожалуй, это хуже, чем если бы его не было вообще. Понадеявшись на неисправный спидометр, вы перестанете обращать внимание на другие признаки того, что уже превысили допустимую скорость. В случае же отсутствия спидометра вам придется отслеживать признаки, указывающие на реальную скорость движения автомобиля.

Примерно в 2005 году, ориентируясь исключительно на показатели VaR, которые ежедневно появлялись на рабочих столах руководителей компаний ровно в 16:15, Уолл-стрит набрала скорость, существенно превышающую допустимую. К сожалению, с профилями риска, заложенными в моделях VaR, существовали две огромные проблемы. Во-первых, вероятности, на которых строились эти модели, исходили из прошлых движений рынка; однако на финансовых рынках (в отличие от дегустации пива) будущее вовсе не обязательно должно быть похожим на прошлое. Таким образом, не было никаких оснований полагать, что движения рынка в период с 1980 по 2005 год были наилучшим предиктором изменений на рынке после 2005 года. В какой-то степени этот недостаток воображения напоминает периодические ошибочные предположения генералов о том, что следующая война будет похожа на предыдущую. В 1990-е годы, а также в начале нулевых коммерческие банки широко применяли модели кредитования для жилищных ипотек, согласно которым вероятность значительного снижения цен на жилье близилась к нулю2. Цены на жилье никогда ранее не падали так сильно и так быстро, как это происходило с начала 2007 года. Однако случилось то, что случилось. Бывший глава Федеральной резервной системы Алан Гринспен, выступая впоследствии перед членами одного из комитетов Конгресса США, так объяснял этот факт: «Все это величественное интеллектуальное здание рухнуло летом 2007 года, поскольку данные, вводимые в модели управления риском, охватывали лишь два последних десятилетия, то есть период, когда всех нас захлестнула эйфория. Между тем, если бы мы использовали более подходящие модели, затрагивающие исторические периоды, характеризующиеся экономическим неблагополучием, то, как мне кажется, требования к капиталу оказались бы значительно выше, а финансовый мир чувствовал бы себя гораздо лучше»3.

Кроме того, даже если бы исходные данные могли точно прогнозировать будущий риск, 99-процентная гарантия, обещанная моделью VaR, была опасно бесполезной, поскольку остающийся 1% действительно вводит в заблуждение. Менеджер хеджевого фонда Дэвид Айнхорн поясняет: «Это как подушка безопасности, которая дает сбой именно в момент автокатастрофы». Если стоимость риска (VaR) какой-либо компании составляет 500 миллионов долларов, то это можно рассматривать как 99-процентную вероятность того, что на протяжении указанного периода фирма потеряет не более этой суммы. Но это также означает, что данная компания может с 1-процентной вероятностью потерять свыше 500 миллионов долларов (а при определенных обстоятельствах даже значительно больше). По сути, опираясь на эти модели, невозможно предусмотреть, насколько плохим может оказаться 1-процентный сценарий. Очень мало внимания уделялось так называемому хвостовому, то есть малому риску (производное от хвоста кривой распределения) какого-то катастрофического исхода. (Если вы возвращаетесь домой из ресторана за рулем своего автомобиля и уровень алкоголя в вашей крови равен 0,15 промилле, то вероятность того, что вы попадете в ДТП со смертельным исходом, наверное, будет менее 1%; тем не менее это не повод садиться за руль в нетрезвом виде.) Многие компании усугубили эту ошибку, сделав нереалистичное предположение о своей готовности к маловероятным событиям. Бывший глава Казначейства США Хэнк Поулсон пояснил, что большинство из них надеялись в крайнем случае привлечь денежные средства путем продажи активов4. Но во время кризиса деньги нужны всем, поэтому все пытаются продать те или иные активы. С точки зрения управления рисками это равносильно тому, как если бы вы сказали: «Мне нет нужды запасаться водой и продуктами питания, поскольку в случае стихийного бедствия я смогу пойти в супермаркет и купить все необходимое». Разумеется, после того как астероид упадет на ваш город, его пятьдесят тысяч жителей ринутся в супермаркеты, чтобы запастись водой и продуктами питания, но к тому моменту, когда вы доберетесь до ближайшего супермаркета, окна в нем будут разбиты, а полки пусты.

То обстоятельство, что вы никогда всерьез не рассматривали возможность падения на ваш город крупного астероида, в точности описывает проблему с VaR. Вот еще одна выдержка из статьи колумниста The New York Times Джо Носера, который подытоживает мысли Николаса Талеба, автора книги The Black Swan: The Impact of the Highly Improbable5 и яростного критика VaR: «Самые опасные — отнюдь не риски, которые вы можете увидеть и измерить, а риски, которые вы не можете увидеть и, следовательно, измерить. Это риски, находящиеся настолько далеко за пределами нормальной вероятности, что невозможно даже себе представить, что они могут произойти в вашей жизни, — хотя, конечно же, они случаются, и даже чаще, чем вы могли бы предположить».

В каком-то смысле фиаско VaR является полной противоположностью примера с компанией Joseph Schlitz Brewing Company, приведенного в главе 5. Данные о вероятности выбора пива в ходе слепой сравнительной дегустации, которыми располагала эта компания, позволили ей примерно предугадать поведение дегустаторов в ходе сравнительной дегустации, транслируемой в прямом эфире во время перерыва матча за Суперкубок. Компании даже удалось обернуть себе на пользу то обстоятельство, что в акции участвовали только любители других сортов пива. Даже если бы пиво Schlitz предпочли не более 25% любителей пива Michelob (практически нереальный исход), компания все равно могла бы сказать, что по крайней мере одному из каждых четырех любителей пива следовало бы переключиться на пиво Schlitz. И, возможно, самое важное: здесь речь шла лишь о пиве, а не о глобальной финансовой системе. «Кванты» с Уолл-стрит совершили три фундаментальные ошибки. Во-первых, они спутали точность с достоверностью. Модели VaR действовали подобно моему дальномеру, который был настроен на измерение расстояний в метрах, а не в ярдах, в результате чего расстояния измерялись точно, но неправильно. Эта ложная точность заставила обитателей Уолл-стрит поверить, будто они контролируют риск, хотя на самом деле это было не так. Во-вторых, оценки вероятностей, положенные в основу вычислений согласно модели VaR, оказались ошибочными. Как указывал Алан Гринспен, выступая на слушаниях в одном из комитетов Конгресса США (цитату из его выступления я приводил чуть выше), относительно безмятежные и благополучные десятилетия до 2005 года не следовало брать за основу при построении распределений вероятностей, которые использовались для прогнозирования поведения рынков в предстоящие десятилетия. Это как если бы вы отправились в казино с твердой уверенностью, что сегодня выиграете в рулетку в 62 случаях из ста только потому, что именно так получилось вчера, когда удача сопутствовала вам. Подобная уверенность обошлась бы вам очень дорого! В-третьих, компании пренебрегли «хвостовым риском». Модели VaR прогнозируют, что должно произойти в 99 случаях из ста. Именно таков механизм действия вероятностей (во второй половине книги это обстоятельство будет подчеркиваться неоднократно). Между тем маловероятные события время от времени случаются. Более того, в долгосрочном периоде они не так уж и маловероятны. Иногда в людей попадает молния. Моя мать убедилась в этом на собственном опыте.

«Статистическое высокомерие», продемонстрированное коммерческими банками и на Уолл-стрит, в конечном счете сыграло ключевую роль в самом жестоком глобальном финансовом кризисе со времен Великой депрессии. Этот кризис, разразившийся в 2008 году, серьезно подорвал финансовое благополучие Соединенных Штатов, повысил уровень безработицы до более чем 10%, породил волну банкротств и отчуждений имущества и заставил многие государства, пытавшиеся минимизировать экономический ущерб, влезть в огромные долги. Подобный исход особенно печален потому, что столь изощренные инструменты, как VaR, обязаны были снизить угрозу риска.

Теория вероятностей предоставляет в наше распоряжение мощный и полезный набор инструментов, правильное использование которых поможет лучше уяснить ситуацию, складывающуюся в мире; а неправильное посеет в нем хаос. В русле метафоры «статистика как мощное оружие», которая неоднократно повторяется в этой книге, я хочу перефразировать любимое выражение сторонников свободной продажи огнестрельного оружия в нашей стране: ошибается не теория вероятностей, а люди, которые ею пользуются. Далее в этой главе я перечислю ряд самых распространенных ошибок, заблуждений и этических дилемм, связанных с применением концепции вероятности.

Предполагается, что события независимы, тогда как на самом деле они зависимы друг от друга. Вероятность выпадания решки при подбрасывании «правильной» монетки равняется ½. Вероятность двукратного (подряд) выпадания решки при подбрасывании такой же монетки составляет (½)2, или ¼, поскольку вероятность одновременного наступления двух независимых событий равняется произведению их индивидуальных вероятностей. Теперь, когда вы вооружены этим важным знанием, допустим, что вас назначили на должность начальника отдела управления рисками в крупной авиакомпании. Ваш заместитель сообщает вам, что вероятность выхода из строя по тем или иным причинам авиадвигателя во время трансатлантического перелета составляет 1 шанс из 100 000. Учитывая количество трансатлантических перелетов, этот риск нельзя считать приемлемым. К счастью, каждый современный самолет, совершающий такие перелеты, оснащен по меньшей мере двумя двигателями. Ваш заместитель подсчитал, что риск одновременного выхода из строя обоих во время трансатлантического перелета должен равняться (1/100 000)2, или 1 шансу из 10 миллиардов, что считается вполне приемлемым риском с точки зрения обеспечения безопасности полетов. Что же, сейчас самое время предложить вашему заместителю взять отпуск и подготовиться к увольнению. Поломка обоих авиадвигателей не относится к категории независимых событий. Если во время взлета самолет наталкивается на стаю гусей, то, вероятнее всего, оба двигателя выйдут из строя одинаковым образом. То же самое можно сказать о многих других факторах, влияющих на функционирование авиадвигателя, начиная с погодных условий и заканчивая небрежным выполнением своих обязанностей наземными службами техобслуживания. Если один двигатель выйдет из строя, то вероятность поломки второго будет значительно выше, чем 1 шанс из 100 000.

Это очевидно, не правда ли? Однако британским прокурорам это показалось не столь очевидным в 1990-е, когда они совершили серьезную судебную ошибку вследствие некорректного использования теории вероятностей. Как и в гипотетическом примере с авиадвигателями, ошибка заключалась в предположении о независимости нескольких событий (как с подбрасыванием монетки), хотя на самом деле они были зависимы (то есть когда какой-то определенный исход повышает вероятность аналогичного исхода в будущем). Тем не менее эта теоретическая ошибка стоила свободы абсолютно невинным людям, которые в результате оказались за решеткой.

Эта история произошла в контексте так называемого синдрома внезапной смерти младенцев во время сна (СВСМ) — явления, когда вполне здоровый малыш умирает в своей кроватке. (У британцев СВСМ принято называть «смертью в колыбели».) Долгое время СВСМ оставался медицинской загадкой, которая привлекала к себе все большее внимание по мере снижения детской смертности по другим причинам6. Поскольку СВСМ настолько таинственен и малопонятен, его феномен породил всевозможные подозрения. Иногда они подтверждались. Время от времени ссылки на СВСМ использовались, чтобы скрыть факты небрежного выполнения родительских обязанностей или даже предумышленного убийства, так как вскрытие далеко не всегда позволяет отличить смерть в силу естественных причин от убийства. Британские прокуроры и суды были убеждены, что один из способов правильно определять причины СВСМ — повысить внимание к семьям с повторными случаями «смерти в колыбели». Сэр Рой Мидоу, известный британский педиатр, часто привлекался к рассмотрению подобных случаев в качестве эксперта. Как поясняется в британском журнале The Economist: «Мысль, которая пришла в голову Рою Мидоу и стала впоследствии известной как „закон Мидоу“ (суть ее в том, что одна младенческая смерть — это трагедия, две смерти вызывают подозрение, а три — это убийство), основывается на том, что если какое-либо событие является достаточно редким, то два или большее число его наступлений в одной и той же семье настолько маловероятны, что нет никаких оснований считать это простой случайностью»7. Сэр Рой Мидоу объяснил присяжным, что вероятность внезапной смерти от естественных причин двух младенцев в одной семье чрезвычайно мала и равняется примерно одному шансу из 73 миллионов. Он толковал свои подсчеты так: поскольку случаи «смерти в колыбели» встречаются довольно редко (1 из 8500), вероятность наступления двух смертей в колыбели в одной и той же семье составляет (1/8500)2, что равняется примерно одному шансу из 73 миллионов. Так что здесь явно попахивает предумышленным убийством. Руководствуясь этими доводами, присяжные выносили свои вердикты. В результате, основываясь на статистике смертей в колыбели, присяжные отправили за решетку немалое число родителей (зачастую без учета каких-либо медицинских свидетельств, указывающих на их неумелое обращение с ребенком). В некоторых случаях у родителей, относительно которых возникали подозрения, вызванные необъяснимой смертью кого-либо из их детей в младенческом возрасте, последующих детей отбирали сразу же после рождения.

The Economist объясняет, каким образом неправильная трактовка статистической независимости могла привести к ошибочным выводам в докладе, с которым Мидоу выступал перед присяжными:

Как указывает Королевское статистическое общество (Royal Statistical Society), в рассуждениях Мидоу есть очевидный изъян. Выполненный им подсчет вероятности был бы правильным, если бы смерти в колыбели носили совершенно случайный характер и не были бы связаны с каким-то неизвестным фактором. Но когда речь идет о столь загадочном феномене, как смерть в колыбели, вполне возможно наличие какой-то связи, например некоего генетического фактора, вследствие действия которого угроза потерять по той же причине еще одного ребенка в семье, уже лишившейся одного малыша, гораздо выше, (а не ниже), чем в семьях, где таких случаев не зафиксировано. После того как в результате повторных смертей в колыбели многие родители оказались за решеткой, ученые поверили в реальность существования такой связи.

В 2004 году британское правительство объявило о предстоящем пересмотре 258 приговоров, согласно которым родители, обвинявшиеся в умышленном лишении жизни своих детей, отбывают тюремный срок.

Непонимание, когда события ДЕЙСТВИТЕЛЬНО независимы друг от друга. Еще одна разновидность ошибок возникает, когда события, действительно независимые друг от друга, рассматриваются как взаимосвязанные. Если вы когда-либо окажетесь в казино (место, в котором, с точки зрения статистики, вам лучше вообще не появляться), то обязательно увидите людей, вперившихся взглядом в игральные кости или карты и заявляющих, что они «ожидают должное». Если шарик рулетки пять раз подряд остановился на черном поле, то всякому здравомыслящему человеку понятно, что на следующий раз должно выпасть красное. Нет, нет и еще раз нет! Вероятность того, что шарик остановится на красном поле, каждый раз будет одной и той же: 16/38. Уверенность в том, что это вовсе не так, иногда называют «заблуждением игрока». В действительности, если «правильную» монетку подбросить 1 000 000 раз и каждый раз будет выпадать решка, то вероятность того, что на 1 000 001-й раз выпадет орел, по-прежнему останется ½. Само определение статистической независимости двух событий заключается в том, что исход одного события никак не сказывается на исходе другого. Даже если статистика не убеждает вас, обратитесь к физике соответствующего явления: каким образом выпадание решки несколько раз подряд может повлиять на вероятность выпадания орла в результате следующего подбрасывания монетки?8

Даже в спорте представление о полосе удач и неудач может оказаться иллюзорным. В одной из самых знаменитых и интересных научных статей, посвященных вероятностям, опровергается общепринятое утверждение о том, что в течение одной игры у баскетболистов периодически возникает некая «полоса везения», когда один за другим следуют удачные броски по кольцу (в таких случаях говорят, что игрок «набил себе руку»). Несомненно, большинство спортивных болельщиков станут вас уверять, что игрок, попавший по кольцу, с большей вероятностью попадет по нему при выполнении следующего броска, чем игрок, «промазавший» перед этим. Однако исследование, проведенное Томасом Гиловичем, Робертом Валлоне и Амосом Тверски, которые протестировали феномен «набитой руки» тремя разными способами, говорит об обратном9. Во-первых, они проанализировали данные о результатах бросков, сделанных в ходе домашних игр командой НБА «Филадельфия Севенти Сиксерс» (сезон 1980–1981 годов). (На момент его проведения аналогичные данные для других команд НБА отсутствовали.) И «не обнаружили каких-либо свидетельств положительной корреляции между результатами бросков, следующих друг за другом». Во-вторых, они проделали такое же исследование относительно результатов штрафных бросков в команде «Бостон Селтикс» и пришли к аналогичным выводам. Наконец, они провели управляемый эксперимент с членами мужской и женской баскетбольных команд Корнелльского университета, игроки которых в среднем попадали по кольцу с игры в 48 случаях из 100, когда предыдущий бросок игрока был удачным, и в 47 случаях из 100, когда предыдущий бросок был неудачным. Для четырнадцати игроков в возрасте 26 лет корреляция между результатом выполнения одного броска и результатом выполнения следующего броска оказалась отрицательной. Лишь у одного баскетболиста обнаружилась значительная положительная корреляция между результатом выполнения двух следующих друг за другом бросков.

Разумеется, такой результат полностью расходится с мнением любителей баскетбола. Например, 91% любителей баскетбола, опрошенных исследователями в Стэнфордском и Корнелльском университетах, согласились с утверждением, что вероятность попадания игроком по кольцу после того, как он выполнил перед этим два или три удачных броска, будет выше, чем в случае, если перед этим он два или три раза промазал. Важный вывод относительно феномена «набитой руки» заключается в наличии разницы между восприятием и эмпирической реальностью. Исследователи замечают, что «интуитивные представления людей о случайности или закономерности тех или иных событий систематически расходятся с положениями теории вероятностей». Нам подчас свойственно усматривать закономерности там, где их и в помине нет.

Как, например, в случае с раковыми кластерами.

Кластеры действительно встречаются. Вы, наверное, читали в газетах (или видели репортаж по телевизору) о том, что в некоем регионе отмечена повышенная заболеваемость редкой формой рака. Возможно, причиной тому является вода, расположенная поблизости атомная электростанция или вышка сотовой связи. Разумеется, любой из перечисленных факторов может реально обусловить развитие столь опасной болезни. (В последующих главах я постараюсь показать, как с помощью статистики можно идентифицировать подобные причинно-следственные связи.) Однако этот кластер (совокупность) случаев заболеваний также может оказаться результатом чистой случайности, даже когда количество заболевших подозрительно велико. Да, вероятность того, что пять человек в одном и том же учебном заведении, или церковном приходе, или на одном предприятии заболеют одной и той же редкой формой лейкемии, может составлять один шанс из миллиона, однако не следует забывать, что существуют миллионы учебных заведений, церковных приходов и предприятий. Не так уж маловероятно, что пять человек могут заболеть одной и той же редкой формой лейкемии в одном из этих мест. Мы просто забываем о всех школах, церковных приходах и предприятиях, где этого не случилось. Возьмем другую разновидность того же исходного примера — вероятность выигрыша в мгновенной лотерее; хотя она может составлять 1 шанс из 20 миллионов, никто из нас не удивляется тому, что кому-то удается выиграть: действительно, что же здесь удивительного, если были проданы миллионы билетов! (Несмотря на мое недоверие к лотереям в целом, меня восхищает лозунг иллинойсской мгновенной лотереи: «Кто-то должен выиграть; возможно, этим человеком окажетесь вы!». И впрямь, почему бы и нет?)

Ниже описан эксперимент, который я провожу со своими студентами, чтобы подтвердить этот базовый постулат. Чем больше аудитория, тем лучше. Я предлагаю каждому из присутствующих вынуть монетку и встать. Затем все подбрасывают монетку, и те, у кого выпадает решка, садятся. Допустим, в аудитории находится 100 студентов; примерно 50 из них займут свое место после первого подбрасывания. Потом мы выполняем это упражнение еще раз, в результате чего останутся стоять примерно 25 студентов. И так далее. Чаще всего после пяти или шести подбрасываний остается всего один человек, у которого пять или шесть раз подряд выпал орел. Я спрашиваю этого уникума: «Как вам это удалось?», или «Вам, наверное, известна какая-то особая методика тренировок, позволяющая достигать определенного результата?», или «Вы, возможно, придерживаетесь какой-то особой диеты, помогающей добиться такого исхода?» Все присутствующие, конечно, воспринимают это как шутку, поскольку наблюдали процесс подбрасывания монетки собственными глазами, к тому же неплохо знают друг друга и понимают, что у человека, которому удалось пять раз подряд поймать монетку орлом вверх, нет никаких особых талантов в этом занятии, а результат, которого он добился, не более чем случайное совпадение. Однако каждый раз, когда мы видим какое-либо аномальное событие вне конкретного контекста, в котором оно произошло, у нас поневоле возникает подозрение, что здесь, помимо чистой случайности, замешано что-то еще.

Ошибка прокурора. Допустим, в суде вы услышали показания, которые сводятся к следующему: 1) образец ДНК, найденный на месте преступления, совпадает с результатами анализа ДНК обвиняемого и 2) существует лишь один шанс из миллиона, что образец ДНК, найденный на месте преступления, совпадет с образцом ДНК, взятым у кого-либо другого (не у обвиняемого). (Ради простоты будем полагать, что вероятности, на которые опирается обвинение, соответствуют действительности.) Готовы ли вы вынести вердикт «виновен» на основе таких доказательств?

Надеюсь, вы не станете торопиться.

Ошибки обвинения случаются, когда контекст статистических доказательств игнорируется. Ниже описаны два сценария, каждый из которых может объяснить доказательства виновности обвиняемого, базирующиеся на результатах анализа ДНК.

Обвиняемый 1. Этот обвиняемый — влюбленный, отвергнутый своей жертвой, — был схвачен полицией за три квартала от места преступления; при нем было найдено орудие убийства. После ареста у него был взят образец ДНК, который совпал с образцом ДНК, взятым с волоска, найденного на месте преступления.

Обвиняемый 2. Этот обвиняемый был осужден несколько лет назад за аналогичное преступление, совершенное в другом штате. Когда суд признал его виновным, у него взяли образец ДНК, который был включен в общенациональную базу данных ДНК (в ней хранятся образцы ДНК более миллиона опасных уголовных преступников). Образец ДНК, взятый с волоска, найденного на месте преступления, сравнили с образцами, хранящимися в базе данных, и обнаружили совпадение с ДНК обвиняемого 2. Однако следствию не удалось обнаружить какую-либо связь последнего с жертвой преступления.

Как указывалось выше, в обоих случаях прокурор может с полным основанием заявить, что образец ДНК, взятый с места преступления, совпадает с образцом ДНК обвиняемого, и подчеркнуть, что существует лишь один шанс из миллиона, что он может совпасть с образцом ДНК какого-либо другого человека. Однако когда речь идет об обвиняемом 2, вероятность того, что он может оказаться тем самым случайным «другим человеком», одним из миллиона, образец ДНК которого по чистой случайности похож на ДНК подлинного убийцы, весьма высока. Поскольку шансы найти случайно совпадающий образец ДНК среди миллиона других образцов относительно высоки, если вы ищете его в базе данных, насчитывающей более миллиона образцов.

Возврат к среднему. Возможно, вы слышали о так называемом проклятии Sports Illustrated, в результате которого спортсмены или команды, фотографии которых помещались на обложке журнала Sports Illustrated, впоследствии снижали свои спортивные достижения. Одно из объяснений этого феномена заключалось в том, что размещение фотографии спортсмена на обложке издания неблагоприятно сказывается на его последующих спортивных показателях. Более правдоподобным, с точки зрения статистики, будет объяснение, что команды и спортсмены обычно появляются на обложке Sports Illustrated после того, как добьются выдающихся успехов (например станут олимпийскими чемпионами), поэтому вполне естественно, что, пройдя пик физической формы, они демонстрируют результаты, близкие к средним. Это явление называется возвратом к среднему. Теория вероятностей говорит о том, что любой «отщепенец» — наблюдение, существенно отклоняющееся от среднего значения в том или ином направлении, — зачастую сопровождается исходами, более близкими к долгосрочному среднему значению.

Тенденция возврата к среднему позволяет объяснить, почему Chicago Cubs10 всегда платит огромные суммы за так называемых свободных агентов, которые впоследствии разочаровывают болельщиков вроде меня. Игроки могут выторговать у Chicago Cubs высокие зарплаты после одного-двух необычайно удачных для себя сезонов и, одевшись в форму Chicago Cubs, вовсе не обязательно начинают играть хуже (правда, я отнюдь не исключаю и такой вариант); скорее, Chicago Cubs платит за них огромные деньги по окончании какого-то особенно удачного для этих суперзвезд периода — года или двух, — после чего их спортивные результаты (уже в ходе выступлений за Chicago Cubs) возвращаются к неким средним показателям.

То же явление объясняет, почему когда некоторые учащиеся сдают какой-либо экзамен гораздо лучше, чем обычно, в ходе его повторной сдачи они демонстрируют худшие результаты, а у учащихся, которые сдают экзамен хуже обычного, при его повторной сдаче результаты оказываются лучше. Такая взаимосвязь наталкивает на мысль, что достижения — как интеллектуальные, так и физические — представляют собой сочетание труда (связанного со способностями данного человека) и некоторого элемента везения (или невезения). В любом случае можно допустить, что тем, кто длительное время демонстрировал высокие результаты, сопутствовала удача; а тем, у кого показатели были гораздо ниже среднего, наверное, в какой-то мере не везло. (Что касается экзаменов, то ученики иногда пытаются угадать правильный ответ — а здесь уже все полностью зависит от везения; когда речь идет о футболе, мяч, посланный нападающим в сторону ворот противника, может оказаться в воротах только потому, что по пути заденет ногу кого-либо из игроков команды противника.) Когда период сильного везения или невезения заканчивается — а рано или поздно это неизбежно происходит, — достигнутые результаты становятся ближе к среднему.

Представьте, что я пытаюсь сформировать команду подбрасывателей монет, основываясь на ошибочном предположении, что способности в этом деле играют большую роль. После того как я увидел студента, у которого шесть раз подряд выпал орел, я предлагаю ему десятилетний контракт на 50 миллионов долларов. Разумеется, я испытаю огромное разочарование, когда окажется, что на протяжении этих десяти лет выпадение орла придется лишь на 50% подбрасываний монетки.

На первый взгляд возврат к среднему вступает в противоречие с «заблуждением игрока». После того как у моего студента шесть раз подряд выпал орел, можно ли утверждать, что на седьмой раз он «обязан» выбросить решку? Вероятность того, что на седьмой раз выпадет решка, такая же, как и всегда, — ½. То обстоятельство, что у студента несколько раз подряд выпал орел, вовсе не повышает шансы на выпадание решки. Каждое подбрасывание монетки является независимым событием. Однако мы вправе рассчитывать на то, что результаты последующих подбрасываний будут соответствовать не прошлой картине, а тому, что предсказывает нам теория вероятностей (то есть примерно одинаковые шансы на выпадание орлов и решек). Вполне возможно, что тот, у кого несколько раз подряд выпал орел, в ходе последующих 10, 20 или 100 подбрасываний начнет раз за разом выбрасывать решку. И чем больше подбрасываний он выполнит, тем ближе окончательный их результат будет к соотношению 50 на 50, то есть к среднему результату, который предсказывает нам закон больших чисел. В противном случае у нас будут все основания искать доказательства мошенничества.

Кстати, исследователи задокументировали так называемый феномен Businessweek. Когда главам компаний вручают престижные награды (в том числе еженедельник Businessweek присваивает звание «лучший менеджер»), как правило, в течение трех последующих лет эти компании ухудшают показатели (в частности, такие как учетная прибыль и цена акций). Однако, в отличие от упоминавшегося выше эффекта Sports Illustrated, «феномен Businessweek» представляет собой нечто большее, чем возврат к среднему. По словам Ульрики Малмендьер и Джеффри Тейта, экономистов Калифорнийского университета в Беркли и UCLA соответственно, когда главы компаний обретают статус «суперзвезды», внезапно свалившаяся на них слава начинает отвлекать их от дел11. Они пишут мемуары. Их приглашают в советы директоров других компаний. Они ищут для себя так называемых статусных (то есть молодых и эффектных) жен. (Упомянутые мною авторы предлагают лишь первые два объяснения, однако последнее мне также кажется вполне правдоподобным.) Малмендьер и Тейт пишут: «Полученные нами результаты свидетельствуют о том, что культура суперзвезд, искусственно формируемая средствами массовой информации, ведет к более глубоким изменениям поведения, чем обычный возврат к среднему». Иными словами, когда фотография главы компании появляется на обложке Businessweek, пиши пропало, то есть быстро продавай акции этой компании.

Статистическая дискриминация (установление различия в статистическом смысле). В каких случаях следует опираться на то, что подсказывает нам теория вероятностей, а в каких так поступать не стоит? В 2003 году Анна Диамантопуло, Еврокомиссар по проблемам занятости и социальным вопросам, выступила с предложением запретить страховым компаниям применять разные ставки к мужчинам и женщинам, поскольку это нарушает принцип равноправия, исповедуемый Евросоюзом12. Однако страховые компании вовсе не рассматривают такие надбавки как гендерную дискриминацию — для них это всего лишь статистика. Мужчины обычно платят больше за автостраховку, поскольку чаще, чем женщины, попадают в аварии. Женщины платят больше за аннуитеты (финансовый продукт, который выплачивает фиксированную ежемесячную или ежегодную сумму), потому что живут дольше, чем мужчины. Очевидно, что многие женщины попадают в аварии чаще, чем многие мужчины, а многие мужчины живут дольше, чем многие женщины. Но, как объяснялось в предыдущей главе, страховым компаниям нет до этого никакого дела. Их интересуют лишь среднестатистические показатели, поскольку именно это позволяет им получать прибыль. Что же касается политики Еврокомиссии, запрещающей ставить страховые надбавки в зависимость от пола человека (эта политика вступила в силу в 2012 году), то интересно отметить, что они вовсе не утверждают, будто страхуемые риски никоим образом не связаны с полом человека; они лишь заявляют о неприемлемости увязки с полом ставок страхования13.

Поначалу это кажется всего лишь раздражающей данью политкорректности. Но после некоторого размышления я не стал бы торопиться с таким выводом. Помните впечатляющую информацию о предотвращении преступлений? В этом отношении теория вероятностей может завести нас в интересные, но весьма «проблемные» места. Как нам следует реагировать, когда вероятностные модели говорят о том, что мексиканские наркоторговцы чаще всего оказываются испаноязычными мужчинами в возрасте от восемнадцати до тридцати лет, перевозящими товар в красных грузовиках-пикапах где-то между девятью и двенадцатью часами ночи, если нам также известно, что подавляющее большинство испаноязычных мужчин, соответствующих такому профилю, не промышляют контрабандой метамфетамина? Да, я использовал слово «профиль», поскольку оно представляет собой менее эффектное описание предсказательной аналитики, о которой я так красочно рассказывал в предыдущей главе, или по крайней мере один ее потенциальный аспект.

Теория вероятностей указывает нам, какие события более вероятны, а какие — менее. Да, речь идет лишь о базовой статистике — инструментах, описанию которых я посвятил несколько последних глав. Но это также статистика с социальными последствиями. Если мы хотим поймать уголовных преступников, террористов и наркоторговцев, а также других лиц, представляющих угрозу для общества, то обязаны использовать для этого все имеющиеся в нашем распоряжении инструменты. Теория вероятностей может быть одним из таких инструментов. Было бы наивно полагать, будто пол, возраст, расовая принадлежность, национальность, вероисповедание и страна происхождения человека в своей совокупности не играют никакой роли в том, что касается правоприменения.

Однако вопрос, что мы можем или должны делать с информацией такого рода, предполагая, что она представляет собой какую-то прогностическую ценность, является философско-правовым (но отнюдь не статистическим). Буквально каждый день мы получаем все больше и больше информации о все более широком круге явлений. Разве мы не будем одобрять дискриминацию, если соответствующие данные говорят нам о том, что мы будем правы гораздо чаще, чем неправы? (Именно отсюда происходит термин «статистическая дискриминация», или «рациональная дискриминация».) Точно такой же анализ, как использовался для того, чтобы выяснить, что люди, покупающие корм для птиц, менее склонны увиливать от оплаты по кредитным карточкам (представьте, это действительно так!), может применяться ко всем остальным аспектам нашей жизни. Какая часть всего этого может быть приемлема для нас? Если нам удастся разработать модель, позволяющую выявлять наркоторговцев в 80 случаях из 100, что случится с беднягами, которые попадут в оставшиеся 20%, — ведь для этих ни в чем не повинных людей наша модель несет вполне реальную угрозу!

Проблема состоит в том, что наша способность анализировать данные развилась значительно больше, чем понимание того, как нам следует поступать с результатами этого анализа. Вы можете соглашаться или нет с решением Еврокомиссии, запрещающим применение страховых надбавок, связанных с полом человека, но я абсолютно уверен, что это далеко не последнее спорное решение такого рода. Нам нравится думать о числах как о «холодных, неумолимых фактах». Если вычисления выполнены правильно, то у нас должен получиться правильный ответ. Однако более интересная и опасная реальность заключается в том, что подчас мы можем правильно все рассчитать — и двинуться в опасном направлении. Мы можем разрушить финансовую систему или упечь за решетку двадцатидвухлетнего белого парня, которому не повезло оказаться в определенное время в определенном месте, потому что, согласно нашей статистической модели, он явился сюда затем, чтобы купить наркотики. Какой бы соблазнительной ни была элегантность и точность вероятностных моделей, они не заменят нам здравого размышления о сути и цели выполняемых вычислений.


Глава 7. Почему так важны данные

«Мусор на входе — мусор на выходе»
Весной 2012 года в популярном журнале Science вышел сенсационный материал. В нем говорилось, что на основании результатов одного исследования, опирающегося на последние достижения науки, ученые сделали вывод, что когда самка дрозофилы (плодовой мушки) категорически отвергает ухаживания самца, он впадает в отчаяние и начинает топить горе в алкоголе. Газета The New York Times так описывала этот эксперимент в своей передовице: «Это были молодые самцы, ищущие любовных приключений. Будучи многократно отвергнутыми группой привлекательных самок, порхавших неподалеку, они поступили так же, как и многие мужчины в аналогичном случае, — запили с горя, используя алкоголь как болеутоляющее средство от неразделенной любви»14.

Это исследование дает нам возможность лучше уяснить работу системы вознаграждения, встроенную в мозг человека, что, в свою очередь, должно помочь в поиске новых стратегий борьбы с алкоголизмом и наркоманией. Один специалист по вопросам наркозависимости написал, что знакомство с результатами этого эксперимента позволило ему «заглянуть в далекое прошлое и увидеть там истоки системы вознаграждения, которая определяет фундаментальные модели поведения, такие как секс, еда и сон».

Поскольку я не являюсь экспертом в данной области, после прочтения публикации о неразделенной любви самцов дрозофилы у меня возникли две несколько различающиеся между собой реакции. Во-первых, появилось чувство ностальгии по временам студенческой молодости. Во-вторых, мой «внутренний исследователь» заинтересовался, каким образом самцам дрозофилы удавалось запить с горя. Может быть, где-то поблизости находился миниатюрный бар для мушек-дрозофил с широким ассортиментом фруктовых алкогольных напитков, которые подавал бармен-дрозофил, всегда готовый выслушать вас и посочувствовать вашему горю? Наверное, в баре ненавязчиво звучала музыка в стиле кантри, вызывавшая сильный прилив чувств у мушек-дрозофил, чьи жизненные мечты потерпели крушение?

В действительности все оказалось гораздо проще и прозаичнее. Одной группе самцов дрозофилы исследователи предоставили возможность беспрепятственно спариваться с самками, еще не подобравшими себе пару. Другой разрешили попытать счастья среди самок, которые уже подобрали себе пару и по этой причине были равнодушны к ухаживаниям других самцов. Затем обеим группам самцов дрозофилы были предложены на выбор питательные соломинки, содержащие две разные «диеты»: стандартное питание мушек-дрозофил плюс закваска и сахар, а также кое-что «покрепче»: закваска, сахар и 15-процентный раствор спирта. Самцы, которые провели несколько дней в бесплодных попытках найти себе пару среди безразличных к ним самок, оказались более склонны к «горячительному».

Какими бы легкомысленными ни казались эти выводы, они очень важны для человека, поскольку указывают на связь между стрессом, ответными химическими реакциями в мозгу человека и тягой к алкоголю. Тем не менее эти результаты — не триумф статистики. Это триумф данных, сделавших возможным этот относительно фундаментальный статистический анализ. Изюминка исследования заключалась в нахождении пути формирования двух групп — сексуально удовлетворенных и сексуально неудовлетворенных самцов дрозофилы — и последующем поиске способа сравнения их тяги к спиртному. После того как ученым удалось реализовать свой замысел, обработка соответствующих данных оказалась не сложнее, чем написание школьного реферата по математике.

Данные для статистики — примерно то же самое, что для выдающегося куортербека мощная линия блокирующих игроков. Сами по себе они не представляют особого интереса для зрителей, но без них выдающийся куортербек не сможет проявить свои способности. В большинстве книг по статистике предполагается, что вы используете надежные данные, точно так же как в любой кулинарной книге предполагается, что для приготовления блюд вы не станете покупать тухлое мясо или гнилые овощи. Даже самый замечательный рецепт не сделает вкусным блюдо, приготовленное из некачественных продуктов. То же касается статистики: даже самый изощренный анализ не принесет никакой пользы, если за основу взяты сомнительные данные. Отсюда выражение: «Мусор на входе — мусор на выходе»15. Данные заслуживают уважительного отношения — как и линия блокирующих игроков в американском футболе.

Как правило, данные выполняют одну из трех функций. Во-первых, нам может потребоваться определенная выборка данных, соответствующая характеристикам генеральной совокупности (так называемая репрезентативная выборка). Если наша задача — оценить отношение избирателей к конкретному политическому деятелю, нам понадобится опросить некоторую их часть (выборку) в соответствующем избирательном округе или в целом в стране. (Обратите внимание: нас не интересует выборка, которая представляла бы каждого, кто проживает на искомой территории; нам требуется выборка лиц, планирующих участвовать в голосовании.) Одно из самых фундаментальных положений статистики, более глубокому разъяснению которого мы уделим место в двух следующих главах, заключается в том, что выводы, сделанные на основе достаточно больших, надлежащим образом сформированных выборок, могут оказаться такими же точными, как и в случае, если бы мы попытались получить ту же информацию от всего населения.

Самый легкий способ собрать репрезентативную выборку большой генеральной совокупности — выбрать ее некоторое подмножество случайным образом. (Вы, наверное, испытаете потрясение, когда узнаете, что это называется простой случайной выборкой.) Ключом к данной методологии является то, что каждое наблюдение в соответствующей совокупности должно иметь одинаковые шансы на включение в выборку. Если вы собираетесь опросить случайную выборку, состоящую из 100 взрослых, на территории, где проживает 4328 взрослых, то ваша методология должна гарантировать, что у каждого из этих 4328 человек одинаковые шансы оказаться в числе той сотни, которую вы намерены опросить. Книги по статистике почти всегда иллюстрируют это положение вытаскиванием разноцветных шариков из урны. (В действительности это практически единственное место, где слово «урна» используется более или менее регулярно.) если в какой-нибудь гигантской урне находится 60 000 голубых и 40 000 красных шариков, то наиболее вероятным составом выборки из 100 шариков, случайным образом вынутых из урны, было бы 60 голубых и 40 красных шариков. Если бы мы проделали такой эксперимент несколько раз, то, разумеется, всякий раз наблюдались бы какие-то отклонения (например, в одной выборке оказалось бы 62 голубых и 38 красных шариков, а в другой — 58 голубых и 42 красных шарика). Однако вероятность вытащить какую-либо произвольную выборку, которая по своему составу существенно отличалась бы от общего соотношения голубых и красных шариков, крайне мала.

Правда, на практике возникают кое-какие проблемы. Большинство совокупностей, которые могут представлять для нас интерес в реальной жизни, как правило, гораздо сложнее, чем урна с разноцветными шариками. Как, например, получить случайную выборку взрослого населения Америки, которую можно было бы использовать для проведения телефонного опроса? Даже такое элегантное на первый взгляд решение, как устройство для произвольного набора телефонных номеров, не лишено определенных недостатков. У некоторых людей (например, у малоимущих) может не быть телефона. Другие (обычно люди с высоким уровнем дохода) зачастую бывают не очень-то склонны отвечать на телефонные звонки, не представляющие для них непосредственного интереса. В главе 10 я опишу ряд стратегий, используемых компаниями, проводящими опросы, для решения проблем подобного рода, возникающих при формировании выборки (с появлением мобильной связи эти проблемы еще больше усложнились). Ключевая идея заключается в том, что надлежащим образом сформированная выборка будет полностью отражать структуру той совокупности, из которой она извлечена. Интуитивно вы можете представить себе это на примере варки супа в большой кастрюле. Если предварительно хорошенько размешать суп, то одна его ложка позволит вам составить достаточно полное представление о его вкусовых качествах.

В любом учебнике по статистике вы встретите значительно больше подробностей относительно методов формирования выборки. Компании, проводящие опросы и выполняющие маркетинговые исследования, тратят немало времени на поиск наиболее эффективных с экономической точки зрения способов получения надежных репрезентативных данных из разных совокупностей. На данном этапе вам необходимо уяснить несколько принципиальных положений. 1) Репрезентативная выборка — чрезвычайно важная вещь, поскольку она позволяет вам воспользоваться рядом наиболее мощных инструментов, которые имеются в распоряжении статистики. 2) Получить хорошую выборку гораздо сложнее, чем может показаться на первый взгляд. 3) Многие из самых ошибочных статистических утверждений обусловлены применением совершенно правильных статистических методов к плохим выборкам, а вовсе не наоборот. 4) Размер выборки имеет значение — чем она больше, тем лучше. Подробнее об этом мы поговорим в следующих главах, но уже сейчас вам должно быть интуитивно понятно, что крупная выборка дает возможность нивелировать любые аномальные отклонения. (Кастрюля супа, несомненно, более точно отражает его истинный вкус, чем ложка супа.) Важное предостережение: наращивание размера выборки не позволяет компенсировать ошибки, допущенные при выборе ее структуры (так называемую систематическую ошибку). Единственный способ устранения ошибок, порождаемых плохой выборкой, — использование хорошей выборки. Никакой суперкомпьютер или мудреная формула не помогут вам обеспечить правильность результатов общенационального телефонного опроса в преддверии президентских выборов, если в соответствующую выборку будут включены исключительно жители Вашингтона, потому что они обычно голосуют не совсем так, как остальная Америка, и даже если вы опросите не 1000, а 100 000 жителей этого округа, это не устранит данную фундаментальную проблему вашего опроса. Более того, применение крупной выборки, в которую вкралась систематическая ошибка, несомненно хуже небольшой выборки с такой же систематической ошибкой, поскольку это создает ложное мнение о надежности полученного результата.

Второе, что нам зачастую требуется от данных, — это чтобы они служили нам источником сравнения. Новое лекарство эффективнее нынешнего? Можно ли надеяться, что бывшие осужденные, освоившие в тюрьме какую-либо профессию, будут менее склонны к повторному совершению преступлений, чем бывшие осужденные, которые такую профессию не приобрели? Можно ли надеяться, что успеваемость учащихся престижных учебных заведений окажется лучше, чем учеников обычных государственных школ?

В подобных случаях наша задача — найти две группы субъектов, в целом похожих между собой — за исключением интересующего нас «параметра». В контексте социальных наук таким «параметром» может быть что угодно, от наличия у самца дрозофилы сексуальной неудовлетворенности до права налогоплательщика на скидку при уплате подоходного налога. Как и в случае любого применения научного метода, мы пытаемся изолировать влияние какого-то одного конкретного стороннего воздействия или фактора. В этом и состояла гениальность эксперимента с дрозофилами. Исследователям удалось найти способ создания контрольной (самцов, которые уже нашли себе пару) и «подопытной» (отвергнутых самцов) группы, а последующую разницу в отношении самцов к спиртному можно было объяснить их принадлежностью к той или иной группе.

В физических и биологических науках формирование контрольной и подопытной группы не представляет особой проблемы. Химики могут добиться небольших вариаций в нескольких пробирках, а затем изучить разницу в полученных результатах. Биологи могут использовать ту же методологию с помощью чашек Петри. Хотя должен заметить, что большинство экспериментов с животными проще провести, чем заставить дрозофил пить спиртное. Одну группу крыс можно заставить регулярно тренироваться на «беговой дорожке», а другую — нет, а затем сравнить их способность ориентироваться в лабиринте. Но когда речь идет о людях, все существенно усложняется. Чтобы правильно выполнить статистический анализ, зачастую требуется сформировать контрольную и подопытную группы, однако далеко не всегда люди согласны делать то же, что и крысы. (К тому же многим не нравится проделывать подобные эксперименты даже с лабораторными крысами.) Не вызовут ли периодически повторяющиеся сотрясения мозга у спортсменов серьезные неврологические проблемы в дальнейшем? Это действительно очень важный вопрос. От ответа на него зависит будущее хоккея на льду (и, возможно, других видов спорта). Однако сделать это невозможно путем проведения соответствующих экспериментов над людьми. Следовательно, пока (или если) мы не научим дрозофил носить шлемы и своевременно уворачиваться от силовых приемов, нам придется изыскивать другие способы изучения долговременных последствий травм головы.

Неизменной проблемой, которую приходится решать исследователям, работающим с «человеческим материалом», является создание контрольной и подопытной групп, отличающихся между собой только тем, что над одной группой проводится соответствующий опыт, а над другой — нет. Именно поэтому «золотым стандартом» исследования стала рандомизация, то есть процесс, посредством которого объекты изучения (люди, школы, больницы и т. д.) произвольным образом распределяются либо в подопытную, либо в контрольную группу. Мы не исходим из того, что все испытуемые идентичны. Напротив, вероятность — в который раз! — становится нашим союзником, и мы предполагаем, что рандомизация более-менее равномерно поделит все значимые характеристики между этими двумя группами — как те, которые нас интересуют, так и те, которые не интересуют или не подлежат измерению, например настойчивость или честность.

Третью причину сбора данных можно сформулировать так, как иногда любит объяснять свои поступки моя малолетняя дочь: «Потому что!» Иногда у нас нет четкого представления о том, для чего нам может понадобиться та или иная информация, но интуитивно мы предполагаем, что в какой-то момент она обязательно пригодится. Это похоже на работу следователя на месте преступления: ему необходимо собрать максимальное количество улик, чтобы впоследствии составить предельно полную картину преступления. Одни из этих материальных доказательств окажутся полезными, другие следствию не помогут. Если бы мы заранее знали наверняка, что именно нам пригодится, то предварительное расследование нам, наверное, было бы не нужно.

Вам, должно быть, известно, что курение и ожирение являются факторами риска, способствующими развитию сердечно-сосудистых заболеваний. Но, возможно, вы не знаете, что эту взаимосвязь помогло выявить обследование жителей города Фрамингема, проводившееся в течение длительного времени. Во Фрамингеме проживает около 67 000 человек, город расположен примерно в двадцати милях от Бостона. Обычным людям он известен как пригород Бостона с относительно дешевым жильем и удобным доступом к торговому центру Natick Mall, славящемуся своими высококачественными (и дорогостоящими) товарами. Что же касается ученых, то Фрамингем для них ассоциируется с исследованием под названием Framingham Heart Study — одним из самых успешных в истории современной науки, оказавшим огромное влияние на развитие медицины.

В ходе повторного исследования выполняется сбор информации о большой группе субъектов в разные моменты времени (например каждые два года). Одни и те же участники исследования могут периодически опрашиваться на протяжении десяти, двадцати или даже пятидесяти лет. Такой подход позволяет получить необычайно богатый материал для анализа. В случае фрамингемского исследования в 1948 году ученые собрали информацию о 5209 взрослых жителях города: их рост, вес, кровяное давление, уровень образования, состав семьи, типичные продукты питания, склонность к курению, употребление наркотиков и т. п. Важно то, что начиная с этого времени эти люди периодически повторно обследовались, а также собирались данные об их потомстве, чтобы выявить генетические факторы, связанные с развитием сердечно-сосудистых заболеваний. Начиная с 1950 года фрамингемские данные использовались при написании более чем двух тысяч научных статей, причем около тысячи из них были написаны в период с 2000 по 2009 год.

Эти исследования позволили получить чрезвычайно важные для понимания механизмов развития сердечно-сосудистых заболеваний результаты, многие из которых кажутся нам сейчас очевидными: курение сигарет увеличивает риск сердечно-сосудистых заболеваний (1960 год); физическая активность снижает риск сердечно-сосудистых заболеваний, а ожирение, наоборот, повышает (1967 год); высокое кровяное давление увеличивает риск инсульта (1970 год); высокий уровень холестерина альфа-липопротеинов высокой плотности (известного с тех пор как «полезный холестерин») снижает риск смертельного исхода (1988 год); у лиц, родители и близкие родственники (родные братья и сестры) которых страдали сердечно-сосудистыми заболеваниями, риск их развития значительно выше (2004–2005 годы).

Данные повторных исследований являются чем-то вроде научного эквивалента Ferrari. Они представляют особую ценность, когда речь идет о выявлении причинно-следственных связей, картина которых развертывается на протяжении нескольких лет или даже десятилетий. Например, исследование дошкольников под названием Perry Preschool Study началось в конце 1960-х годов и охватило группу из 123 афроамериканцев — выходцев из бедных семей в возрасте от трех до четырех лет. Эти дети были случайным образом распределены в группу, которая проходила интенсивное обучение по программе дошкольного образования, тогда как участники контрольной группы, использовавшейся для сравнения, его не проходили. В течение последующих сорока лет ученые анализировали различные результаты этого эксперимента, которые стали убедительным доводом в пользу раннего обучения детей. Учащиеся, которые прошли интенсивное обучение по программе дошкольного образования, уже в пятилетнем возрасте демонстрировали более высокие показатели IQ и имели больше шансов успешно окончить среднюю школу. В сорокалетнем возрасте у них были более высокие доходы. И напротив, многие из участников эксперимента, не получившие дошкольного образования, к сорокалетнему возрасту успевали по пять и более раз побывать за решеткой.

Нет ничего удивительного в том, что далеко не каждый из нас может позволить себе покупку Ferrari. Исследовательским эквивалентом этой машины является так называемый «поперечный срез», то есть совокупность данных, собранных в какой-то определенный момент времени. Если, например, эпидемиологи пытаются выявить причину какого-либо нового заболевания (или вспышки старого), они могут собрать данные обо всех, кто им страдает, в надежде получить картину, которая приведет к его источнику. Может быть, причина в том, что они едят? Или эти люди побывали в какой-то местности и заболели в результате этого? Что еще общего между людьми, страдающими этой болезнью? Кроме того, исследователи могут собрать данные о здоровых людях, чтобы выявить разницу между двумя группами.

На самом деле все эти оживленные дискуссии вокруг данных «поперечного среза» напоминают мне неделю перед моей свадьбой, когда я стал частью некой совокупности данных. В то время я работал в Катманду (столице Непала) и занемог желудком в результате малопонятной болезни под названием «сине-зеленые водоросли» (это заболевание было выявлено лишь в двух местах в мире). Ученым удалось выделить патоген, который был причиной болезни, но они все еще не были уверены, что собой представляет этот организм, поскольку на то время он еще не был известен науке. Когда я позвонил домой, чтобы рассказать невесте о моем диагнозе, я был вынужден признать, что это не самая приятная новость. Неизвестно, каким путем эта болезнь передается от человека к человеку и как ее лечить, к тому же она могла вызывать сильное утомление и прочие малоприятные побочные эффекты в период от нескольких дней до многих месяцев16. Учитывая, что до свадьбы оставалась всего неделя, это могло оказаться серьезной проблемой. Следовало ли мне держать себя в руках, когда я бродил по супермаркету? Пожалуй, да.

Но затем я попытался сосредоточиться на позитивной информации. Во-первых, «сине-зеленые водоросли» не считались смертным приговором. И во-вторых, специалисты по тропическим болезням из Бангкока (далековато!) проявили особый интерес к моему случаю. Тебя не знобит? (К тому же мне приходилось постоянно возвращать дискуссию к вопросу, волновавшему меня в тот момент больше всего, — к планированию предстоящей свадьбы: «Хватит о моей неизлечимой болезни. Поговорим лучше о цветах».)

Свои последние часы в Катманду я провел, заполняя тридцатистраничную анкету, которая касалась буквально каждого аспекта моей жизни. Где я обедал и ужинал? Что именно я ел? Готовлю ли я дома, а если готовлю, то как? Приходилось ли мне плавать? Где и как часто? Все, у кого была обнаружена эта болезнь, заполняли точно такую же анкету. В конце концов патоген был выявлен: им оказались водные цианобактерии (Cyanobacteria). (Эти синие бактерии представляют собой единственный вид бактерий, получающих энергию из фотосинтеза; отсюда первоначальное описание заболевания как «сине-зеленые водоросли».) Оказалось, что эту болезнь можно лечить традиционными антибиотиками (но как ни странно, некоторые из новейших антибиотиков не действовали). Однако все эти открытия уже не могли мне помочь, потому что и без них я поправился достаточно быстро. Ко дню свадьбы моя пищеварительная система практически полностью восстановилась.

За каждым важным экспериментом кроются полезные данные, без которых он был бы невозможен. А за каждым неудачным... Одним словом, вам и так все понятно. Люди зачастую говорят о «лжи с помощью статистики». Я готов утверждать, что некоторые из самых вопиющих статистических ошибок обусловлены ложью с помощью данных; статистический анализ выполнен правильно, но данные, на основе которых он делался, неправильны или неуместны. Ниже приведено несколько типичных примеров из категории «мусор на входе — мусор на выходе».

Систематическая ошибка выбора. Говорят, что Паулина Кейл, кинокритик и давний сотрудник еженедельника The New Yorker, после того как Ричард Никсон стал президентом США, сказала: «Никсон не мог победить. Я не знаю ни одного человека, который бы за него проголосовал». Очень сомневаюсь, что Паулина Кейл могла такое сказать, но однако это весьма показательный пример того, как ничтожная выборка (группа либерально настроенных приятелей некоего человека) способна создать ложное представление о гораздо большем числе людей (всех американских избирателях). Отсюда вопрос, который всегда нас должен интересовать: как была сформирована выборка (или выборки) для оценивания? Если каждому члену генеральной совокупности не предоставлены равные шансы на включение в выборку, у нас наверняка возникнут проблемы с результатами, полученными на ее основе. Одним из ритуалов, связанных с проведением президентских выборов в Соединенных Штатах, является неофициальный, выборочный опрос общественного мнения (так называемый соломенный опрос) в штате Айова. За год до президентских выборов, в августе, кандидаты от Республиканской партии собираются в городке Эймис штата Айова, чтобы набрать участников опроса. Каждый из желающих в нем участвовать должен заплатить 30 долларов. «Соломенный опрос» в штате Айова ничего не скажет нам наверняка о политическом будущем кандидатов от Республиканской партии. (Этот опрос точно предсказал лишь трех из последних пяти республиканских «номинантов».) В чем тут причина? Дело в том, что жители штата Айова, заплатившие 30 долларов, отличаются от других сторонников Республиканской партии в этом штате, не говоря уже о том, что ее сторонники в штате Айова отличаются от сторонников Республиканской партии в целом по стране.

Систематическая ошибка выбора может возникнуть при различных обстоятельствах. Опрос потребителей в аэропорту искажается тем фактом, что любители летать самолетами, как правило, более состоятельные люди, чем население в целом; в случае проведения опроса на площадке для отдыха возле автомагистрали Interstate 90 может сложиться противоположная ситуация. На результаты обоих опросов наверняка повлияет и то, что люди, готовые в них участвовать, отличаются от людей, предпочитающих не отвлекаться на подобные вещи. Если вы попросите 100 человек в каком-либо общественном месте заполнить совсем небольшую анкету, то те 60, которые согласятся это сделать, наверняка будут существенно отличаться от остальных 40, которые вас проигнорируют.

Один из самых известных статистических просчетов — опрос, проведенный еженедельником Literary Digest в 1936 году, — был обусловлен неправильно сформированной выборкой. В том году губернатор штата Канзас республиканец Алф Лэндон сражался за президентский пост с действующим президентом США Франклином Рузвельтом (демократом). Еженедельник Literary Digest, в то время весьма влиятельное издание, провел по почте опрос среди своих подписчиков, а также среди владельцев автомобилей и домашних телефонов, адреса которых редакции Literary Digest удалось заполучить из открытых источников. Опрос Literary Digest охватил 10 миллионов потенциальных избирателей, что представляло собой выборку поистине астрономического масштаба. При увеличении размера правильно сформированной выборки точность опроса повышается, поскольку сужается допустимый предел погрешности. Когда же увеличивается размер неправильно сформированной выборки, высота мусорной кучи также увеличивается, а вонь от нее становится сильнее. Согласно прогнозу Literary Digest, победу на президентских выборах должен был одержать Алф Лэндон, получив 57% голосов избирателей. На самом же деле выиграл Франклин Рузвельт, получив 60% голосов избирателей, причем его победа была зафиксирована в сорока шести из сорока восьми штатов. Выборка, сформированная Literary Digest, оказалась пресловутым «мусором на входе»: подписчики еженедельника были более состоятельными людьми, чем средний американец, и, следовательно, были в большей степени склонны голосовать за республиканцев; то же самое можно сказать и о владельцах автомобилей и домашних телефонов (напомню, что выборы проводились в 1936 году)17.

Мы можем столкнуться с такой же фундаментальной проблемой при сравнении исходов в подопытной и контрольной группах, если механизм включения в них участников не обеспечивает случайного выбора. Рассмотрим недавние выводы относительно побочных эффектов лечения рака простаты, опубликованные в медицинской литературе. Существует три широко распространенных метода лечения рака простаты: хирургическое удаление простаты, лучевая терапия и брахитерапия (которая предусматривает имплантацию радиоактивных «семян» вблизи раковой опухоли)18. Типичный побочный эффект лечения рака простаты — импотенция, поэтому исследователи документировали половую функцию мужчин, к которым применялся какой-либо из трех указанных методов лечения. Обследование 1000 мужчин показало, что через два года после лечения половые акты могли совершать 35% мужчин в «хирургической» группе, 37% — в «лучевой» и 43% — в «брахитерапийной».

Можно ли, глядя на эти результаты, утверждать, что брахитерапия в наименьшей степени сказывается на половой функции мужчин? Отнюдь! Авторы данного исследования специально подчеркивали, что для этого у них нет никаких оснований, поскольку мужчины, к которым применяется этот способ лечения, как правило, моложе и в целом физически крепче тех, кого лечили другими методами. Цель данного исследования заключалась лишь в том, чтобы задокументировать степень половых побочных эффектов для всех типов лечения.

Систематическая ошибка такого же рода, известная как систематическая ошибка самоотбора, возникает, когда люди сами напрашиваются в подопытную группу. Например, заключенные, которые добровольно соглашаются на опробование какого-либо нового способа лечения от наркозависимости, отличаются от других заключенных именно потому, что сами попросили об этом. Если окажется, что после освобождения из тюрьмы они будут попадать за решетку гораздо реже, чем остальные заключенные, то это, конечно, замечательно, но абсолютно ничего не говорит нам о ценности нового способа лечения от наркозависимости. Возможно, эти бывшие заключенные изменили свою жизнь именно потому, что в этом им помог новый способ лечения от наркозависимости. Не исключено также, что это произошло под воздействием каких-то других факторов, которые также повлияли на их желание стать участниками эксперимента (одним из таких факторов мог быть страх перед перспективой вновь оказаться за решеткой). Мы не можем отделить причинно-следственное влияние одного (экспериментальная методика лечения наркозависимости) от другого (человек, изъявивший желание участвовать в опробовании нового способа лечения от наркозависимости).

Систематическая ошибка публикации. Позитивные результаты обнародуют охотнее, чем негативные. Допустим, вы только что завершили строго научное повторное исследование, которое показало, что увлечение видеоиграми не препятствует развитию рака толстой кишки. На протяжении двадцати лет вы обследовали репрезентативную выборку из 100 000 американцев и выяснили, что среди фанатов видеоигр и тех, кто совершенно ими не интересуется, заболеваемость раком толстой кишки находится примерно на одном уровне. Предположим, ваша методология безупречна. Какой из престижных медицинских журналов опубликует результаты данного исследования?

Думаю, никакой. И тому есть две причины. Во-первых, нет ни одной научно обоснованной причины полагать, что увлечение видеоиграми способствует развитию рака толстой кишки, а потому не совсем понятно, зачем вы проводили свое исследование. Во-вторых, тот факт, что некий фактор не препятствует заболеванию раком, не представляет научной ценности. В конце концов, многие вещи этому не препятствует. Негативные результаты не производят особого впечатления — ни в медицине, ни где бы то ни было.

А теперь допустим, что один из ваших приятелей, вместе с которым вы оканчивали магистратуру, провел другое повторное исследование и выяснил, что среди тех, кто много играет в видеоигры, заболевание раком толстой кишки встречается реже. А вот это уже гораздо интереснее! Результаты именно такого рода привлекают повышенное внимание медицинских журналов, популярной прессы, блогеров и разработчиков компьютерных игр (которые не преминут их снабдить надписью о пользе игр для здоровья). Пройдет совсем немного времени, и заботливые мамаши по всей стране бросятся спасать своих детей от рака, выхватывая у них книги из рук и заставляя играть в видеоигры.

Разумеется, согласно важному положению в статистике, необычные явления происходят довольно редко и, как правило, в результате случайного стечения обстоятельств. В одном из 100 аналогичных исследований наверняка обнаружатся нелепые результаты типа взаимозависимости между увлечением видеоиграми и меньшей заболеваемостью раком толстой кишки. Проблема в том, что результаты 99 исследований, которые не выявили такую связь, опубликованы не будут, поскольку малоинтересны. А вот единственное исследование, которое ее обнаружит, попадет в печать и привлечет к себе повышенное внимание. Источником данной систематической ошибки является не исследование как таковое, а сомнительная информация, которая фактически становится достоянием широкого круга читателей. Тот, кого интересует литература о видеоиграх и заболеваемости раком толстой кишки, найдет публикацию лишь о единственном исследовании, и в ней будет утверждаться, что увлечение видеоиграми предотвращает заболевание раком. Хотя на самом деле результаты 99 исследований из 100 свидетельствуют об отсутствии какой-либо связи.

Да, мой пример несколько абсурден, однако данная проблема вполне реальна и довольно серьезна. Вот первое предложение из статьи в The New York Times, в которой говорится о систематической ошибке публикации, касающейся лекарств от депрессии: «Производители антидепрессантов, таких как Prozak и Paxil, никогда не публиковали результаты примерно трети испытаний своих лекарств, проводившихся, чтобы получить одобрение государственных контролирующих органов. Таким образом производители антидепрессантов вводили в заблуждение врачей и пациентов относительно подлинной эффективности этих препаратов»19. Оказывается, были обнародованы данные о 94% исследований с положительными результатами, касающимися эффективности этих лекарств, и лишь о 14% исследований с отрицательными результатами. Для пациентов, страдающих депрессией, это крайне важно. Если бы были оглашены результаты всех исследований, то оказалось бы, что в действительности антидепрессанты лишь немногим лучше любого плацебо.

Чтобы справиться с данной проблемой, теперь медицинские журналы, как правило, требуют зарегистрировать любое исследование в самом начале проекта, если предполагается последующая публикация его результатов. Это предоставляет редакторам определенные свидетельства о соотношении позитивных и негативных исходов. Если, например, зарегистрировано 100 исследований по анализу влияния катания на роликовой доске (скейтборде) на развитие сердечно-сосудистых заболеваний, и лишь одно из них будет в конечном счете представлено для публикации с положительными результатами, то редакторы могут заключить, что в ходе других исследований получены отрицательные результаты (или по крайней мере проверить такую вероятность).

Систематическая ошибка памяти. Наша память — восхитительный дар, правда, далеко не всегда источник достоверных данных. Человеку свойственно воспринимать настоящее как логическое следствие прошедших событий. Иными словами, человек интуитивно пытается находить причинно-следственные связи. Проблема в том, что наша память оказывается «систематически хрупкой», когда мы пытаемся объяснить какой-либо особенно хороший или плохой результат в настоящем. Рассмотрим исследование, авторы которого пытаются выявить связь между рационом питания и раковыми заболеваниями. В 1993 году один из ученых Гарвардского университета собрал данные о группе женщин, страдающих раком груди, и информацию о группе женщин примерно того же возраста, у которых рак не был диагностирован. Женщин в обеих группах спросили об особенностях их рациона питания в молодые годы. Этот опрос выявил совершенно четкие результаты: женщины, страдающие раком груди, в молодости употребляли пищу с более высоким содержанием жиров.

Да, но это исследование вовсе не ставило перед собой задачу определить влияние рациона питания на вероятность развития раковых заболеваний! Оно было призвано определить, как заболевание раком влияет на память женщины о ее питании в прежние годы. Все женщины-участницы заполнили анкету, где спрашивалось об особенностях их питания, за много лет до того, как у кого-то из них был диагностирован рак. Самое интересное, что женщины, страдающие раком груди, вспомнили, что употребляли гораздо больше жиров, чем это было на самом деле, тогда как в воспоминаниях здоровых женщин существенных отклонений от реального рациона их питания в молодости не обнаружилось. Журнал The New York Times Magazine так описал скрытую природу этой систематической ошибки памяти:

Диагностирование рака груди не изменило настоящее и будущее женщины; оно изменило ее прошлое. Женщины, страдающие раком груди, решили (подсознательно), что пища с повышенным содержанием жиров, вероятно, обусловила их предрасположенность к раковым заболеваниям, и «вспомнили», что их рацион в молодости отличался повышенным содержанием жиров, хотя на самом деле это было не так. Подобный образ мышления знаком каждому, кто знает историю этого пользующегося дурной славой заболевания: эти женщины, как и тысячи женщин до них, искали в своих воспоминаниях причину заболевания и затем внедряли ее в память20.

Наличие такой систематической ошибки памяти — одна из причин, почему ученые чаще предпочитают проводить повторные исследования, а не исследования типа «поперечный срез». В случае повторного исследования сбор данных выполняется на протяжении всего времени его проведения. В пятилетнем возрасте участника спрашивают о его отношении к школе. Затем, спустя тринадцать лет, мы можем наведаться к нему и выяснить, не бросил ли он школу досрочно. При проведении исследования «поперечный срез» все данные собираются одномоментно, и, спрашивая восемнадцатилетнего парня, бросившего школу, как он к ней относился в пятилетнем возрасте, мы вряд ли получим правдивый ответ.

Систематическая ошибка доживаемости до определенного возраста. Допустим, директор школы сообщает, что на протяжении четырех лет результаты экзаменов определенной группы учащихся неизменно улучшаются. Оценки второклассников лучше оценок первоклассников, а баллы третьеклассников еще лучше, чем у второклассников, ну и самые выдающиеся результаты демонстрируют ученики четвертого класса. Предполагается, что в данном случае отсутствуют какие-либо манипуляции с сознательным завышением оценок, а также с «творческим» применением описательных статистик. Каждый год эта группа становится все более успешной, какими бы показателями мы ни пользовались: средним, медианой, процентом учащихся, перешедших в следующий класс, и т. д.

Как бы вы поступили в подобном случае: a) присвоили директору этой школы звание «директор года» или b) потребовали бы от него дополнительных данных?

Лично я предпочел бы вариант b). У меня возникло сильное подозрение о наличии в данном случае систематической ошибки доживаемости до определенного возраста, которая возникает, когда какие-то из наблюдений выпадают из выборки, изменяя состав оставшихся наблюдений и тем самым сказываясь на результатах того или иного анализа. Допустим, что директор школы — никудышний администратор. Учебный процесс во вверенном ему заведении организован из рук вон плохо, учащиеся не приобретают никаких знаний, каждый год половина из них бросает учебу. Разумеется, это позитивно скажется на общих результатах экзаменов — притом что оценки каждого отдельно взятого учащегося не станут лучше. Если сделать вполне разумное допущение, что школу бросят самые нерадивые ученики (которые получали на экзаменах самые низкие оценки), то средний результат сдачи экзаменов оставшимися учащимися будет неуклонно повышаться по мере увеличения числа учеников, бросающих учебу. (Если собрать в одной комнате людей разного роста, а затем попросить «коротышек» выйти из комнаты, то средний рост оставшихся увеличится, хотя каждый из них в отдельности не стал выше.)

Индустрия взаимных фондов охотно ухватилась за систематическую ошибку доживаемости до определенного возраста, воспользовавшись ею для того, чтобы их прибыльность выглядела для инвесторов гораздо привлекательнее, чем на самом деле. Взаимные фонды обычно оценивают свою эффективность, сравнивая свои показатели с прибыльностью, обеспечиваемой одним из основных индексов, например Standard & Poor’s 500 (индекс 500 ведущих акционерных компаний открытого типа в Америке)21. Если в прошлом году S&P 500 повысился на 5,3%, то считается, что некий взаимный фонд превзошел этот индекс, если его прибыльность оказалась выше, и наоборот, взаимный фонд завершил год хуже, если его прибыльность ниже этого индекса. Для инвесторов, которые не желают платить менеджеру взаимного фонда, одним из довольно дешевых и простых вариантов будет покупка акций S&P 500 Index Fund, который представляет собой взаимный фонд, просто приобретающий доли во всех 500 пакетах акций, представленных в S&P 500. Менеджеры взаимных фондов убеждают нас в своей дальновидности и умении использовать знания для выбора таких ценных бумаг, которые обеспечивают более высокую прибыльность, чем какой-нибудь простой индексный фонд. В действительности превзойти S&P 500 на достаточно продолжительном отрезке времени довольно трудно. (По сути, S&P 500 представляет собой среднее пакетов акций всех крупных компаний, которые торгуются на фондовой бирже, поэтому с математической точки зрения можно ожидать, что примерно половина активно управляемых взаимных фондов в данном году превзойдет S&P 500, а другая половина, наоборот, продемонстрирует более слабый результат, чем S&P 500.) Разумеется, недосчитаться прибыли, доверив свои деньги какому-нибудь бездумному индексу, который просто покупает 500 пакетов акций и держит их у себя, было бы не очень красиво. Никакого тебе анализа. Никакого мудреного макропрогнозирования. И — к немалому удовольствию инвесторов — никаких заоблачных выплат в пользу менеджеров взаимных фондов.

Чем занимается традиционная компания типа взаимного фонда? Манипулирует данными! Вот как они могут «превзойти рынок», в действительности не делая этого. Крупная компания типа взаимного фонда открывает много новых активно управляемых фондов (это означает, что эксперты подбирают ценные бумаги, зачастую руководствуясь определенной стратегией). Допустим, к примеру, что она открывает двадцать новых фондов, каждый из которых с 50-процентной вероятностью может в данном году превзойти S&P 500. (Это предположение вполне соответствует долгосрочным данным.) Итак, согласно теории вероятностей, в первый год лишь десять новых фондов компании превзойдут S&P 500; пять фондов превзойдут S&P 500 в течение двух лет подряд; а два или три фонда — в течение трех лет подряд.

Дальше наступает черед самой большой хитрости. В этот момент новые взаимные фонды, которые продемонстрировали не особо впечатляющие результаты по сравнению с S&P 500, по-тихому прикрываются (их активы включаются в другие существующие фонды). Затем компания может запустить массированную рекламу двух или трех новых фондов, которые «год за годом превосходят S&P 500», — даже если результат, достигнутый ими, такая же случайность, как выпадание решки три раза подряд. Дальнейшие показатели эффективности этих фондов наверняка приблизятся к среднему значению — правда, по пути они привлекут к себе толпы новых инвесторов. На самом деле количество взаимных фондов или инвестиционных гуру, которые на протяжении достаточно продолжительного времени превосходят S&P 500, удручающе малó22.

Систематическая ошибка здорового человека. Те, кто заботится о наличии в своем рационе достаточного количества витаминов, как правило, отличаются крепким здоровьем — поскольку это люди, потребляющие достаточное количество витаминов! Играют ли какую-то роль в этом витамины — другой вопрос. Рассмотрим следующий мысленный эксперимент. Допустим, чиновники Министерства здравоохранения пропагандируют теорию, согласно которой всем молодым родителям следует укладывать своих детей в постель лишь в лиловых пижамах, поскольку это стимулирует умственное развитие ребенка. Спустя двадцать лет повторное исследование подтверждает, что те, кто в детстве спал в лиловых пижамах, достигли заметных успехов во взрослой жизни. Например, оказалось, что 98% студентов-первокурсников Гардардского университета в детстве спали в лиловых пижамах (а многие и по сей день продолжают это делать), тогда как лишь 3% из тех, кто в детстве спал в пижамах лилового цвета, сидят в тюрьмах штата Массачусетс.

Разумеется, лиловые пижамы здесь абсолютно ни при чем, однако наличие родителей, которые заставляют своих детей спать в таких пижамах, еще как «при чем». Даже когда мы пытаемся контролировать уровень образования родителей, нам все равно приходится иметь дело с не поддающимися наблюдению различиями между теми родителями, которые придают огромное значение цвету пижамы своего ребенка, и теми, кому это совершенно безразлично. Гэри Тобис, обозреватель The New York Times, специализирующийся на вопросах здоровья, объясняет: «Попросту говоря, проблема в том, что те, кто с огромным энтузиазмом выполняет все рекомендации, которые кажутся им чрезвычайно полезными (неукоснительно принимают лекарства, прописанные врачом, или соблюдают диеты), принципиально отличаются от тех, кто к таким советам не считает нужным прислушиваться»23. Данный эффект способен обесценить любое исследование, пытающееся определить реальную пользу действий, якобы благотворно влияющих на здоровье человека (например, регулярные занятия спортом или употребление в пищу листовой капусты). Мы полагаем, что сравниваем влияние на здоровье двух диет: с капустой и без нее. В действительности, если подопытная и контрольная группы сформированы случайным образом, мы сравниваем две диеты, которых придерживаются две разные категории людей. У нас есть подопытная группа, и она отличается от контрольной группы в двух аспектах, а не в одном.

Если статистика напоминает работу следователя, то данные являются аналогом вещественных улик. Моя жена год работала преподавателем в старших классах сельской школы штата Нью-Гэмпшир. Одного из ее учеников арестовали за ограбление магазина хозтоваров. Полиции удалось быстро раскрыть это преступление, потому что 1) накануне кражи выпал снег и следы от магазина вели к дому, где проживал грабитель; и 2) в доме были найдены похищенные товары. Таким образом, надежные вещественные доказательства действительно помогли.

Цените надежные данные. Но для начала вам понадобится их добыть, а это гораздо труднее, чем может показаться на первый взгляд.


1 Joe Nocera, Risk Mismanagement, New York Times Magazine, January 2, 2009.

2 Robert E. Hall, The Long Slump, American Economic Review 101, no. 2 (April 2011): 431–69.

3 Alan Greenspan, Testimony before the House Committee on Government Oversight and Reform, October 23, 2008.

4 Hank Paulson, Speech at Dartmouth College, Hanover, NH, August 11, 2011.

5 Издана на русском языке: Талеб Н. Черный лебедь. Под знаком непредсказуемости. — М. : Колибри, 2009.

6 СВСМ по-прежнему остается медицинской загадкой, хотя многие из факторов риска, связанных с этим феноменом, удалось выявить. Например, смертность у младенцев можно резко снизить, если ребенка укладывать спать на спину.

7 The Probability of Injustice, Economist, January 22, 2004.

8 Вместе с тем в теории вероятностей доказан факт, что если достаточно долго подбрасывать монету, то будут наблюдаться периоды преобладания выпадания орла или решки. Это так называемый первый закон арксинуса. Этот закон не отменяет сказанного автором, а только показывает структуру исходов в испытаниях Бернулли. О данном феномене см., например, классическую книгу В. Феллер. Введение в теорию вероятностей и ее приложения. Т. 1. Глава III. Прим. ред.

9 Thomas Gilovich, Robert Vallone, and Amos Tversky, The Hot Hand in Basketball: On the Misperception of Random Sequences, Cognitive Psychology 17, no. 3 (1985): 295–314.

10 Chicago Cubs — профессиональный бейсбольный клуб, выступающий в Центральном дивизионе Национальной бейсбольной лиги. Прим. перев.

11 Ulrike Malmendier and Geoffrey Tate, Superstar CEOs, Quarterly Journal of Economics 124, no. 4 (November 2009): 1593–638.

12 The Price of Equality, Economist, November 15, 2003.

13 Указанное изменение политики Еврокомиссии было в конечном счете разъяснено в особом постановлении Верховного суда Евросоюза от 2011 года. В этом постановлении было указано, что применение разных надбавок к мужчинам и женщинам представляет собой дискриминацию по половому признаку.

14 Benedict Carey, Learning from the Spurned and Tipsy Fruit Fly, New York Times, March 15, 2012.

15 Известный принцип программирования, в соответствии с которым неверные входные данные не могут привести к правильному результату. Прим. перев.

16 На тот момент средняя продолжительность этой болезни составляла сорок три дня со среднеквадратическим отклонением, равным двадцати четырем дням.

17 Cynthia Crossen, Fiasco in 1936 Survey Brought ‘Science’ to Election Polling, Wall Street Journal, October 2, 2006.

18 Tara Parker-Pope, Chances of Sexual Recovery Vary Widely after Prostate Cancer, New York Times, September 21, 2011.

19 Benedict Carey, Researchers Find Bias in Drug Trial Reporting, New York Times, January 17, 2008.

20 Siddhartha Mukherjee, Do Cellphones Cause Brain Cancer? New York Times, April 17, 2011.

21 Standard & Poor’s 500 — показательный пример того, что может и должен делать любой индекс. Этот индекс составлен из цен акций 500 ведущих американских компаний с учетом рыночной стоимости каждой из этих компаний (так, чтобы более крупные компании имели в этом индексе больший вес, чем мелкие). Данный индекс — простой и точный показатель того, что происходит с ценами акций крупнейших американских компаний в любой момент времени.

22 С очень интересным обсуждением того, почему следует отдать предпочтение покупке индексных фондов, вместо того чтобы пытаться превзойти рынок, можно ознакомиться в книге моего бывшего преподавателя, профессора Бертона Малкиела (Burton Malkiel) A Random Walk Down Wall Street (Случайная прогулка по Уолл-стрит. — Минск : Попурри, 2006).

23 Gary Taubes, Do We Really Know What Makes Us Healthy? New York Times, September 16, 2007.


Комментировать


 


при поддержке фонда Дмитрия Зимина - Династия