Объявлено медицинское тестирование, диагностирующее наличие или отсутствие некой редкой болезни. Это чрезвычайно надежный тест. Вы принимаете решение пройти его и с ужасом получаете положительный результат. Насколько стоит беспокоиться?
Перевести беспокойство на язык цифр непросто, но в подобных ситуациях нужно сосредоточиться, потому переформулируем вопрос: насколько велика вероятность, что вы действительно подхватили это редкое заболевание?
Для ответа необходимо знать уровень надежности теста, а кроме того, как мы скоро увидим, уровень распространения болезни. Вот эти данные.
Редкая болезнь поразила 0,1% населения. Состояние здоровья одного человека из тысячи вызывает тревогу.
Тест не идеален, как и всякий медицинский тест. Предположим, он дает верную информацию в 98% случаев. Таким образом:
Разумеется, мы хотим пройти еще более надежный тест, но предположим, что это единственный возможный способ диагностировать наличие или отсутствие болезни.
Вопрос: если результаты теста положительные, какова вероятность того, что вы больны?
Ответ выглядит очевидным. Мы указали, что тест дает верные результаты в 98% случаев. Таким образом, вы больны с вероятностью 98%. Верно?
Вообразим город с миллионом жителей. Один из тысячи болен. Другими словами, 1000 жителей больны и 999 000 здоровы.
Все жители проходят медицинское тестирование. Посмотрим, сколько будет положительных результатов, если тест эффективен на 98%.
В общей сложности 980 + 19 980 = 20 960 жителей получат положительный результат.
Теперь мы можем правильно ответить на поставленный вопрос: какова вероятность того, что вы больны, если ваш результат тестирования положительный?
Среди двадцати с лишним тысяч людей с положительным результатом всего лишь меньше тысячи действительно больны. Точная вероятность правильности теста в этом случае равна
$$ \frac{980}{20960} \approx 4{,}7 \% $$Вероятность того, что вам стоит беспокоиться, не равна 98%! На самом деле вероятность того, что вы заражены этой редкой болезнью, меньше 5%!
Стало быть, тесту грош цена? Не совсем.
Во-первых, если ваш лечащий врач имеет веские причины предполагать у вас наличие этого редкого заболевания, вы больше не «случайный» пациент. И если у вас действительно прослеживаются определенные симптомы, вероятность того, что вы заражены, уже не одна тысячная, а скажем, одна четвертая1. В этом случае положительный результат тестирования имеет гораздо больший смысл, чем нестрого обоснованные выводы.
Во-вторых, если болезнь действительно опасна, тест, эффективный на 98%, позволяет хорошо просеять большие массы населения на предмет наличия или отсутствия болезни. Пациенты с положительным результатом могут пройти вторую диагностику, дающую еще более точные результаты.
Разумеется, отрицательный результат — не повод успокаиваться полностью. Какова вероятность того, что он верен? (Ответ я дам в конце главы.)
Интуиция отказывается принимать тот факт, что тест, надежный на 98%, может быть настолько несовершенным, но вычисления говорят сами за себя. Впрочем, голые цифры могут обманывать нашу интуицию. Попробуем нарисовать картинку.
Заметим: диаграмма не соблюдает пропорции (0,1% больных, эффективность теста 98%).
На чертеже большой прямоугольник изображает все население. Фрагмент прямоугольника слева вверху обозначает группу больных жителей, оставшаяся часть — группу здоровых жителей. Серая полоса сверху — это все жители (из обеих групп) с положительным результатом. Белая область внизу — все жители (опять-таки из обеих групп) с отрицательным результатом.
Чертеж иллюстрирует основные детали вышеописанной ситуации:
Мы вычислили вероятность того, что пациент с положительными результатами медицинского тестирования действительно болен. Мы вообразили гипотетический город, где живет миллион человек, и посчитали численность разных категорий населения. Это был способ ad hoc3. В общем случае мы должны руководствоваться языком теории вероятностей, и я завершу главу разъяснениями по этому поводу.
Для события \(A\) мы обозначаем \( P\left ( A \right ) \) вероятность того, что событие \(A\) произойдет, и \( P\left ( \bar{A} \right ) \) — вероятность того, что событие \(A\) не произойдет; таким образом, \( P\left ( \bar{A} \right ) = 1-P\left ( A \right ) \).
Для событий \(A\) и \(B\) мы обозначаем \( P\left ( A \wedge B \right ) \) вероятность того, что произойдут оба события — и \(A\), и \(B\).
Запись \( P\left ( A \mid B \right ) \) означает вероятность того, что из события \(A\) следует событие \(B\); это условная вероятность того, что \(A\) влечет за собой \(B\). Формула Байеса4 говорит нам:
$$ P\left ( A \mid B \right )=\frac{P\left ( A \wedge B \right )}{P \left ( B \right )} $$Надежность диагноза, вынесенного на основе упомянутого медицинского теста, может быть выражена на языке математики следующим образом. Пусть \( S \) означает, что некто заражен редкой болезнью, а \( T \) означает положительный результат тестирования. Таким образом:
Вопрос: какова вероятность того, что пациент с положительным результатом тестирования действительно болен?
Если перевести задачу на язык символов, то мы ищем величину \( P\left ( T \mid S \right ) \). По формуле Байеса эта вероятность равна \( \frac{P\left ( S \wedge T \right )}{P\left ( T \right )} \). Нам нужно узнать \( P\left ( S \wedge T \right ) \) и \( P\left ( T \right ) \)
Начнем хоть с \( P\left ( S \wedge T \right ) \), хоть с \( P\left ( T \wedge S \right ) \). По формуле Байеса
$$ P\left ( T \mid S \right )=\frac{P\left ( S \wedge T \right )}{P\left ( S \right )} $$Мы знаем, что \(P\left ( T \mid S \right ) = 0{,}98\) , а \(P\left ( S \right )= 0{,}001\) . Следовательно,
Теперь вычислим \(P\left ( T \right )\). Нам известно, что \(P\left ( T \mid S \right ) = 0{,}98\), а \(P\left ( T \mid \bar{S} \right ) = 0{,}02\). В то же время \(P\left ( T \right )=P\left ( T \wedge S \right )+P\left ( T \wedge \bar{S} \right )\) Далее:
Применим формулу Байеса в последний раз:
Это совпадает с нашими предыдущими вычислениями.
1 Предположим, вы попали в категорию людей, где 25% поражены болезнью. Какова вероятность того, что вы заражены, если результат тестирования положительный? Ответ — в конце главы.
2 Этот раздел предназначен для тех, кто уже изучал теорию вероятностей и хочет освежить свои знания. Другие читатели могут листать до следующего раздела.
3 По особому случаю (лат.). — Прим. пер.
4 Томас Байес (1702–1761) — британский пресвитерианский священник, богослов и математик. — Прим. пер.