Правило первой цифры

Возьмите какой-нибудь справочник о нашем мире. Пусть это будет географический атлас. Посмотрите на данные по численности населения разных стран. Или на характеристики рек: длину и площадь бассейна. Точнее, смотреть надо на первые цифры этих чисел. Окажется, что в этих совокупностях данных первые цифры распределены совсем не равномерно (как, возможно, вы ожидали): например, единица будет встречаться гораздо чаще, чем в 1/9 случаев, и вообще — чаще других цифр. Так, в списке стран по населению единица стоит на первом месте в 66 случаях из 242. Это примерно 27%. Если набор данных достаточно большой, то следующей по частоте цифрой будет двойка, потом — тройка и т. д. Оказывается, что такой же эффект наблюдается и у многих других наборов чисел, которые возникают естественным путем. Причем этот эффект не зависит от того, в каких единицах измерять данные.

Задача

Предположим, что имеется очень большой набор чисел, про который известно, что он обладает описанными выше свойствами (на первом месте единицы встречаются чаще двоек, двойки — чаще троек и т. д., и это не зависит от выбранной системы измерения). Определите вероятности, с которыми случайно взятое число из этого набора будет начинаться на 1, 2, …, 9.


Подсказка

Пусть число x начинается на какую-нибудь данную цифру, скажем на 5. Как это можно описать по-другому? Например, так: это число не меньше, чем какое-то число вида 50...0, но не больше, чем 59...9 (в первом случае вместо многоточия стоит сколько-то нулей, во втором — столько же девяток). В виде неравенства это выглядит так:

Но более удобно переписать это в виде

Или, что то же самое

где n — количество нулей после значащих цифр в предыдущем неравенстве.

Обобщая это рассуждение, получаем такой вывод: данное число x начинается на цифру i, если (и только если) при некотором целом неотрицательном n выполнено неравенство

Теперь уже можно приступать к вычислению искомых вероятностей. Фактически, осталось только прологарифмировать последнее неравенство (опять же, для удобства) и правильно проинтерпретировать то, что получится.


Решение

Проделав действия, описанные в подсказке, мы можем представить утверждение число x начинается с цифры i в виде двойного неравенства

Взяв логарифм по основанию 10 (который обозначается буквами lg), перепишем его так:

Наконец, взяв дробную часть, получим такие неравенства:

Тут стоит пояснить, что поскольку i — какая-то цифра от 1 до 9, то числа lg i и lg(i + 1) лежат между 0 и 1. А n — целое неотрицательное число, и после взятия дробной части оно просто исчезает.

Подведем промежуточный итог. Получилось, что число x начинается на цифру i если и только если дробная часть его логарифма лежит между lg i и lg(i + 1).

Эту ситуацию удобно рассмотреть на рисунке. Дробная часть любого числа всегда принадлежит полуинтервалу [0; 1). Ему же, как отмечалось выше, принадлежат и числа вида lg i, где i — цифра. Отметим их все на этом промежутке:

Промежуток для дробных частей логарифмов

Дробные части логарифмов чисел из нашего набора как-то разбросаны по этому промежутку. Осталось понять, как именно.

Соединим концы промежутка и представим его в виде окружности длины 1 (скоро станет понятно, зачем это делается):

У промежутка склеили концы и получилась окружность

Отмеченные точки («логарифмы цифр») делят эту окружность на дуги, и теперь нужно понять, как числа из набора распределятся по этим дугам.

Осталось вспомнить, что распределение чисел набора по первой цифре не зависит от выбора единиц измерения (это свойство не должно казаться противоестественным для обсуждаемой ситуации: логично предположить, что распределение зависит от того, откуда взялись данные, от их природы, а не от того, как их измерять). Смена единиц измерения («смена масштаба») — это просто умножение всех чисел набора на один и тот же множитель. Например, чтобы перевести футы в метры, нужно умножить на 0,3048 — ровно столько метров в одном футе. То есть любое число x из набора превратится в число kx после перемасштабирования (буквой k обозначен этот «масштабный» множитель). Но на окружности мы следим за дробными частями от логарифмов чисел набора, поэтому после смены масштаба мы будем иметь дело с числами вида {lg(kx)} = {lg x + lg k}. А это или равно сумме {lg x} + {lg k}, или меньше ее на 1. Но на нашей окружности эти ситуации изображаются одной и той же точкой (ведь длина всей окружности равна 1). Поэтому перемасштабирование просто приводит к тому, что все точки на окружности поворачиваются на один и тот же угол (который соответствует числу {lg k}). Ясно, что мы можем менять масштаб как угодно, и по условию эти смены не поменяют распределение чисел по первой цифре. Значит, точки, которые соответствуют числам набора, распределены равномерно на окружности. Поэтому вероятность того, что выбранное число будет начинаться на данную цифру, равна длине соответствующей дуги. Например, единице соответствует дуга длиной lg 2 − lg 1 ≈ 0,3010..., а двойке — дуга длиной lg 3 − lg 2 ≈ 0,1760..., и так далее. В общем виде ответ выглядит так: выбранное число будет начинаться на цифру i с вероятностью lg((i + 1)/i).


Послесловие

Исследованный в этой задаче эффект в распределении чисел по первой цифре называется законом Бенфорда (Benford's law). Хотя впервые его обнаружил почти за 50 лет до Бенфорда астрономом Саймон Ньюком. Эта история довольно любопытна. В те времена для расчетов использовались различные готовые таблицы со значениями основных функций, это были толстые тома. Однажды, когда ему потребовались таблицы логарифмов, Ньюком обратил внимание, что первые страницы испачканы и потрепаны гораздо сильнее. И чем ближе к концу справочника, тем чище и новее были страницы. Значит, решил Ньюком, его коллегам чаще всего нужны значения логарифмов чисел, которые начинаются с единицы. А числа, начинающиеся с двойки, нужны реже, с тройки — еще реже, и т.д. То есть сами числа встречаются с разной частотой в зависимости от своей первой цифры. Этот вывод, а также найденное логарифмическое распределение (которое мы получили в решении) Ньюком опубликовал в 1881 году. Но на его заметку почти не обратили внимания, и вскоре она была забыта.

В 1938 году этот же результат опубликовал Франк Бенфорд, инженер компании General Electric, который обнаружил эту закономерность почти так же, как и Ньюком, — просматривая численные таблицы. Но Бенфорд сделал гораздо больше. За несколько лет он изучил порядка 20 000 разных совокупностей чисел, которые он брал из всех возможных источников: различных справочников, статистических сводок и даже просто из газет (буквально: все числа, которые встречаются в одном номере газеты). И почти всегда распределение по цифрам получалось близким к логарифмическому (или хотя бы похожим на него, если чисел было мало).

Кстати, аналогичные законы распределения есть и для любого начального куска числа. К примеру, случайно выбранное число из набора, о котором шла речь в задаче, будет начинаться на 57 с вероятностью lg(58/57) = 0,00755... А это позволяет вычислить и вероятность, с которой на данном месте в числе будет стоять данная цифра. Например, чтобы узнать, с какой вероятностью в числе на втором месте стоит семерка, надо сложить вероятности, что число начинается на 17, на 27, на 37, ..., на 97.

Стоит отметить, что закон Бенфорда работает далеко не всегда. Например, если в качестве наборов брать номера лотерейных билетов или почтовые индексы или телефонные номера, то ничего не выйдет: везде будет равномерное распределение — на каждую цифру будет начинаться примерно одинаковое количество чисел. Тут дело в том, что числа в этих совокупностях довольно строго ограничены, а в таком случае закон Бенфорда не работает.

А когда же он работает? Как видно из решения, важно, чтобы распределение по цифрам не зависело от единиц измерения, то есть не менялось от умножения всех чисел набора на один тот же множитель. Если это свойство — «независимость от масштаба» — выполняется, то закон работает. Правда, это не очень удобный критерий. Некоторое время назад американский математик Т. Хилл доказал, что если есть несколько разных наборов таких чисел и из каждого взять какую-нибудь часть и объединить эти части в новый набор, то для него закон Бенфорда тоже будет работать. Подробнее об этом можно почитать на английском в статьях Хилла: The First Digit Phenomenon (это небольшая обзорная статья, PDF, 113 Кб) и A basic theory of Benford’s Law (PDF, 1,3 Мб).

Закон работает и для некоторых последовательностей чисел, которые появляются в математике и про которые трудно сказать, что они «возникают естественным путем», то есть из жизни. Это, например, последовательности степеней двойки, факториалов, чисел Фибоначчи. А вот последовательность самих натуральных чисел закону Бенфорда не подчиняется. Рекомендую также почитать статью В. И. Арнольда Статистика первых цифр степеней двойки и передел мира (PDF, 500 Кб), в которой делается попытка объяснить, почему закон Бенфорда работает для данных по населению стран и по их площади.

Любопытно, что в конце XX века этот, на тот момент в общем-то эмпирический, закон (точнее, методы на его основе) стали успешно применять в аудите и при расследовании финансовых махинаций, а также при проверке разного рода социологических исследований. Один из таких случаев описан в книге Л. Млодинова «(Не)совершенная случайность». Речь идет об аферисте, который сначала умудрился собрать с инвесторов около 90 млн долларов на открытие сети клубов здоровья, а затем, вместо того чтобы заниматься этим бизнесом и развивать его, растранжирил почти все деньги. Для прикрытия своих делишек он вместе с подельниками устроил сложную схему с большим количеством подставных счетов, между которыми переводились деньги имитируя нормальную деятельность активно расширяющейся компании. Афера вскрылась после того, как в ходе анализа этих переводов выяснилось, что первые цифры распределены не по закону Бенфорда: преступники «рисовали» числа в переводах, не зная про этот закон.


3
Показать комментарии (3)
Свернуть комментарии (3)

  • polymerphysicist  | 06.06.2014 | 21:44 Ответить
    Поправьте, Саймон Ньюком. В английском языке b в конце слова или в конце слога перед согласной часто не звучит, причём в сочетании -mb не звучит никогда. Что было хорошо известно, например, создателям "Большой советской энциклопедии", назвавшим математика Ньюкомом.
    Ответить
    • ee > polymerphysicist | 06.06.2014 | 22:12 Ответить
      Спасибо!
      Ответить
  • aaa333  | 24.06.2014 | 14:47 Ответить
    А вскоре после Бенофрда появились работы Клода Шеннона, стало понятно, что в некотором смысле "самым случайным распределением из всех случайных распределений" на полупрямой является экспоненциальное распределение, т.к. оно имеет максимальную энтропию при фиксированнах моментах, именно поэтому числа, "взятые из жизни", при логарифмировании и нанесении на круг достаточно часто дают равномерное распределение.

    Честно говоря, давно мечтал увидеть задачки на нахождение распределений с максимальной энтропией, которые были бы доступны для понимания студентам младших курсов. А то есть подсознательное чувство, что у нормального, экспоненциального, пуассоновского и равномерного распределений есть что-то общее, каждое является "самым случайным" в своем классе, а что это в общем случае означает - никто четко сформулировать не может:-)
    Ответить
Написать комментарий
Элементы

© 2005–2025 «Элементы»