Цифры прячут в себе много скрытых закономерностей. Например, если вы откроете папку с некоторым количеством файлов, и отсортируете их по объему, скорее всего размер самого большого файла будет начинаться с цифры 1. Не получилось? А вероятность была высокой… Закон Бенфорда, или закон первой цифры, описывает вероятность появления определённой первой значащей цифры в распределениях величин, взятых из реальной жизни. И этот закон утверждает, что цифра 1 в качестве первой встречается чаще всего. Частота встречаемости остальных цифр будет убывать достаточно быстро. Проверим? Берем с сайта Росстата население России с разбивкой по регионам. График ниже показывает, как часто цифры являются ведущими (первыми в этом ряду данных).

Синий столбец – частота, с которой встречались цифры. Красный – как должно быть по закону Бенфорда. Очень близко. Сверяя фактическое распределение с эталонным, можно выявлять махинации с данными. На каком бы еще ряду проверить?
Недавно были выборы, и случайно под руку попался сайт с результатами голосования. Берем данные результатов голосования по Окружным избирательным комиссиям.

Это часто результаты анализа ряда «Число открепительных удостоверений, полученных окружной избирательной комиссией». Ну в целом правдоподобно…

Результаты голосования за «9. Всероссийская политическая партия “ПАРТИЯ РОСТА”». Почти эталонный ряд. Цифра 1 встречается чаще других и тд.

Результаты голосования за «12. Политическая партия “КОММУНИСТИЧЕСКАЯ ПАРТИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ”». Вот всегда знал, что с коммунистами что-то не то… дальше не интересно. Дальше политика. Любопытные могут выполнить эти простые анализы и сами. Я свое любопытство удовлетворил.
Да, подписывайтесь и следите за новостями. В октябре организую практический курс по анализу данных своими руками. Очень крутой курс. На котором новички станут матерыми специалистами.
Нет похожих публикаций