Лукавые девятки: аналитик показал, как фальсифицируются данные о пандемии

О том, что официальная ковид-статистика в нашей стране мягко говоря выглядит странно, заметили все, и время от времени в социальных сетях и СМИ появлялись доказательства тех или иных данных. А вот директор по исследованиям компании Data Insight Борис Овчинников, внимательно следящий за российской статистикой пандемии, пошел еще дальше. Он подметил одну крайне интересную тенденцию: за последние 25 дней официальное число новых выявленных носителей коронавируса в России заканчивалось на 99: 7099 – 30 апреля, 10699 – 8 мая, 10899 – 12 мая, 8599 – 24 мая. Согласно его строгим подсчетам вероятность того, что эти данные отражают естественное положение дел, ничтожно мала:

«Это в 16 раз выше математического ожидания (которое тут считается просто – 99 на конце в среднем должно выпадать один раз из 100).

Насколько вероятно подобное случайное совпадение? Если кратко – оно не исключено (это все же не володинские 62,2% в Саратовской области), но крайне маловероятно (а если подробно – то ниже много цифр и рассуждений). Намного более правдоподобное объяснение - особенно если вспомнить еще и известные нам факты про странности официальной статистики на региональном уровне – что на фальсификации коронавирусной статистики в регионах накладывается еще и фальсификация на федеральном уровне, когда вместо положенного простого суммирования присланных из регионов цифр (настоящих из одних регионов, рисованных из других) придумывается число, которое будет выдано гражданам за «итого» по России, ну а дальше статистика по регионам подгоняется под это рисованное федеральное число.

Немножко теоретических предпосылок. Если исходить из официальной версии, то озвучиваемое Оперативным штабом каждое утро количество новых выявленных больных в целом по России является суммой 85 независимых друг от друга величин – количества больных, выявленных в каждом регионе. При сложении 85 независимых величин (большинство из которых равно нескольким или даже многим десяткам) теоретическая вероятность получить число с 99 на конце такая же, как с 00 или 01 или любой другой парой цифр.

Теперь к конкретным расчетам. Вероятность случайного совпадения легко считается через биномиальное распределение. Получается 0,011% или 1 случай на 9350 попыток. Но это вероятность выпадения 4 раза из 25 для одного конкретного числа (в данном случае для 99). Вероятность, что при 25 попытках любое число от 0 до 99 выпадет более 3 раз, составляет уже (примерно) 1,1%. Вероятность выпадения 4 раза какого-то «красивого» числа (а 99 – явно «красивое», нерядовое число) меньше – но точная оценка зависит от того, какие именно числа мы договоримся считать «красивыми». При этом надо признать, что эти оценки посчитаны для вероятности совпадения в пределах волюнтаристски выбранного мною периода (30.04-24.05), притом выбранного так, чтобы минимизировать оценку вероятности случайного совпадения.

Честнее будет посчитать за независимо выбранный период. В качестве границы такого периода логичнее всего выбрать 20 апреля – тогда впервые за долгое время (с 4 апреля) количество новых случаев было меньше, чем в предыдущие 2 дня, и фактически именно с 20 апреля началась первая «полка», когда до конца месяца, до 29.04 включительно, по официальным цифрам шел линейный, а не экспоненциальный рост. Более того, общее впечатление от региональной статистики также показывает на границу второй и третьей декад апреля, как переломный момент, начиная с которого достоверность и адекватность статистики начинает быстро сокращаться.

Так вот, если взять период с 20 апреля по сегодня, 25 мая (35 дней), то вероятность повторения числа «99» 4 раза из 35 составляет 0,041%. Вероятность выпадения любого двухзначного числа 4 раза из 35 – примерно в 100 раз больше, 4,0%.Снимаем подозрения?

Нет, преждевременно.

Кроме «99», еще только 4 двухзначных числа выпадали начиная с 20 апреля более 1 раза. И одно из этих четырех чисел – соседнее с «99», «98». То есть в 6 случаях из 35 (на самом деле даже из 28, если считать не с 20.04, а с первого появления сочетания «98» в ежедневных сводках) количество выявленных за сутки больных заканчивалось на одно из двух максимальных двухзначных чисел – или на 98, или на 99. Для сравнения – из других возможных пар соседних чисел только одна, 33 и 34, встречалась трижды (в 2 раза реже), а остальные – и вовсе от 0 до 2 раз.

6 раз «98» или «99» из 35 при теоретической частоте 2% - это уже вероятность 0,0063% (или 1 случай на 15850). Вероятность, что любая пара соседних чисел выпадет 6 раз из 35 – 0,6%. Вполне корректно (ок, на мой субъективный взгляд) мы выявили в официальных данных событие, вероятность появления которого случайно (т.е. при простом суммировании цифр из регионов без правки результата) – доли процента (0,6%). И это оценка даже без учета того, что 98 и 99 – не самые обычные числа.

К этому еще стоит добавить, что за последние 35 дней ни разу количество новых выявленных больных не заканчивалось на пятерку (вероятность такого случайного невезения – 2,5%) и только один раз заканчивалось на ноль, притом сразу на два нуля (9200 16 мая). Вероятность, что за 35 дней только 1 раз выпадет число, кратное 5, - всего 0,4% (если анализировать только кейсы «вдали» от пика на 98 и 99, т.е. в диапазоне последних двух цифр от 10 до 90, то там получается 0 чисел, кратных 5, при 25 «попытках», и вероятность случайного появления такой аномалии опять-таки около 0,4%).

Зато 13 раз (+6 к матожиданию) выпадали или четверки, или девятки; вероятность такой частоты отклонения от числа, кратного 5, на единицу в меньшую сторону - 1,4%. Если брать последнюю цифру (количества выявленных больных за сутки) не в десятичной, а в пятеричной системе исчисления, то вероятность такого разброса, как в данных за последние 35 дней (одна любая цифра встречается только 1 раз или реже, а другая любая цифра встречается 13 раз или чаще), составит менее 0,45%.

Вероятность, что в одном наборе из 35 двухзначных чисел (который по логике должен быть распределен примерно равномерно) у нас одновременно случайно получится и пара соседних чисел с 8 попаданиями, и – для остальной части распределения - нулевая частота чисел, кратных 5, составляет 0,6% * 0,4% = 0,0024%. Или 1 случай на 42 тысячи. Если же считать, что пик частотности не случайно пришелся на два наибольших двухзначных числа (98 и 99), то оценка вероятности снижается еще в 100 раз. Тут правда надо отметить, что это расчет для конкретной комбинации странностей – а таких комбинаций, предположительно указывающих на рисование цифр, можно придумать большей одной.

Но больше одной, а не тысячи

Итого, у нас есть две версии:

а) или это просто случайность, что в последние 5 недель (т.е. в период существенного улучшения динамики эпидемии по официальной статистике) очень часто сумма количества выявленных больных по 85 регионам дает число, заканчивающееся на 99 или 98, и при этом почти никогда не встречаются числа, кратные 10 или 5. Вероятность каждой из этих аномалий по отдельности– единицы процентов или даже десятые доли процента. Вероятность их одновременного проявления – еще меньше;

б) или число выявленных за сутки больных, которое потом озвучивается гражданам, не считается через суммирование данных из регионов, а определяется сверху – в формате указания типа «покажите прирост около 8600». Дальше перед публикацией эта цифра «дезокругляется» - часто просто вычитанием единицы или двойки, что, кстати, требует дальше корректировки цифр по регионам или даже их рисования с нуля (возможно, что маскировка круглости федеральных цифр делается уже на финальном этапе, когда спущенная сверху еще круглая федеральная сумма расписана по регионам, и тогда понятно обилие 99 и 98: поменять на конце федерального числа два нолика на 99 или 98 сильно проще, чем скажем на 73 или любое другое число – меньше надо корректировать уже утвержденные цифры по регионам). Круглое число 9200 16 мая в эту логику тоже укладывается – могли однажды забыть про необходимость маскировки круглых цифр, а могли и так неуклюже попытаться изобразить естественность цифр, мол и круглые цифры должны иногда выпадать.

Выбирая между двумя этими версиями, стоит учитывать, что фальсификацию статистики по выявленным больным на региональном уровне и раньше можно было считать доказанной (см. например 12 дней подряд по 96-99 выявленных в Краснодарском крае, совпадение сразу 8 регионов в один день на уровне 97-98 выявленных и т.д.). Оставался вопрос – насколько вероятно, что эти фальсификации случаются только на региональном уровне. Изначально я, кстати, полагал, что эта вероятность больше 50% - но даже если бы мы априорно оценили эту вероятность скажем в 90% (и оставили только 10% на то, что рисуют и на федеральном уровне), то после каре на 99 старина Байес нам все равно подмигнул бы: «это почти наверняка не случайность, а признак фальсификации, и фальсифицируют в том числе на федеральном уровне». Из двух вышеприведенных версий намного более правдоподобной выглядит вторая – обилие 98 и 99 в результатах вызваны попыткой замаскировать подозрительную «круглость» цифр, спущенных сверху.

Какие из всего этого выводы?

Похоже, что фальсификация статистики по количеству выявленных больных – это не отдельные локальные инициативы, а единая многоуровневая система, где первична придуманная общероссийская цифра, а региональные цифры уже подгоняются под нее
Официальные цифры по количеству заболевших можно выбросить в мусорное ведро – нет никаких оснований считать, что они адекватно показывают динамику эпидемии. Может быть, показывают, может быть нет – неизвестно. Качество рисованных цифр невозможно и абсурдно оценивать
(upd) Выявление фальсификации на федеральном уровне резко снижает для любого региона вероятность того, что по нему цифры условно честные. Цифры, например, по Москве и Новосибирску можно было рассматривать без связки с рисованием в Краснодаре - но можно ли их рассматривать без связки с рисованием федеральных цифр? Имхо нет
Даже если с понедельника пойдут какие-то внешне адекватные цифры, это уже ничего не изменит – у нас (у общества) не будет оснований верить, что это они начали честно считать, а не догадались лучше маскировать свое рисование
Конечно, нужны отставки и нужен независимый аудит, но я честно говоря плохо себе представляю масштаб и алгоритм действий, необходимых для восстановления доверия к официальной статистике.

***

Добавлю несколько лирических деталей:

Полтора месяца назад я был среди тех, кто считал, что в подсчет статистики по коронавирусу вовлечено слишком много людей на всех уровнях, чтобы ее можно было бы рисовать с потолка; 3 недели назад я был уверен, что рисуют только в отдельных регионах; и даже когда 17 мая сразу 8 регионов выдали похожие цифры 97 или 98, я это списывал на случайное совпадение мышления при рисовании цифр, а не на централизацию фальсификаций. К чему я это пишу? К тому, что я не был изначально настроен на ловлю явных артефактов рисования цифр в федеральной статистике - их появление противоречило моим ожиданиям, и их анализ и проверка существенно скорректировали мое представление о том, как может быть устроена рисовка коронавирусных цифр;
С точки зрения анализа на достоверность и естественность цифр я изначально все или почти все внимание обращал именно на цифры ежедневного прироста количества выявленных больных. Потому что остальные цифры или слишком маленькие (к счастью - но это затрудняет или делает невозможными статтесты), или изначально считаются левой ногой (выздоровевшие), или являются механической суммой ежедневных приростов. И именно в том параметре, который я априорно считал ключевым, обнаружилась аномалия
Я еще 8 мая обратил внимание на появление второй раз за короткое время цифры 99 на конце. Понятно, что это могло быть случайным совпадением - но уже тогда меня удивило, что совпало именно на 99. Когда 99 повторились еще раз, я уже даже собрался писать об этом - но формальный расчет вероятности давал совсем неубедительные результаты. Продолжил наблюдение. Когда через 4 дня выдали число с двумя нулями на конце, я вообще расслабился - решил, что авторы цифр спохватились, что 99 многовато и для контраста выдали круглую цифру. И тут неожиданно вчера снова выпало 99. Тут уж пришлось писать [а я мечтал вчера покопаться в поисковой статистике - увы, не получилось...»

Материалы по теме

+ Доктор Мясников заявил, что врачи не врут со статистикой смертности от коронавируса + Издержки автократии: почему мы не верим российской статистике по коронавирусу + Илон Маск назвал американскую статистику по коронавирусу недостоверной + Секрет статистики: больные коронавирусом властям выгодны, а мертвые – нет