November 21st, 2019

Экологическое

это перепост заметки, оригинал находится на моем сайте: https://lleo.me/dnevnik/2019/11/21

Подаёт природа знак
в качестве укора:
птицы бьются об ветряк,
черви гибнут в норах.
С криком «что за скукота?»
выбросились два кита.
Листья тополя, кружась,
падают руками в грязь.
От большого ледника,
словно белый сахар,
откололись два куска
и уплыли нахер.
Прилетают пчелы в улей
перепачканные все.
Не ебёт косуль косулю
из-за шума от шоссе.
Экологии каюк,
что оставим детям?
Вот о чем теперь в Фейсбук
будет попиздеть им?


Collapse )

Перепись 2020 года

это перепост заметки, оригинал находится на моем сайте: https://lleo.me/dnevnik/2019/11/21_stat

Традиционно интересуюсь вопросами переписи населения, пытаясь понять — как, для чего и с какой целью организовывается такая масштабная кампания раз в десять лет и какой даёт результат.

Ну вы помните эту знаменитую советскую песню о том, как «стоят девчонки, стоят в сторонке, платочки в руках теребят — потому что на 10 девчонок по статистике 9 ребят»? Песня традиционно поднимала всем мужикам самооценку, потому что как бы из нее следовало, что каким бы крокодилом ты ни был, но девушку танцевального возраста ты всегда себе найдешь.

Так вот — песня врёт. Развеем миф. Берем на сайте Росстата результаты последней переписи (пробной, 2018 года) и видим: мужчин: 184 тыс, женщин: 228 тыс. И простой калькулятор подсказывает, что на десять девчонок по статистике даже не 9, а всего 8 ребят...

Но это общая статистика. А стоит копнуть глубже — какая неожиданность! Если взять молодых и трудоспособных, то мужчин будет 149 тыс, а женщин 146 тыс. Извините, пацаны, молодые девчонки давно разобраны. Стойте в сторонке, теребите платочки: вас ждут только старушки-пенсионерки. Потому что работающее население России составляет 160 тыс, а неработающее или не указавшее занятость — 180 тыс. Тоже, кстати, попытайтесь осмыслить.

Может, вы думаете, что перепись 2018 года была пробной, прошла электронно на очень узкой выборке и поэтому получила такие результаты? Хорошо, идем в результаты всероссийской переписи 2010. Полное число россиянок на 2010 год 76809957, а россиян 66046579. И по статистике, казалось бы, на 10 девчонок снова выходит 8,6 ребят... Но мы открываем файл с итогами переписи 2010 и видим, что вообще-то в России девочек рождается меньше, чем мальчиков! И лишь только к 30 годам (а в селах аж к 45 годам) количество женщин и мужчин наконец становится одинаковым. И только лишь к возрасту 46 лет мы получаем заветные 52,6% женщин — ту самую ситуацию из песни, когда на 10 девчонок 9 ребят... А уж после 85 лет женщин более 80% — чем и компенсируется перекос при рождении и создается ощущение, что мужчин меньше. Получается, что девчонки, которые на танцах стоят в сторонке и теребят платочки в ожидании ребят — это 46-летние девчонки.

На этом простом и любопытном примере мы видим, что статистика и перепись — очень любопытная штука, и с ее помощью можно развеять много мифов.

Слышал мнение, что перепись — это отмывка денег в России. Однако, перепись населения — это международное мероприятие, которое проводится почти во всех странах по рекомендации ООН проводить в каждой стране перепись не реже, чем каждые 10 лет.

Другой вопрос: зачем бегать по домам с листами, если все данные о гражданах есть в базах учета ЗАГС, Налоговой, Пенсионного фонда, ГИБДД, реестров землевладения, коммунальных счетов и так далее? Не лучше ли посадить небольшую команду толковых программистов, которые за годик сопоставят эти базы и дадут результат для населения страны? Это называется работой с регистрами, и действительно некоторые страны отказываются от переписи в пользу работы с регистрами. Проблем у этого метода тоже хватает. Во-первых, из каждой организации нужна анонимная выгрузка данных (перепись проводится анонимно), чтоб не было утечек информации, но как-то при этом надо получить и сопоставить полные данные. Но главное — в базах не содержится многой интересной информации. Пример: база ЗАГС даст информацию по официальным бракам, но никогда не скажет, какой процент людей давно живет не вместе, поленившись оформлять развод, а главное — какой процент живет вместе (и даже вместе растят детей), не потрудившись сходить расписаться. Поэтому даже те страны, которые отказываются от классической переписи, все равно пытаются добрать необходимую информацию как-нибудь, кроме регистров — например, небольшой выборочной переписью.

На прошлой неделе я побывал на нескольких заседаниях конференции, посвященной переписи населения. Они происходили в Плешке:

И в ЦМТ:

Но конференцию собралось множество специалистов по статистике и переписи со всех стран мира — был представитель ООН, были представители переписных кампаний Белоруссии, Армении, Вьетнама и других стран.

Следующая перепись в России по плану должна пройти в 2020 году, и она будет уже на хорошем современном уровне — переписчики будут ходить не с листами, а с планшетами. Выделено на перепись 33 миллиарда рублей — примерно 240 рублей на человека в стране. Много это или мало? Вообще в странах мира среднее значение стоимости переписи на одного человека составляло $7,1 по данным 2010-2011 года, сейчас очевидно больше. Скажем, Канада, Эстония, Италия, Великобритания, Чехия, Венгрия, Словакия сильно превышают эту величину и их расходы по переписи одного человека только растут. А вот Литва, Португалия, Польша, Испания, Швейцария тратят на перепись одного человека ниже среднего. Так что $4 в России на этом фоне выглядят небольшими, хотя конечно многие бы предпочли получить их в карман вместо переписи.

Часть этих денег, кстати, пойдет на закупку 360 тыс планшетов со специальным софтом. Это еще не полностью электронная перепись, но уже большой шаг к ней. Что интересно: софт по требованиям безопасности должен быть российским, и собраны планшеты будут также в России. Считается, что это должно исключить возможность шпионских закладок на уровне софта и железа. Вдруг какой-нибудь Гугль решит подсмотреть, что отвечают россияне на вопросы о наличии в доме теплого санузла? Интересно, что те же самые люди, которые разрабатывают требования безопасности к планшетам, потом удивляются, отчего же многие россияне боятся указывать при переписи, например, свои доходы и прочую личную информацию? Ведь все данные вводятся в опросник анонимно, никто их не украдет! — объясняют народу безопасники, а сами строят собственные планшеты, чтоб данные не украли Гугл и Асус...

Вообще новая команда Росстата мне понравилась — это молодые, толковые люди, которые хорошо разбираются в электронных технологиях.

Лично у меня к переписи было несколько вопросов. Например, зачем нам всеобщая перепись, и не лучше ли развивать работы с регистрами? Или вот животрепещущий вопрос: будет ли эта огромная и дорогущая работа представлена в открытом доступе для ученых, студентов, журналистов? Не в форме итогов на сайте в виде горстки Эксель-файлов, где даже половины результатов сейчас не найти. Например, я не смог найти статистику тестовой переписи 2018 по обладанию теплым туалетом в жилищных условиях россиян, хотя уверен, что там нас, городских жителей, плохо представляющих реальность, тоже могут ждать интересные сюрпризы... Но нет, я говорю вообще не о результатах, а о БигДате, доступе к сырым данным для анализа. Представим ситуацию: я журналист и хочу построить диаграмму распределения процента мусульман по районам Москвы. Данные эти есть? Очевидно есть — перепись 2010 собрала статистику по вероисповеданию жителей каждого района Москвы. Но доступа к этим данным (изначально анонимным) у меня нет. Или вот пример: я студент, и мне к утру надо закончить курсовую, проанализировав влияние высшего образования на количество детей у женщин моего родного, допустим, Поволжья. Не отдельно процент высшего образования и отдельно среднее число детей в Поволжье, а именно корреляцию двух этих параметров. Что мешает дать возможность работать с этими данными, если уж проводится такая колоссальная работа? Эти и другие вопросы я позадавал руководителю Росстата Малкову Павлу Викторовичу:

На вопросы свои получил интересные и обнадеживающие ответы.
PS: Кстати, из материалов конференции узнал о доступной БигДате, которую дает Сбербанк: https://www.sberbank.com/ru/analytics/opendata Это конечно не возможность поработать с датой в сыром виде, но хотя бы открытый и грамотно сделанный доступ к статистике. Теперь есть большие надежды, что с новой командой Росстата будут появляться и современные представления данных.



это перепост заметки, оригинал находится на моем сайте: https://lleo.me/dnevnik/2019/11/21_stat