1 Улучшение качества входных данных из административных источников с показателями качества Использование административных реестров в производстве статистических данных Групповая работа Варшава, 14 - 17 октября 2014 Коэн Хендрикс Отдел статистических совокупностей Статистика Норвегии 1 Темы • Три К реестровой статистики • Измерение качества • Анализ качества 2 Кооперация, коммуникация, координация – Три К реестровой статистики очень важны для обеспечения качества реестровой статистики – Как это делается в Статистике Норвегии? 3 Кооперация над реестрами в СН – СН предприняла несколько мер для профессионализации и развития сотрудничества – Улучшение качества админ. источников – Развитие способов измерения, документирования и коммуникации относительно качества – Профессионализация контактов с владельцами реестров 4 Вместо исправления ошибок, лучше избегать их в источнике • Сотрудничество между СН и владельцами реестров – СН сообщает об ошибках – Владелец реестра вносит исправления в источник • Подход единого источника • Подход нескольких источников – соглашения об обработке данных – Обратная связь на микро-уровне – Можно сообщать ошибки в источнике – СН направляет жалобу на качество данных • Соглашение о сотрудничестве 5 Подход единого источника – Обратная связь на микроуровне – Об ошибках в источнике можно сообщить – СН отправляет жалобы на качество данных 6 Использование нескольких источников: соглашения об обработке данных – Ошибки при связывании двух источников – Общее правило: комплексные отчеты – Соглашение об обработке данных позволяет на микроуровне создавать отчеты от СН владельцу реестра – При условии, что владелец реестра может использовать оба реестра для административных целей – Напр. Реестр населения использует информацию из кадастра для улучшения качества реестра населения – СН может проводить такие проверки «массово» от имени зарегистрированного владельца 7 Соглашения о кооперации – Координация в СН – Задействованы начальник отдела получения данных, юрисконсульт СН, эксперты по качеству (кодекс практик, методология), статистические отделы и отдел статистических совокупностей – Черновик соглашения – Разработка отчетов о качестве – СН приглашает основных владельцев реестров присоединиться к соглашению – Позитивно принимается владельцами реестров – Взаимовыгодная ситуация – Соглашение поддерживается отчетом о качестве – Основано на показателях качества Blue-ets WP 4 – Описательный подход с выявлением проблемных зон 8 Управление статистическими совокупностями • Три административных базовых реестра и статистические версии – Центральный координационный реестр юр.лиц – реестр бизнесов и предприятий – Кадастр – статистический кадастр – Центральный реестр населения (CPR) – статистический реестр населения • Ежедневные обновления, интегрированные данные в общей базе данных • • Прочие источники интегрированы, новые источники добавлены • Задача: предоставление качественных и обновленных реестров с показателями качества, охватывающих все статистические совокупности Новая информация, новые единицы, лучший охват, больше (актуальных) адресов, лучшие контактные сведения 9 Показатели качества из Blue–ets WP 4 • Лидеры группы решили, для каких единиц измерять качество и операционализировали показатели – CPR: зарегистрированное лицо, семья, адрес проживания – Кадастр: адрес, здание, собственник земли, функциональная единица в здании (жилое помещение) – Реестр юрлиц: юридические лица и LKAU • Показатели качества пересмотрены и скоординированы • Программирование в SAS • Подсчет всех позитивных показателей (P) • Отчеты (Q) 10 Файл показателей Ind1 Ind2 Ind3 Ind4 Ind5 Ind6 Ind7 Ind.. IndN Sum Unit1 1 1 0 1 0 0 1 .. .. 4 Unit2 0 0 0 0 0 0 0 .. .. 0 Unit3 0 0 0 0 0 0 1 .. .. 1 Unit4 0 0 0 0 0 0 0 .. .. 0 Unit5 0 1 0 1 0 0 1 .. .. 3 Unit6 0 0 0 0 0 0 1 .. .. 1 Unit.. .. .. .. .. .. .. .. .. .. .. UnitM .. .. .. .. .. .. .. .. .. .. Sum 1 2 0 2 0 0 4 .. .. P Общий показатель качества: Q = (P/(N*M))*1000 Извлекает: показатели с несколькими вхождениями (напр. Ind7), единицы со многими позитивными показателями(напр.Unit1) 11 Отчет о качестве по зарегистрированным лицам в CPR, 2012-2014 12 Практическое сотрудничество с владельцами данных (зарегистрированные лица в CPR) Муниципалитеты с наивысшими значениями Q, крупные города и Норвегия Записи без Q – общий 1.1. 2014 Муниципалитет Проверено записей P – позитивные показатели позитивных показателей показатель качества 1849 Hamarøy 1 819 1 244 1 154 24 ‰ 0817 Drangedal 4 132 1 561 3 302 13 ‰ 1854 Ballangen 2 587 976 1 880 13 ‰ 777 288 613 13 ‰ 1874 Moskenes 1 108 394 882 12 ‰ 2018 Måsøy 1 244 450 1 014 12 ‰ 1514 Sande 2 632 872 2 258 11 ‰ 1835 Træna 489 163 388 11 ‰ 1840 Saltdal 4 691 1 458 1 940 11 ‰ 1850 Tysfjord 2 004 623 1 617 11 ‰ 1851 Lødingen 2 246 735 1 855 11 ‰ 2014 Loppa 1 027 318 843 11 ‰ 0301 Oslo 634 249 135 547 556 138 7‰ 1201 Bergen 271 854 46 889 245 024 6‰ 1103 Stavanger 130 755 17 357 121 071 5‰ 1601 Trondheim 182 122 22 166 169 173 4‰ 5 107 477 777 584 4 638 325 5‰ 1857 Værøy Norway Анализ показал: - много несоответствия (PIN матери, отца или супруга/партнера недействителен) - много ошибок измерения (отсутствует номер квартиры, недейств. адрес) - проблемы в округе Нортланд (18xx) Подозрительные единицы переносятся в CPR 13 Прочие примеры анализа • Какие положительные показатели найдены для новозарегистрированных лиц? – Ошибки измерения (отсутствует номер жилья, недейств. адрес) – Сомнительные объекты (слишком много зарегистрировано в квартире) – См. приложение, таблицу 3 • Почему ранее зарегистрированные люди показывают увеличение количества позитивных показателей? – Несоответствующие единицы и значения из-за иммиграции – Ошибки измерения (отсутствует номер жилья, недейств. адрес) – См. приложение, таблицу 4 14 Принципы практического сотрудничества с владельцами данных • Позитивные идентификаторы определяются в источнике: – СН жалуется на качество получаемых материалов – СН возвращает информацию по лицам с позитивными показателями • Позитивные показатели находятся сопоставлением с другим источником: – СН дает обратную связь на обобщенном уровне – главное – При соглашении об обработке данных: мы можем подать индивидуальные данные с позитивными показателями Владелец данных имеет полномочия использовать второй источник Владелец данных имеет копию другого источника 15 Качество между реестров • СН уже давно сопоставляет источники для контроля качества и улучшения • Подход работает: «улучшение качества» в кадастре дает «меньше ошибок» в CPR • Следует развивать показатели качества по всем реестрам. Мы только начали • Кластер с сотрудниками в предприятии без бизнеса (LKAU) на достаточном расстоянии, может указывать недостаточный охват бизнесреестра (отсутствует LKAU) 16 Финальные комментарии • Есть разница между данными хорошего качества из реестров и реестровой статистикой хорошего качества – Статистический анализ • Ошибки определения – изменения в реестре по политическим мотивам 17