Улучшение качества входных данных из административных

advertisement
1
Улучшение качества входных
данных из административных
источников с показателями
качества
Использование административных реестров в производстве
статистических данных
Групповая работа
Варшава, 14 - 17 октября 2014
Коэн Хендрикс
Отдел статистических совокупностей
Статистика Норвегии
1
Темы
• Три К реестровой статистики
• Измерение качества
• Анализ качества
2
Кооперация, коммуникация, координация
– Три К реестровой статистики очень важны для
обеспечения качества реестровой статистики
– Как это делается в Статистике Норвегии?
3
Кооперация над реестрами в СН
– СН предприняла несколько мер для
профессионализации и развития сотрудничества
– Улучшение качества админ. источников
– Развитие способов измерения, документирования и коммуникации
относительно качества
– Профессионализация контактов с владельцами реестров
4
Вместо исправления ошибок, лучше избегать
их в источнике
• Сотрудничество между СН и владельцами реестров
– СН сообщает об ошибках
– Владелец реестра вносит исправления в источник
• Подход единого источника
• Подход нескольких источников – соглашения об
обработке данных
– Обратная связь на микро-уровне
– Можно сообщать ошибки в источнике
– СН направляет жалобу на качество данных
• Соглашение о сотрудничестве
5
Подход единого источника
– Обратная связь на микроуровне
– Об ошибках в источнике можно сообщить
– СН отправляет жалобы на качество данных
6
Использование нескольких источников:
соглашения об обработке данных
– Ошибки при связывании двух источников
– Общее правило: комплексные отчеты
– Соглашение об обработке данных позволяет на
микроуровне создавать отчеты от СН владельцу
реестра
– При условии, что владелец реестра может использовать
оба реестра для административных целей
– Напр. Реестр населения использует информацию из кадастра
для улучшения качества реестра населения
– СН может проводить такие проверки «массово» от имени
зарегистрированного владельца
7
Соглашения о кооперации
– Координация в СН
– Задействованы начальник отдела получения данных,
юрисконсульт СН, эксперты по качеству (кодекс практик,
методология), статистические отделы и отдел статистических
совокупностей
– Черновик соглашения
– Разработка отчетов о качестве
– СН приглашает основных владельцев реестров присоединиться к
соглашению
– Позитивно принимается владельцами реестров
– Взаимовыгодная ситуация
– Соглашение поддерживается отчетом о качестве
– Основано на показателях качества Blue-ets WP 4
– Описательный подход с выявлением проблемных зон
8
Управление статистическими
совокупностями
•
Три административных базовых реестра и статистические версии
– Центральный координационный реестр юр.лиц – реестр
бизнесов и предприятий
– Кадастр – статистический кадастр
– Центральный реестр населения (CPR) – статистический реестр
населения
•
Ежедневные обновления, интегрированные данные в общей базе
данных
•
•
Прочие источники интегрированы, новые источники добавлены
•
Задача: предоставление качественных и обновленных реестров с
показателями качества, охватывающих все статистические
совокупности
Новая информация, новые единицы, лучший охват, больше
(актуальных) адресов, лучшие контактные сведения
9
Показатели качества из Blue–ets WP 4
• Лидеры группы решили, для каких единиц измерять
качество и операционализировали показатели
– CPR: зарегистрированное лицо, семья, адрес проживания
– Кадастр: адрес, здание, собственник земли, функциональная единица
в здании (жилое помещение)
– Реестр юрлиц: юридические лица и LKAU
• Показатели качества пересмотрены и скоординированы
• Программирование в SAS
• Подсчет всех позитивных показателей (P)
• Отчеты (Q)
10
Файл показателей
Ind1
Ind2
Ind3
Ind4
Ind5
Ind6
Ind7
Ind..
IndN
Sum
Unit1
1
1
0
1
0
0
1
..
..
4
Unit2
0
0
0
0
0
0
0
..
..
0
Unit3
0
0
0
0
0
0
1
..
..
1
Unit4
0
0
0
0
0
0
0
..
..
0
Unit5
0
1
0
1
0
0
1
..
..
3
Unit6
0
0
0
0
0
0
1
..
..
1
Unit..
..
..
..
..
..
..
..
..
..
..
UnitM
..
..
..
..
..
..
..
..
..
..
Sum
1
2
0
2
0
0
4
..
..
P
Общий показатель качества: Q = (P/(N*M))*1000
Извлекает: показатели с несколькими вхождениями
(напр. Ind7), единицы со многими позитивными
показателями(напр.Unit1)
11
Отчет о качестве по зарегистрированным лицам в CPR, 2012-2014
12
Практическое сотрудничество с владельцами
данных (зарегистрированные лица в CPR)
Муниципалитеты с наивысшими значениями Q, крупные города и Норвегия
Записи без
Q – общий
1.1. 2014
Муниципалитет
Проверено
записей
P – позитивные
показатели
позитивных
показателей
показатель
качества
1849 Hamarøy
1 819
1 244
1 154
24 ‰
0817 Drangedal
4 132
1 561
3 302
13 ‰
1854 Ballangen
2 587
976
1 880
13 ‰
777
288
613
13 ‰
1874 Moskenes
1 108
394
882
12 ‰
2018 Måsøy
1 244
450
1 014
12 ‰
1514 Sande
2 632
872
2 258
11 ‰
1835 Træna
489
163
388
11 ‰
1840 Saltdal
4 691
1 458
1 940
11 ‰
1850 Tysfjord
2 004
623
1 617
11 ‰
1851 Lødingen
2 246
735
1 855
11 ‰
2014 Loppa
1 027
318
843
11 ‰
0301 Oslo
634 249
135 547
556 138
7‰
1201 Bergen
271 854
46 889
245 024
6‰
1103 Stavanger
130 755
17 357
121 071
5‰
1601 Trondheim
182 122
22 166
169 173
4‰
5 107 477
777 584
4 638 325
5‰
1857 Værøy
Norway
Анализ показал:
- много несоответствия (PIN матери, отца или супруга/партнера недействителен)
- много ошибок измерения (отсутствует номер квартиры, недейств. адрес)
- проблемы в округе Нортланд (18xx)
Подозрительные единицы переносятся в CPR
13
Прочие примеры анализа
• Какие положительные показатели найдены для
новозарегистрированных лиц?
– Ошибки измерения (отсутствует номер жилья, недейств. адрес)
– Сомнительные объекты (слишком много зарегистрировано в
квартире)
– См. приложение, таблицу 3
• Почему ранее зарегистрированные люди показывают
увеличение количества позитивных показателей?
– Несоответствующие единицы и значения из-за иммиграции
– Ошибки измерения (отсутствует номер жилья, недейств. адрес)
– См. приложение, таблицу 4
14
Принципы практического сотрудничества с
владельцами данных
• Позитивные идентификаторы определяются в
источнике:
– СН жалуется на качество получаемых материалов
– СН возвращает информацию по лицам с позитивными
показателями
• Позитивные показатели находятся
сопоставлением с другим источником:
– СН дает обратную связь на обобщенном уровне – главное
– При соглашении об обработке данных: мы можем подать
индивидуальные данные с позитивными показателями
 Владелец данных имеет полномочия использовать второй источник
 Владелец данных имеет копию другого источника
15
Качество между реестров
• СН уже давно сопоставляет источники для
контроля качества и улучшения
• Подход работает: «улучшение качества» в
кадастре дает «меньше ошибок» в CPR
• Следует развивать показатели качества по всем
реестрам. Мы только начали
• Кластер с сотрудниками в предприятии без
бизнеса (LKAU) на достаточном расстоянии,
может указывать недостаточный охват бизнесреестра (отсутствует LKAU)
16
Финальные комментарии
• Есть разница между данными хорошего
качества из реестров и реестровой статистикой
хорошего качества
– Статистический анализ
• Ошибки определения – изменения в реестре по
политическим мотивам
17
Download