Опыт обработки данных переписи Опыт и технология автоматизированной обработки материалов ВПН-2002, ВСХП-2006 и ВПН-2010 О.В. Манжула Начальник отдела технологического обеспечения автоматизированной обработки материалов переписей и сплошных обследований Росстат Опыт обработки данных переписи Масштабы: ВПН-2002 ВСХП-2006 ВПН-2010 Объекты переписи 145 млн человек 26 млн производителей сельхозпродукции 142 млн человек Кол-во бланков 220 млн 225 млн 222 млн Федеральный уровень (ФУ) + + + Региональный уровень (РУ) + + + Районный уровень (РайУ) - - + Опыт обработки данных переписи Технология обработки: Подготовка к проведению переписи на Районном уровне Проведение переписи и подготовка материалов к обработке (Все субъекты РФ) Автоматизированная обработка на Региональном уровне (68 центров обработки на базе крупных субъектов) Обработка сводных данных на Федеральном уровне Получение итогов переписи Опыт обработки данных переписи Автоматизация подготовки переписи населения на Районном уровне (РайУ) • Составление списков домов в населенных пунктах • Составление организационных планов на уровне района • Расчет потребности каждой категории временных переписных работников • Интеграция с региональным и федеральным уровнями Подсистема РайУ является инновационной для технологии в целом и во многом определит вектор развития АС переписей на будущее Опыт обработки данных переписи Районный уровень Подготовка к проведению ВПН-2010 - наполнение и ведение списка адресов - переписное районирование - списки временного переписного персонала Контроль проведения переписи и подготовки материалов к обработке - ввод статистики о ходе переписи - ввод контрольных чисел - формирование сводных отчетов НСИ - загрузка обновлений Ввод предварительной численности Региональный уровень НСИ - загрузка обновлений Контроль проведения переписи и подготовки материалов к обработке - сбор данных о ходе переписи - формирование сводных отчетов - сравнение с предварительной численностью Итоги на региональном уровне - загрузка частей переписи - конструктор отчетов - создание и выверка увязок - пакетная генерация отчетов - пакетное сравнение отчетов Управление массивом электронных пачек Обработка первичных материалов - сканирование - распознавание - верификация - минимальный контроль комплектности - сохранение электронных пачек - ускоренное экранное кодирование - полный контроль комплектности и ФЛК - сохранение контрольных чисел - формирование и отправка запросов к первичным данным в ГМЦ Росстата Мониторинг хода автоматизированной обработки - ведомости контрольных чисел - отчеты о выработке операторов - контроль изменений, вносимых в пачки - статистика по ФЛК Работа с внешними носителями - выгрузка пачек на внешние носители Ведение списка персонала и договоров Финансовый мониторинг Опыт обработки данных переписи Федеральный уровень Проектирование МЧД Ведение НСИ Формирование и обработка данных в БД переписи - формирование БД переписи - автокоррекция данных - распространение данных - импутация Формирование и выполнение запросов к первичным данным Выборочные обследования Передача материалов на архивное хранение Работа с внешними носителями - загрузка пачек с внешних носителей Мониторинг хода автоматизированной обработки - ведомости контрольных чисел - отчеты о выработке операторов - контроль изменений, вносимых в пачки - статистика по ФЛК Получение итогов переписи - конструктор отчетов - создание и выверка увязок - пакетная генерация отчетов - пакетное сравнение отчетов - получение публикационных таблиц Управление массивом электронных пачек - загрузка пачек в центральное хранилище - управление жизненным циклом пачки Контроль проведения переписи и подготовки материалов к обработке - сбор данных о ходе переписи - формирование сводных отчетов - сравнение с предварительной численностью Итоги на региональном уровне - выгрузка частей БД переписи Методологическая и организационная поддержка Итоги через Интернет Финансовый мониторинг Опыт обработки данных переписи Технологический цикл РУ • Сканирование и верификация бланков • Минимальный контроль комплектности Сканирование Верификация Минимальный КК • Кодирование и контроль введенных значений • Контроль комплектности и формальнологический контроль Кодирование значений Контроль введенных значений Контроль комплектности ФЛК • Выгрузка пачки на DVD диск Выгрузка на DVD Опыт обработки данных переписи Состав АС ВПН-2010 регионального уровня Синхронизация, резервное копирование Server1: Эл.пачки, НСИ (MS SQL) АРМ Контроль Server2: Эл. пачки АРМ Экранное кодирование АПК ВВОД АПК ВВОД АПК ВВОД Опыт обработки данных переписи Ключевые преимущества технологии РУ: 1. СКОРОСТЬ • Сканеры ДС300: техническая скорость ввода до 150 двусторонних бланков в минуту • Эффективная скорость ввода (включая распознавание, верификацию, контроль на месте ввода) до 80% технической скорости • Несколько станций ввода с одним сканером за счет использования сетевого интерфейса ДС300 • Специально разработанный механизм распознавания «на лету» Опыт обработки данных переписи Ключевые преимущества технологии РУ: 2. КАЧЕСТВО • Контроль комплектности на месте ввода • Многоэтапный контроль качества информации на специализированных АРМ • Значительное количество правил проверки информации на корректность и непротиворечивость (более 300 правил для ВПН и более 1400 правил для ВСХП, при этом правила ВПН в среднем сложнее, чем ВСХП) • Контроль потоков информации при помощи специальных методик контрольных соотношений, начиная с ручного подсчета контрольных чисел и до формирования базы данных Опыт обработки данных переписи Федеральный уровень (ФУ) • • • • • • • • Автоматизированная загрузка данных с DVD Построение ведомостей контрольных чисел Загрузка данных в базу данных Проведение автокоррекции, распространения, импутации данных Построение запросов к базе данных форм для выверки на основе пользовательского интерфейса Загрузка данных в базу данных показателей Построение фиксированных таблиц итогов Конструирование пользовательских (произвольных) таблиц Опыт обработки данных переписи Технологический цикл ФУ Проведение автокоррекции данных Сервер архива первичных данных Федеральный уровень Сервер базы данных показателей (БДП) Итоговые таблицы Предварительные результаты Сервер базы данных форм (БДФ) Если выявлены расхождения DVD-диски с данными Рабочие места операторов Проверка предварительных результатов Если расхождений нет Региональный уровень Опыт обработки данных переписи Технологии ФУ (на примере ВСХП-2006): • Хранилище данных – Microsoft SQL Server 2005 Enterprise Edition. • Сервер аналитики – Microsoft SQL Server 2005 Analysis Services. • Обсчет аналитической базы с глубиной до населенного пункта РФ – не более 6 часов. При этом объем базы данных показателей (исходная для аналитической) около 450 гигабайт при количестве записей более 1 миллиарда. • В кубе (аналитический базе) – 70 основных и 300 расчетных показателей, 140 измерений (разрезов), более 300 тысяч элементов измерений. Опыт обработки данных переписи Возможности системы на ФУ (на примере ВСХП-2006): • Более 150 основных таблиц (минимальная 10*6, максимальная 100*100 строк/колонок) • Территориальные разрезы любой глубины • Более 1000 вспомогательных таблиц • Возможность при помощи специального ПО- конструктора строить широкий спектр пользовательских таблиц • Высокая скорость генерации таблиц с данными в формате MS Excel Разработчик АС ВПН и АС ВСХП – ЗАО «КРОК Инкорпорейтед» г. Москва www.croc.ru Опыт обработки данных переписи Спасибо за внимание