Процесс очистки данных: Методы и проблемы. Очистка данных: понятие Очистка данных – процесс выявления и исправления ошибок, позволяющий обеспечить качественный анализ. Задачи: Оценка достоверности информации Выявление ошибочных и подозрительных данных: аномалий, дубликатов, противоречий… Исправление выявленных ошибок Очистка: частотный анализ Метод основывается на анализе частоты появления определенного значения или комбинаций таких значений во всей совокупности данных. Имя Количество человек Жен Муж Александ р 20 80 Жанна 95 5 Наргиз 92 8 Хамзатоглы 3 97 Юлия 99 1 Имя Пол Александ р Мужской Жанна Женский Наргиз Женский Хамзатоглы Мужской Юлия Женский Очистка: контрольные числа В основе алгоритма контрольных чисел лежит расчет определенных функций, которые применяются для проверки правильности номеров банковских карт, ИНН, СНИЛС, ОКПО, ОКАТО, ОГРН… Контрольные ИНН числа 12345678 4 7 9046 Контрольные числа не совпадают ИНН введен с ошибкой Очистка: схожесть строк Анализ строк выявляет «похожесть» записей с помощью алгоритмов сравнения значений: метода Левенштейна, Soundex, нахождения максимальной общей подпоследовательности… Игроь Словарь имен Игорь Имена Расстояние из Левенштейн словаря а Игнатий 5 Игорь 2 Измаил 5 Изот 3 … … Очистка: дедубликация Дедубликация основывается на поиске совпадающих и похожих объектов по определенным стратегиям с целью устранения повторов. Стратегия поиска 1: совпадение паспортных данных Стратегия поиска 2: совпадение ФИО + адрес + дата рождения Стратегия поиска 3: совпадение ФИО + телефон Стратегия поиска 4: совпадение ИНН Очистка: другие методы Для очистки данных используются и другие методы: Формализованные правила: накладывание заранее определенных правил очистки на контролируемые поля Способы замены: индексирование слов по их звучанию, кодирование… Проверка по статистическим значениям: по доверительному интервалу, средним значениям… Кластерный анализ: проверка написания значения с учетом попадания его в кластер… Проблемы очистки данных Мы грубо различаем проблемы с одним источником и проблемы с несколькими источниками, а также проблемы, связанные со схемой и записями. Проблемы очистки данных Проблемы с одним источником Проблемы качества данных, связанные со схемой, таким образом, возникают из-за отсутствия соответствующих ограничений целостности, специфичных для модели или приложения, например, из-за ограничений модели данных или плохого проектирования схемы, или из-за того, что было определено только несколько ограничений целостности, чтобы ограничить накладные расходы контроль правильности. Проблемы, связанные с конкретной записью, связаны с ошибками и несоответствиями, которые невозможно предотвратить на уровне схемы (например, орфографические ошибки). Проблемы с одним источником Проблемы с несколькими источниками Проблемы, существующие в отдельных источниках, усугубляются, когда необходимо объединить несколько источников. Каждый источник может содержать грязные данные, и данные в источниках могут быть представлены по-разному, совпадать или противоречить. Это связано с тем, что источники обычно разрабатываются, развертываются и обслуживаются независимо для удовлетворения конкретных потребностей. Это приводит к большой степени неоднородности относительно. системы управления данными, модели данных, схемы и фактические данные. Проблемы с несколькими источниками Проблемы очистки данных Основная проблема при очистке данных из нескольких источников состоит в том, чтобы идентифицировать перекрывающиеся данные, в частности совпадающие записи, относящиеся к одному и тому же реальному объекту (например, клиенту). Эту проблему также называют проблемой идентичности объекта, устранением дубликатов или проблемой слияния / очистки. Часто информация является лишь частично избыточной, и источники могут дополнять друг друга, предоставляя дополнительную информацию об объекте. Таким образом, дублирующаяся информация должна быть удалена, а дополнительная информация должна быть консолидирована и объединена, чтобы получить единообразное представление об объектах реального мира.