Автор: Пользователь скрыл имя, 12 Марта 2015 в 14:10, контрольная работа
Очистка данных (data cleaning, data cleansing или scrubbing) занимается выявлением и удалением ошибок и несоответствий в данных с целью улучшения качества данных. Проблемы с качеством встречаются в отдельных наборах данных - таких, как файлы и базы данных, - например, как результат ошибок при вводе, утери информации и других загрязнений данных.
Согласно классификации, данной в разделе 3.1, средства анализа данных могут быть разделены на средства профайлинга данных и средства data mining.
MIGRATIONARCHITECT (Evoke Software) является одним из немногих коммерческих инструментов профайлинга данных. Для каждого атрибута он определяет следующие метаданные: тип данных, длину, множество элементов, дискретные значения и их процентное отношение, минимальные и максимальные значения, утраченные значения и уникальность. MIGRATIONARCHITECT также может помочь в разработке целевой схемы для миграции данных. Средства data mining - такие, как WIZRULE (WizSoft) и DATAMININGSUITE (InformationDiscovery), выводят отношения между атрибутами и их значениями и вычисляют уровень достоверности, отражающий число квалифицирующих рядов. В частности, WIZRULE может отражать три вида правил: математическую формулу, правила if-then (если-то) и правила правописания, отсеивающие неверно написанные имена, - например, "значение Edinburgh 52 раза встречается в поле Потребитель; 2 случая(ев) содержат одинаковые значения". WIZRULE также автоматически указывает на отклонения от набора обнаруженных правил как на возможные ошибки. Средства модернизации данных, например, INTEGRITY (Vality), используют обнаруженные шаблоны и правила для определения и выполнения очищающих преобразований, т.е. модернизируют унаследованные данные. В INTEGRITY элементы данных подвергаются ряду обработок - разбору, типизации, анализу шаблонов и частот. Результатом этих действий является табличное представление содержимого полей, их шаблонов и частот, в зависимости от того, какие шаблоны можно выбрать для стандартизации данных. Для определения очищающих преобразований INTEGRITY предлагает язык с набором операторов для преобразований столбцов (например, перемещения, расщепления, удаления) и рядов. Более полный список поставщиков и инструментов можно найти на соответствующих коммерческих сайтах - Data Warehouse Information Center (www.dwinfocenter.org), Data Management Review (www.dmreview.com), Data Warehousing Institute (www.dw-institute.com) (например, слияние и расщепление). INTEGRITY идентифицирует и консолидирует записи с помощью метода статистического соответствия. При вычислении оценок для упорядочивания соответствий, по которым пользователь отбирает настоящие дубликаты, используются взвешенные коэффициенты.
4.2. Специальные средства очистки
Специальные средства очистки обычно имеют дело с конкретными областями, - в основном это имена и адреса, - или же с исключением дубликатов. Преобразовании либо обеспечиваются заранее в форме библиотеки правил, либо в интерактивном режиме, пользователем. Преобразовании данных могут быть автоматически получены и с помощью средств согласования схемы.
Очистка специфической области: Имена и адреса записаны в различных источниках и обычно имеют множество элементов. И поиск соответствий для потребителя имеет большое значение для управления отношениями с клиентами. Ряд коммерческих инструментов, - например, IDCENTRIC (FirstLogic), PUREINTEGRATE (Oracle), QUICKADDRESS (QASSystems), REUNION (PitneyBowes) и TRILLIUM (TrilliumSoftware), - предназначены для очистки именно таких данных. Они содержат методы - например, извлечение и преобразования имен и адресов в отдельные стандартные элементы, проверку допустимости названий улиц, городов и индексов, вместе с возможностями сопоставления на основе очищенных данных. Они включают огромную библиотеку предопределенных правил относительно проблем, часто встречающихся в данных такого рода. Например, модуль извлечение TRILLIUM (парсер) и модуль сопоставления содержат свыше 200000 бизнес-правил. Эти инструменты обеспечивают и возможности настройки или расширения библиотеки правил за счет правил, определенных пользователем для собственных специфических случаев.
Исключение дубликатов: Примерами средств для выявления и удаления дубликатов являются DATACLEANSER (EDD), MERGE/PURGELIBRARY (Sagent/QMSoftware), MATCHIT (HelpITSystems) и MASTERMERGE (PitneyBowes). Обычно они требуют, чтобы источник данных уже был очищен и подготовлен для согласования. Ими поддерживается несколько подходов к согласованию значений атрибутов; такие средства, как DATACLEANSER и MERGE/PURGE LIBRARY позволяют также интегрировать правила согласования, определенные пользователем.
4.3. Инструменты ETL
Многие коммерческие инструменты поддерживают процесс ETL для Хранилищ данных на комплексном уровне, например, COPYMANAGER (InformationBuilders), DATASTAGE (Informix/Ardent), EXTRACT (ETI), POWERMART (Informatica), DECISIONBASE (CA/Platinum), DATATRANSFORMATIONSERVICE (Microsoft), METASUITE (Minerva/Carleton), SAGENTSOLUTIONPLATFORM (Sagent) и WAREHOUSEADMINISTRATOR (SAS). Для единообразного управления всеми метаданными по источникам данных, целевым схемам, маппированиям, скриптам и т.д. они используют репозиторий на основе СУБД. Схемы и данные извлекаются из оперативных источников данных как через "родной" файл и шлюзы СУБД DBMS, так и через стандартные интерфейсы - например, ODBC и EDA. Преобразовании данных определяются через простой графический интерфейс. Для определения индивидуальных шагов маппирования обычно существует собственный язык правил и комплексная библиотека предопределенных функций преобразования. Эти средства поддерживают и повторное использование существующих преобразованных решений, например, внешних процедур C/C++ с помощью имеющегося в них интерфейса для их интеграции во внутреннюю библиотеку преобразований. Процесс преобразования выполняется либо системой, интерпретирующей специфические преобразования в процессе работы, либо откомпилированным кодом. Все средства на базе системы (например, COPYMANAGER, DECISIONBASE, POWERMART, DATASTAGE, WAREHOUSEADMINISTRATOR), имеют планировщик и поддерживают технологические процессы со сложными зависимостями выполнения между этапами преобразования. Технологический процесс может также помогать работе внешних средств, например - в специфических задачах очистки - например, таких, как очистка имен/адресов или исключение дубликатов.
Средства ETL обычно содержат мало встроенных возможностей очистки, но позволяют пользователю определять функциональность очистки через собственный API. Как правило, анализ данных для автоматического выявления ошибок и несоответствий в данных не поддерживается. Тем не менее, пользователи могут реализовывать такую логику при работе с метаданными и путем определения характеристик содержимого с помощью функций агрегации (sum, count, min, max, median, variance, deviation,…). Поставляемая библиотека преобразований отвечает различным потребностям преобразования и очистки данных - например, конверсию типов данных (в частности - переформатирование данных), строковые функции (например, расщепление, слияние, замена, поиск по подстроке), арифметические, научные и статистические функции и т.д. Извлечение значений из атрибутов свободного формата автоматизировано не полностью, и пользователю приходится определять разделители, разграничивающие фрагменты значений.
Языки правил обычно охватывают конструкции if-then и case, способствующие обработке исключений в значениях данных - например, неверных написаний, аббревиатур, утраченных или зашифрованных значений и значений вне допустимого диапазона. Эти проблемы могут также решаться с помощью функциональных возможностей по выборке данных из таблиц. Поддержка согласования элементов данных обычно ограничена использованием возможностей объединения и нескольких простых строковых функций соответствия, Например, точного или группового соответствия или soundex. Тем не менее, определенные пользователем функции соответствия полей, так же, как и функции корреляции сходства полей, могут программироваться и добавляться во внутреннюю библиотеку преобразований.
5. Выводы
Несмотря на то, что описанные средства являются достаточно современными, они, тем не менее, не решают всех проблем и все еще требуют дополнительной обработки вручную или дополнительного программирования. Кроме того, они имеют весьма ограниченные возможности взаимодействия (собственные API и представления метаданных). Тем не менее, эти средства демонстрируют нам важность и сложность задач очистки данных.
Здесь мы исследовали лишь часть проблемы. Многие ее аспекты все еще нуждаются в изучении и разработке. Необходимо тщательнее изучить проектирование и реализацию наилучших языковых методов поддержки преобразований схемы и данных. Например, операторы типа Match, Merge или Mapping Composition изучались отдельно на уровне данных элемента данных или схемы, однако они могут быть реализованы на одних и тех же принципах. Очистка данных нужна не только для Хранилищ данных, но и для обработки запросов по неоднородным источникам данных, например - в информационных web-системах. Эта среда обладает гораздо более существенными ограничениями для очистки данных, которые нужно учитывать при выборе соответствующих методов. Очистка же частично структурированных данных, - например, на базе XML, - вероятно, еще важнее, так как структурные ограничения постоянно снижаются, а объемы XML-данных стремительно растут.
Информация о работе Очистка данных: проблемы и актуальные подходы