Преобразование данных — это процесс реструктуризации данных из одного формата в другой. Это тип процедуры управления данными, которая включает в себя получение данных из одной формы и преобразование их в другую форму. Как правило, исходные данные необходимо каким-либо образом реорганизовать, реструктурировать или переформатировать, чтобы они соответствовали желаемому результату. Цель преобразования данных — сделать данные системы удобными для использования, понятными и единообразными по всем направлениям.
Преобразование данных содержит два слабо связанных действия: извлечение данных из одной формы и загрузку извлеченных данных в другую форму. Например, извлечение данных из реляционной базы данных, такой как SQL, а затем загрузка данных в аналитическую платформу, такую как кластер Apache Hadoop. Процесс преобразования данных включает в себя применение методов сопоставления, очистки и обогащения данных.
Сопоставление данных — это процесс определения соответствия между элементами двух типов данных. Целью здесь является обеспечение того, чтобы элементы данных в исходных данных были правильно сопоставлены с соответствующими элементами в новом формате данных. Этот шаг также включает в себя создание новых уникальных идентификаторов, если это необходимо. Очистка — это процесс обеспечения того, чтобы все элементы данных соответствовали определенному заранее определенному набору значений или целостности. Это может включать стандартизацию форматов, устранение поврежденных данных и добавление недостающих элементов данных. Наконец, обогащение предполагает использование дополнительных источников данных для придания данным большего контекста и ценности.
Преобразование данных является важной частью управления данными и часто используется для того, чтобы сделать существующие данные пригодными для использования, понятными и единообразными. Это сложный процесс, который часто требует отображения, очистки и обогащения данных, все из которых могут помочь повысить ценность новых преобразованных данных.