En la era de la IA, ¿aún se necesita de ETL?

En la era de la IA, ¿aún se necesita de ETL?

CIO

Recientemente se ha hablado mucho sobre si ETL – abreviatura de Extraer, Transformar y Cargar – sigue siendo una actividad necesaria en la arquitectura de datos moderna y si debería abandonarse a favor de las técnicas modernas, como la disputa de datos o las transformaciones de memoria.

No obstante, parece que ahora es más importante que nunca y, aunque puede parecer ligeramente diferente (por ejemplo, los almacenes de datos pueden ser demasiado restrictivos), sigue desempeñando un papel extremadamente importante en el proceso de generación de valor de los datos.

ETL se compone de tres etapas clave: extraer, cuyo proceso es recopilar información de la fuente de datos; transformar, que procesa los datos para convertirlos a la forma adecuada según el caso de uso solicitado; y cargar, que consiste en la transferencia de los datos a una capa de almacenamiento que pueda alimentar el caso de uso requerido.

Lea después: Secreto para aplicar correctamente el análisis de datos

Extracto

Es el proceso de recopilación de información de todas las fuentes de datos requeridas. Estas últimas vienen en muchas formas y tamaños, desde sistemas RDBMS hasta API, incluso públicas o privadas.

Las fuentes de datos pueden contener PII (información de identificación personal) o pueden contener IP empresarial (propiedad intelectual). Pueden ser desordenadas, no estructuradas o estructuradas y bien descritas.

También consiguen generar datos por medio de frecuencias variadas o producirlos constantemente a través de flujos. Las fuentes de datos pueden admitir mecanismos de datos “pull” o mecanismos de datos “push” de forma síncrona o asíncrona.

Lo anterior significa que la parte de extracción de la ETL moderna necesita ser extremadamente flexible, resistente y maleable para admitir la diversidad de fuentes de datos y las variaciones en los procedimientos y protocolos de extracción.

Las arquitecturas de datos modernas deben poder conectarse a múltiples fuentes en paralelo y extraerlas para que estén disponibles para el procesamiento posterior, sin afectar la capacidad de recuperación de otros procesos de extracción.

Transformar

Es el proceso donde los datos se leen desde su forma original y se transforman para su uso en múltiples tipos de escenarios. La transformación es probablemente la parte de ETL que menos ha cambiado; sin embargo, los avances tecnológicos han hecho que esta parte del proceso sea más resistente, estable y eficiente. Actualmente se compone de tres subpartes clave:

Calidad de datos

El primer tipo transformación es la determinación y calificación de varios datos como de alta calidad, completos y aceptables. Aquí, el sistema necesita asegurarse de que los diversos puntos de datos estén completos, se adhieran al esquema asignado y no contengan datos ilegibles o estén corruptos e incoherentes.

Otro tipo de control de calidad utiliza patrones de datos pasados, con el fin de determinar si han sucedido cambios inesperados en la información recibida, comparándola con arribos anteriores. Si se notan dichos cambios, la calidad de los datos puede marcarse como sospechosa

Calidad de negocios

El segundo tipo de transformación garantiza que los datos se consideren adecuados según los requisitos de calidad del negocio de análisis previsto.

Aquí se inspeccionan y analizan los datos para verificar que estén completos desde una perspectiva de relevancia comercial y, si se encuentra que los datos carecen de los elementos clave necesarios para impulsar los flujos de trabajo de la empresa, se marcan como sospechosos.

Lógica de negocios

Esta tercera clase garantiza que los datos se procesen para adoptar la forma requerida. Aquí los datos pueden agregarse, dividirse en cubos, filtrarse, muestrearse y moldearse a través de algoritmos que producen un conjunto de datos transformados, preparados para soportar el caso de uso empresarial previsto.

Debido a que un mismo paquete de datos se puede emplear para múltiples casos de uso comercial, las transformaciones suelen tener relación con uno o varios conjuntos modificados. 

No se pierda: ¿Cómo revisar y probar procedimientos de copia de seguridad?

Carga

La carga en ETL ha experimentado grandes cambios de enfoque, incluso en las arquitecturas de datos modernas se puede, en paralelo, cargar los mismos datos en múltiples tipos  de tecnologías de almacenamiento para alimentar al usuario final y las aplicaciones de los clientes, según los requisitos del negocio.

Es importante que el sistema pueda transmitir y cargar datos simultáneamente en múltiples pilas de tecnología, sin dañar o afectar la resiliencia y la calidad de otras cargas paralelas.

Aunque la naturaleza de ETL ha cambiado, la idea no se ha vuelto obsoleta o irrelevante. Existe una lista cada vez mayor de opciones para ETL, que es una señal de que este mercado no solo existe sino que está creciendo. ETL no está muerto, simplemente es más complejo y significativo.

 

Leave a comment

Send a Comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *