Data warehouse: todo lo que debe saber

Juan José López

Un data warehouse debe basarse en el negocio para tomar información fresca desde distintas fuentes, para intentar hacer predicciones. No es un proyecto, sino un proceso.

Juan José López Torres @jjlopezt 

Antes de comenzar a usar un data warehouse los CIO deben tener en cuenta que el este deberá estar alineado al negocio, y que son diferentes a los datamarts, que están orientados solamente a un área del negocio. Por el contrario, el data warehouse es para todo el negocio, independientemente de los canales que se empleen o las aplicaciones para obtener datos.

“La idea es tener información más fresca del negocio: detalles e historia, información presente y del pasado, con la que se intente predecir, hacer toda la parte de data mining. Se necesita tener por fuerza el detalle“, indicó Francisco Aguirre, Brand Manager de Dell para México.

Sugerido: ¿Cómo incluir herramientas de big data en una infraestructura saturada?

El data warehouse debe estar estructurado sobre la base del negocio para tomar información desde distintas fuentes, concebido esto como su memoria corporativa con el apoyo de todas las áreas del negocio y vinculado a la inteligencia de negocios y la base de datos principal.

Pero no debe vérselo como un proyecto sino como un proceso que crecerá con la recepción de datos y que el resto de la estructura querrá emplearlo para hacer cruces de datos para enriquecer sus análisis. De ahí que el negocio debe plantearse las preguntas críticas, por ejemplo, sobre ventas, demografía de compra o el uso de servicios, y priorizar las que permitirán identificar los KPI y las fuentes que le llevarán información.

“Se debe identificar las fuentes de información y las preguntas de negocio, buscar un sponsor (CEO o CFO) para que responda a los elementos de datos y cuyos dueños son otras áreas. Esos sponsors abren la puerta para tener apoyo, tomar la información y el sistema para elevarlo al sistema de homologación, al data warehouse”, agregó Aguirre.

Un aspecto que se debe tener en cuenta es que la existencia del data warehouse seguirá en una estrategia de inteligencia de negocios cuando haya información a detalle e incluso, al tener más de una variable, permitirá calcular el futuro con análisis predictivos, algo que ya se ha hecho con la inteligencia de negocios en las últimas tres décadas.

Al estar alineados, el fundamento del data warehouse es una base de datos relacional desde la que se realizan consultas utilizando queries que toman información de tablas estructuradas.

“Cuando se habla de big data cómo se entiende con la parte de base de datos en su core, es un motor de búsqueda que radica su labor y capacidad de análisis en un file system, como Hadoop, que tiene toda la potencia y el ecosistema, en torno a un sistema de archivos para almacenar los datos y trabajarlos. Sobre eso, existe un ecosistema de aplicaciones de open source para explotar de mejor forma ese core”, según el experto.

Lo cierto es que uno no reemplaza al otro, ya que el data warehouse vivirá en una base de datos que proveerá una capacidad diferenciada de análisis de forma complementaria para el negocio. Para alcanzar la integración de una base de datos, big data es un buen candidato porque el data warehouse tiene una arquitectura y sistemas fuertes con procesos.

También: Análisis de datos, ¿dónde puede estudiarlo?

Integrando el data warehouse

A continuación se explican tres elementos claves de integración, conexión, actualización y herramientas que el CIO deberá tener en cuenta, según Francisco Aguirre:

Integrarlo a big data: para realizar análisis desde cualquier fuente, big data es un buen candidato. En warehouse hay un sistema de infraestructura con ETL que lo pueblan y mediante una herramienta permite explotar la información. El análisis toma tiempo por lo que no habrá respuesta de forma inmediata pero esta debe ser una prioridad para que ocurra en el menor tiempo posible, que cruce datos desde una base de datos relacional o en un entorno no tradicional, como los tuits.

Dispositivos conectados: serán usuarios de la información tanto para informar a las personas como la comunicación de máquinas para enviar resultados procesados en un ambiente de big data y de warehousing, por ejemplo, en una implementación de Internet de las Cosas, cuando los datos llegan a Hadoop, que fluya hacia los usuarios y hacia el warehouse sobre el histórico del comportamiento de la información.

Modernización. Los datos están evolucionando y el warehouse igual. Los negocios se enfrentan a los retos de captura de datos para procesarlos y entregarlos. Puede pasar de muchas formas pero no debe ser de golpe ni ocurre de igual forma en cada organización, puede ir de un ambiente sencillo, como la actualización la plataforma, hasta agregar nuevas herramientas o crear nuevos ambientes analíticos que vienen de la mano de algunos appliances que ayudan a hacer procesamiento del lenguaje natural para análisis naturales, por ejemplo, de las redes sociales para tener un análisis exitoso.

Herramientas de integración

– Para ETL: shareplex, básicas como SQL server, Oracle
– Base datos relacional para albergar datos, como Teradata
– Explotar la información: Linux Statistica con librerías de Java
– Integración: Big data basado en Hadoop, Horton Well, REScoop, Casandra

Este artículo está clasificado como: , ,

Comentarios

Para poder comentar debe iniciar su sesión:

INGRESAR