DWH (Data Ware House)

Proceso de transformación de datos. Data mining. Bases de Datos. Control de Calidad de datos

  • Enviado por: Nelson Avalo
  • Idioma: castellano
  • País: República Dominicana República Dominicana
  • 10 páginas
publicidad
publicidad

Data Warehouse

¿Qué es Data Warehousing?

En la actualidad hay una importante cantidad de confusión respecto a lo que es un Data Warehouse que, afortunadamente, está comenzando a despejarse. No obstante, parece que cada proveedor de un producto o servicio relacionado con tecnología informática tiene su definición y, lo que es peor, en su propia jerga no siempre comprensible.

Algunos llaman a Datawahouse Business Intelligence  or Decision Support en realidad es considerada la solución integral y oportuna para desarrollar negocio el Datawarehouse se caracteriza por ser:

Integrado - Temático - Histórico - No volatil

Definición :

Es un proceso, no un producto. Es una técnica para consolidar y administrar datos de variadas fuentes con el propósito de responder preguntas de negocios y tomar decisiones, de una forma que no era posible hasta ahora.

Consolidar datos desde una variedad de fuentes. Dentro del marco conceptual de Data Warehousing los agruparemos dentro del proceso de Transformación de Datos.

Manejar grandes volúmenes de datos de una forma que no era posible, o no era costo efectiva. A estos medios los agruparemos en Procesamiento y Administración de Datos.

Acceder a los datos de una forma más directa, en "el lenguaje del negocio", y analizarlos para obtener relaciones complejas entre los mismos. Estos procesos se engloban en dos categorías que serán explicadas más adelante: Acceso a los Datos y Descubrimiento o Data Mining.

Estos desarrollos tecnológicos, correctamente organizados e interrelacionados, constituyen lo que se ha dado en llamar un Data Warehouse o Bodega de Datos. Veamos un poco más en detalle los grupos mencionados.

Existen muchas definiciones para el DW, la más conocida fue propuesta por Inmon[MicroSt96] (considerado el padre de las Bases de Datos) en 1992: "Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales". En 1993, Susan Osterfeldt[MicroSt96] publica una definición que sin duda acierta en la clave del DW: "Yo considero al DW como algo que provee dos beneficios empresariales reales: Integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico".

Data Mining

En este sentido un sistema Datamining es una tecnología de soporte para usuario final, cuyo objetivo es extraer conocimiento útil y utilizable a partir de la información contenida en las bases de datos de las empresas.

Los objetivos de un sistema Datamining nos permitiría analizar factores de influencia en determinados procesos, predecir o estimar variables o comportamientos futuros, sementar o agrupar ítems similares, además de obtener secuencias de eventos que provocan comportamientos específicos.

Los sistemas Datamining se desarrollan bajo lenguajes de ultima generación basados en la inteligencia artificial y utilizando métodos matemáticos, tales como:

  • Redes euronales

  • Introducción de reglas

  • Arboles de decisión

  • Conjunto de reglas por clase

Soporta tambien sofisticadas operaciones de análisis tales como los sistemas Scoring y aplicaciones de detección de fraude.

Data Marts.

Es un pequeños Data Warehouse, para un determinado numero de usuarios, para un arrea funcional, especifica de la compañía. También podemos definir que un Data Martes es un subconjunto de una bodega de datos para un propósito especifico.

Su función es apoyar a otros sistemas para la toma de decisiones.

Los procesos que conforma el datawarehouse son:

1-Extraccion  
2-Elaboración 
3-Carga 
4-Explotacion

Data Warehouse

Componentes del Data Warehouse Impactos DW

El éxito de DW no está en su construcción, sino en usarlo para mejorar procesos empresariales, operaciones y decisiones. Posesionar un DW para que sea usado efectivamente, requiere entender los impactos de implementación en los siguientes ámbitos:

Diagrama de Funcionamiento

Data Warehouse

¿Cómo trabaja el Data Warehouse?

  • Extrae la información operacional.

  • Transforma la operación a formatos consistentes.

  • Automatiza las tareas de la información para prepararla a un análisis eficiente.

¿En quê podemos usarlo?

  • Manejo de relaciones de marketing.

  • Análisis de rentabilidad.

  • Reducción de costos.

Busines Intelligence se ha vuelto una necesidad en el vertiginoso ritmo del ambiente de negocios actual. Los negocios necesitan aprovechar las posibilidades que les ofrece la actual tecnología para permanecer competitivos y rentables.

OLAP

Es un sinónimo de base de datos multidimensional mediante las cuales se proveen una tecnología para el cálculo y análisis requerido por las aplicaciones analíticas para el "Bussines Intellingence", las bases de datos relacionadas están formadas por un conjunto de registros. Cada registro contiene la información organizada en campos.

El OLAP describe la tecnología asociada al acceso y análisis de datos en líneas.

Sistemas De Data Warehouse Y Oltp

Una base de datos para soportar procesos transaccionales en línea (OLTP), puede no ser adecuada para el Data Warehouse ya que ha sido diseñada para maximizar la capacidad transaccional de sus datos y tipicamente tiene cientos de tablas la gran mayoría normalizadas. Su diseño también ha sido condicionado por los procesos operacionales que deberá soportar para la óptima actualización de sus datos, normalmente muchas de sus tablas en constantes y continuos cambios. Los sistemas Data Warehouse están orientados a procesos de consultas en contraposición con los procesos transaccionales.

OLTPData Warehouse Propósito Ejecuta operaciones transaccionales diariamente Consultas y análisis para la obtención de información Estructura Sistemas de bases de datos relacionales Normalmente sistemas de bases de datos relacionalesModelo de datos Normalizado Muchas de sus tablas pueden no estar normalizadas se admite redundancia en los datos. Bases de datos multidimensionales.Acceso SQL SQL más extensiones especiales dependientes de las herramientas de explotación de datos (Data Mining)

No obstante, el SQL estándar puede ser suficiente en manos de personal experto.Tipo de datosLos datos están orientados a la gestión de los negociosLos datos están orientados al análisis de los negocios.

Transforman los datos en información para su análisis. Perdurabilidad Los datos cambian constantemente, vistos globalmente en procesos de reporting sofisticados pueden perder consistencia, o bien, para no perder consistencia deben imponerse mecanismos de bloqueo de datos con un elevado consumo de recursos globales del sistema.Datos históricos con referencias temporales no sujetos a modificaciones.

Características

De acuerdo con Bill Inmon, autor de Building the Data Warehouse Construyendo el almacén de datos, ampliamante reconocido como el gurú creador del concepto data warehousing, existen generalmente cuatro características que describen un almaceén de datos:

1.orientado al sujeto:

Los datos se organizan de acuerdo al sujeto en vez de la aplicación, por ejemplo, una compañia de seguros usando un almacén de datos podría organizar sus datos por cliente, premios, y reclamaciones, en lugar de por diferentes productos (automóviles, vida, etc.). Los datos organizados por sujetos contienen solo la información necesaria para los procesos de soporte para la toma de decisiones.

2.integrados:

Cuando los datos residen en muchas aplicaciones separados por los distintos entornos operacionales, la descodificación de los datos es a menudo inconsistente. Por ejemplo, en una aplicación, la palabra gender podría codificarse como "m" y "f" en otra como "0" y "1". cuando los datos fluyen de un entorno operacional a un entorno de almaceén de datos o de data warehouse, ellos asumen una codificación consistente, por ejemplo gender siempre se transformaría a "m" y "f".

3.variación-temporal:

El almaceén de datos contiene un lugar para guardar datos con una antiguedad de 5 a diez años, o incluso más antiguos, para poder ser usados en comparaciones, tendencias y previsiones. Estos datos no se modificarán.

4. No son inestables:

Los datos no serán modificados o cambiados de ninguna manera una vez ellos han sido introducidos en el almacén de datos, solamente podrán ser cargados, leidos y/o accedidos.

Diferencias: Data Warehouse vs. OLTP

Los sistemas tradicionales de transacciones y las aplicaciones de Data Warehousing son polos opuestos en cuanto a sus requerimientos de diseño y sus características de operación. Es de suma importancia comprender perfectamente estas diferencias para evitar caer en el diseño de un Data Warehouse como si fuera una aplicación de transacciones en línea (OLTP).

Las aplicaciones de OLTP están organizadas para ejecutar las transacciones para los cuales fueron hechos, como por ejemplo: mover dinero entre cuentas, un cargo o abono, una devolución de inventario, etc. Por otro lado, un Data Warehouse está organizado en base a conceptos, como por ejemplo: clientes, facturas, productos, etc.

Otra diferencia radica en el número de usuarios. Normalmente, el número de usuarios de un Data Warehouse es menor al de un OLTP. Es común encontrar que los sistemas transaccionales son accesados por cientos de usuarios simultáneamente, mientras que los Data Warehouse sólo por decenas. Los sistemas de OLTP realizan cientos de transacciones por segundo mientras que una sola consulta de un Data Warehouse puede tomar minutos. Otro factor es que frecuentemente los sistemas transaccionales son menores en tamaño a los Data Warehouses, esto es debido a que un Data Warehouse puede estar formado por información de varios OLTP´s.

Existen también diferencia en el diseño, mientras que el de un OLPT es extremadamente normalizado, el de un Data Warehouse tiende a ser desnormalizado. El OLTP normalmente está formado por un número mayor de tablas, cada una con pocas columnas, mientras que en un Data Warehouse el número de tablas es menor, pero cada una de éstas tiende a ser mayor en número de columnas.

Los OLTP son continuamente actualizados por los sistemas operacionales del día con día, mientras que los Data Warehouse son actualizados en batch de manera periódica.

 

 

 

 

Data Warehouse

Las estructuras de los OLTP son muy estables, rara vez cambian, mientras las de los Data Warehouses sufren cambios constantes derivados de su evolución. Esto se debe a que los tipos de consultas a los cuales están sujetos son muy variados y es imposible preverlos todos de antemano.

RRHH: la gente necesita contar con un enfoque fuerte sobre el conocimiento del área de la empresa y de los procesos empresariales. Además es muy importante considerar las cualidades de la gente, ya que el desarrollo del DW requiere participación de la gente de negocios como de los especialistas tecnológicos; estos dos grupos de gente deben trabajar juntos, compartiendo su conocimiento y destrezas en un espíritu de equipo de trabajo, para enfrentar los desafíos de desarrollo del DW.

Tiempo: Se debe establecer el tiempo no tan solo para la construcción y entrega de resultados del DW, sino también para la planeación del proyecto y la definición de la arquitectura. La planeación y la arquitectura, establecen un marco de referencia  y un conjunto de estándares que son críticos para la eficacia del DW.

Tecnología: Muchas tecnologías nuevas son introducidas por el DW. El costo de la nueva tecnología puede ser tan sólo la inversión inicial del proyecto.

Evolutivos: ajustes continuos del DW a través del tiempo, como cambios de expectativas y, cambios producto del aprendizaje del RRHH del proyecto mediante su experiencia usando el DW.

Crecimiento: Incrementos en el tiempo en volúmenes de datos, del número de usuarios del DW, lo cual conllevará a un incremento de los recursos necesarios como a la demanda de monitoreo, administración y sintonización del DW (evitando así, un incremento en los tiempos de respuesta y de recuperación de datos, principalmente).

Cambios: El DW requiere soportar cambios que ocurren tanto en el origen de datos que éste usa, como en las necesidades de la información que éste soporta.

Los dos primeros tipos de costos de operación, son básicos en la mantención de cualquier sistema de información, por lo cual no nos resultan ajenos; sin embargo, se debe tener especial cuidado con los costos de operación por cambios, ya que ellos consideran el impacto producto de la relación del OLTP y del Ambiente Empresarial, con el DW.

Resulta esencial para llevar a cabo un proyecto DW, tener claridad en la forma que éste se ve afectado por medio de cambios a nivel de OLTP como del Ambiente Empresarial; por ello entonces, a continuación se analiza más en detalle este tipo de costos de operación.

Cambios en la tecnología: Un cambio en la tecnología puede afectar la manera que los datos operacionales son almacenados, lo cual implicaría un ajuste en los procesos de Extracción, Transporte y Carga para adaptar las variaciones presentadas.

Un cambio de cualquiera de ellos impacta los sistemas operacionales. Un cambio en el ambiente operacional puede cambiar el formato, estructura o significado de los datos operacionales usados como origen para el DW. De esta forma serían impactados los procesos de Extracción, Transformación y Carga de datos.

  • Mejorar la Entrega de Información: información completa, correcta, consistente, oportuna y accesible. Información que la gente necesita, en el tiempo que la necesita y en el formato que la necesita.

  • Mejorar el Proceso de Toma de Decisiones: con un mayor soporte de información se obtienen decisiones más rápidas; así también, la gente de negocios adquiere mayor confianza en sus propias decisiones y las del resto, y logra un mayor entendimiento de los impactos de sus decisiones.

  • Impacto Positivo sobre los Procesos Empresariales: cuando a la gente se le da acceso a una mejor calidad de información, la empresa puede lograr por sí sola:

  • Eliminar los retardos de los procesos empresariales que resultan de información incorrecta, inconsistente y/o no existente.
    Integrar y optimizar procesos empresariales a través del uso compartido e integrado de las fuentes de información.

    Eliminar la producción y el procesamiento de datos que no son usados ni necesarios, producto de aplicaciones mal diseñados o ya no utilizados.