Data warehouse es una colección de información recopiladas de múltiples base de datos operacionales. Data warehouse provee una plataforma sólida de datos integrados e históricos de los cuales se puede sacar un análisis. Otra definición podría ser que se encarga de organizar y almacenar los datos necesarios para los procesos de información y análisis en un tiempo histórico.
Usualmente son construída para almacenar grandes cantidades de información recolectada de diferentes fuentes operacionales. Por ejemplo: una empresa quiere determinar si la causa de la baja de los precios de su producto fue causada por la cantidad de vendedores que tomaron vacaciones. Para poder encontrar la respuesta, el data warehouse necesita contener información tanto de la base de dato del producto, como de la base de dato del personal de la empresa. De aquí que se diga que el data warehouse se utilice para examinar problemas o posibles problemas y determinar su causa.
Características.
Data warehouse tiene cuatro características genereles que la definen como tal:
Subject-oriented (orientada a un tema): el diseño del warehouse está orientado en cuanto temas globales. Esta cualidad contrasta con el clásico método que era orientado al proceso y funcionamiento de las aplicaciones utilizados en sistemas operacionales más antiguos. En estos sistemas los datos giraban en torno a las aplicaciones o funciones como: préstamos, ahorros, etc. En el warehouse, los datos giran alrededor de temas globales como: vendedores, clientes, productos, etc.
Integrada: los datos necesitan ser almacenados en el data warehouse de una forma globalmente aceptable y singular, aunque el programa operacional los almacene de una forma distinta. Los datos deben de ser consistentes siempre dentro del data ware house. Por ejemplo :
Código: al introducir una información, ésta debe llegar al data ware house de una forma consistente independientemente de cómo fue introducido en el programa de aplicación.
Medidas de atributos: independientemente de cual sea la medida utilizada (por ejemplo: centímetros, metro, yardas, pulgadas), al ser almacenados los datos en el data warehouse deben tener una misma medida.
Variación de tiempo: las características de los datos contenidos en el warehouse son distinto a aquellos en el ambiente operacional. En el ambiente operacional, al momento de accesar los datos éstos son exactos a aquellos que se espera recibir. Sin embargo, en el warehouse, los datos son exactos en algún momento del tiempo. Las variantes del tiempo se pueden notar de tres formas:
Límite de tiempo: el margen de tiempo del warehouse es mucho mayor en cuanto a los datos (puede contener datos entre 5 y 10 años de almacenamiento). Por otro lado, en el ambiente operacional, el margen de tiempo de almacenamiento de los datos es mucho menor por lo que la información que se accesa es mucho más “fresca” (60- 90 días); ya que un programa de aplicación para trabajar eficientemente debe llevar la mínima cantidad de data necesaria para realizar las transacciones.
Clave de estructura (key structure): los datos en el warehouse contienen un elemento de tiempo (día, semana, mes, año, etc.).
Actualizaciones: los datos una vez almacenados correctamente en el warehouse no se puden ser alterados, por lo tanto no se pueden actualizar.
No volátil: la manipulación de datos en el warehouse es mucho más simple. Sólo existen dos tipos de operaciones que se llevan a cabo en el warehouse: cuando se cargan inicialmente los datos y cuando se accesan.
Componentes.
Los diferentes componentes del warehouse son:
Datos actualmente detallados (current detail data): es una de las informaciones más concerniente ya que refleja y detalla los acontecimientos más recientes dentro del warehouse. También los datos son almacenados en discos de almacenamiento, por lo que los datos pueden ser accesados más rápidamente.
Datos anteriormente detallados (Older detail data): son datos almacenados de alguna forma masiva. Usualmente no se almacena en discos de almacenamiento ya que son grandes volúmenes de datos que son accesados infrecuentemente.
Datos ligeramente resumidos (lightly summarized data): son datos filtrados o resumidos que se encuentran en los datos actualmente detallados. Debe incluír los atributos y unidad de tiempo en la cual debe ser realizada.
Datos sumamente resumidos (highly summarised data): son datos compactos y de fácil acceso.
Datos meta (meta data): son datos que no son directamente tomados del ambiente operacional. Se usa como directorio para ayudar a localizar al analista el contenido del warehouse. También como una guía de cómo los datos son transformados desde el ambiente operacional hasta el ambiente del warehouse. Finalmente, como una guía para los algoritmos utilizados para el resumen entre los diferentes datos (actualmente detallados, ligeramente resumidos etc.).
Ventajas.
Reducción en tiempos de consultas:por parte de los usuarios, se reduce considerablemente el tiempo de espera.
Apoyo a las tomas de desiciones: proporciona un resumen de la información lo cual ayuda a los empresarios a tener una base para tomar decisiones en cuento a lo que su empresa requiere.
Acceso a cualquier base de datos: soporta el acceso a múltiples bases de datos por lo que se puede obtener información variada y necesaria desde un mismo punto de origen.
Acceso directo, fácil y económico a todos los datos de la empresa.
Los logros son evidentes: en una empresa que utilice data warehouse va a existir una mayor productividad por las decisiones correctas tomadas a partir de los informes obtenidos del warehouse en un tiempo más corto.