Informática
Administración de almacenamiento jerárquico
HSM
Administración de Almacenamiento Jerárquico
Indice
Contenido | Página | |
Objetivos del Estudio............................................................................................................ 1. Introducción - Generalidades......................................................................................... 2. HSM - Conceptos y Definición........................................................................................ 3. Utilización de los Archivos en una Empresa.................................................................. 4. Arquitectura y Funcionamiento...................................................................................... 5. Migración de Archivos..................................................................................................... 6. Sistema de Archivos......................................................................................................... 7. Backup y HSM.................................................................................................................. 8. Archivado.......................................................................................................................... 9. Requisitos para Implementar HSM................................................................................ 10. Factores y Consideraciones........................................................................................... Penetración de HSM...................................................................................................... Dónde Usar HSM........................................................................................................... Niveles HSM................................................................................................................... Productos HSM.............................................................................................................. Conclusión....................................................................................................................... | 1 2 3 5 7 9 12 13 13 15 15 17 18 18 19 23 |
Objetivos del Estudio
Después que el lector halla leído el presente trabajo práctico, deberá ser capaz de:
-
Conocer los conceptos y definiciones de un sistema HSM,
-
Explicar las diferentes partes que lo componen,
-
Conocer las ventajas y desventajas ante otros sistemas de almacenamiento,
-
Saber en qué organizaciones se adapta mejor la solución,
-
Tener idea de los costos de implementación del sistema,
-
Condiciones y factores a tener en cuenta para sus puesta en marcha,
-
Conocimiento de los productos existentes actualmente en el mercado.
Los autores
1 - Introducción - Generalidades
En casi todas las empresas todos los días se crean nuevos archivos, se modifican otros. Muchos de ellos se vuelven de uso cotidiano durante un tiempo relativamente breve, quizás un mes, luego de lo cual quedan, simplemente quedan.
Facturas, órdenes de compra, solicitudes, y otros muchos documentos responden a este esquema. Algunos de ellos retornan periódicamente (como el caso de estadísticas trimestrales o similares); algunos "reviven" un par de veces; otros ni eso; finalmente la inmensa mayoría cae en el abandono. Sólo unos pocos se mantienen activos durante largo tiempo, como ver en el siguiente cuadro:
Para mejor o para peor, cada vez hay más usuarios en LANs que generan más documentos. Por otra parte, las nuevas aplicaciones ocupan cada vez más lugar, cuestión que aumenta mucho más aún cuando se incluyen gráficos de alta resolución o multimedia, o simplemente imágenes. En este último caso, por ejemplo, una misma página puede ocupar tan poco como 2 KB de almacenamiento cuando es puro texto pero quizás tanto como 2 MB al llenarse con una imagen.
Como si fuera poco, la descentralización provoca una transferencia de aplicaciones legadas de ambientes de mainframe que, desarrolladas generalmente en un entorno cliente/servidor, contribuyen también a imponer mayores exigencias de espacio en disco.
No son pocas las empresas en las que se está produciendo un estado de alerta debido a esta situación. El almacenamiento de los datos en LANs corporativas y WANs está creciendo a un explosivo y a veces paso alarmante. Entre 1991 y 1995, se estima que una red de computadoras típica, experimentó un incremento de tres veces en el almacenamiento de datos. La disminución drástica en los precios de almacenamiento en disco duro, y el crecimiento inaudito de redes y las nuevas aplicaciones como las multimedias, ha alimentado esta explosión más aun.
Porque si bien tal parece que las máquinas cada vez traen discos de mayor capacidad, no es sólo cuestión de tener espacio disponible. Hay cuestiones de administración-costos de mantenimiento, especialmente que conducen a un análisis serio de la situación relacionada con los requisitos y administración de los dispositivos de almacenamiento, antes que se vuelva más complicada y, por lo tanto, más costosa de superar. Por ejemplo, los sistemas RAIDs se pueden ver comprometidos por esta situación puesto que debido a la redundancia que incorporan necesitan más capacidad todavía, con el agravante que podría quedarse corta en breve tiempo.
Además, una capacidad excedida puede llevar directamente a señalar la compra de un nuevo servidor de archivos, lo que demanda una inversión mucho mayor que seguir agregando gigas a un disco.
2 - HSM - Conceptos y Definición
Un planteo con algunas situaciones como las antes mencionadas apareció hace mucho tiempo a nivel de mainframes. En estos ambientes se planteó buscar una solución que, por ejemplo, derivara los archivos de menor uso a sistemas de almacenamiento de menor costo reduciendo, de paso, el overhead de la operación del sistema de almacenamiento primario. La cuestión consiste entonces en migrar a un medio como la cinta o disco óptico, todos esos archivos que se mueven poco y nada. Crear un sistema que provea en forma automática la optimización del almacenamiento haciendo que toda la información se encuentre en línea o casi en línea.
Los medios de almacenamiento mencionados ofrecen un costo sensiblemente menor que el disco de modo que por este lado, se disminuye la inversión en almacenamiento. La cuestión surge cuando haya que volver a leer estos archivos. Los medios mencionados proporcionan un tiempo de acceso bastante más lento que el disco. En el caso de la cinta, incluso, por tratarse de un medio de lectura secuencial, el tiempo de acceso en cada caso estará dado por la ubicación relativa del archivo buscado en la cinta.
Cualquiera que sea el mecanismo de lectura para los archivos migrados, se trata de buscar una mejor relación costo/beneficio entre los mayores costos de equipamiento y soporte de un disco duro y la pérdida de eficiencia debida a los mayores tiempos de acceso que acompañarán a los archivos migrados cuando se los tenga que volver a convocar.
El sistema HSM (Administración de Almacenamiento Jerárquico), se ha estado usando con todo éxito en ambientes de mainframe durante 20 años. Responde a un concepto sólido y comprobado, por lo que los usuarios de mainframe son los primeros que al menos en principio, pueden aceptar el mecanismo en redes locales.
HSM se puede definir como estrategias de administración del almacenamiento de datos, las cuáles definen la mejor utilización de los recursos a través del movimiento de los mismos de un medio de almacenamiento disponible a otro, basadas en un juego de políticas y soportadas por equipamiento de Hardware y Software adecuado.
A nivel de LANs, sin embargo, se ha producido una gran demora en la aceptación del HSM, pese a cierta difusión de sus principios. En esto han contribuido la falta de soporte adecuado de los sistemas operativos de red más populares, compatibilidad con los sistemas de backup y en parte ciertas fallas en los productos ofrecidos.
En todo caso, bajo Unix es dónde se ha venido produciendo cierto movimiento, gracias a las posibilidades del kernel de este sistema operativo. Además, al menos hasta muy recientemente, las aplicaciones comerciales típicas que corren en LANs, especialmente administrativas, de procesamiento de palabra y hojas de cálculo, no imponen grandes problemas de espacio.
No ha ocurrido lo mismo con aplicaciones con fuertes exigencias de procesamiento de transacciones, ni especialmente con las propias de sistemas de imágenes y workflow.
Pero tal parece que los nuevos sistemas cliente/servidor así como las aplicaciones que manejan voz y vídeo, son las que están llevando a un gran segmento de la LANs comerciales a tener que enfrentar el problema del almacenamiento.
Con la difusión de los medios ópticos de almacenamiento, el panorama se amplía al poder fácilmente contar con un medio secundario en línea. Por otra parte, nuevos dispositivos, permiten tener casi en línea múltiples discos y cintas (hasta ahora casi exclusivamente para backup). Estamos frente ya a tres medios diferentes de almacenamiento. Los documentos que se acceden con menor frecuencia pueden pasarse a un almacenamiento secundario que maneje un medio óptico como WORM y borrable, o bien CD-ROM y CD-R (borrable), mientras que los más inactivos, pasarse a cinta como almacenamiento terciario.
Un sistema que maneje estas situaciones se basa en que una empresa produce muchos datos que en su gran mayoría, al menos después de una primera etapa de vida activa, sólo se usan ocasionalmente. También debe prever el tipo de archivos: si son aislados, si se agrupan en conjuntos relacionados; también es importante considerar el tamaño. Además de todo debiera operar en forma transparente de manera tal que para el usuario todos los archivos parezcan estar en el medio primario. Aquí es donde el HSM puede ser de gran utilidad.
3 - Utilización de los Archivos en una Empresa
Los archivos de datos que se generan en las LANs de una empresa tienen una utilización que depende bastante del tipo de actividades que se desarrollan en la misma. En general hay un período inicial de uso de cierta frecuencia que puede extenderse hasta unos 30 días. Las estadísticas que generalmente se consideran dividen la actividad de los archivos en base a un período de 90 días.
Mucha gente comparte el modelo 80/20, usado para eventos de todos tipo, para referirse en este caso a la inactividad /actividad más allá de dicho lapso. Estudios más amplios y detallados dicen que estadísticamente entre el 70 y 75 % de los archivos permanecen inactivos en los primeros 90 días, y entre el 75 y 80 % permanecerán así aún en los primeros 120 días. Finalmente, que sólo entre un 2 y 2,5 % será accedido en algún momento pasado este último lapso.
Lo importante en cada caso particular es trazar un cuadro estadístico aproximado de la situación de cada empresa. Identificar adecuadamente esta información es fundamental para tomar una decisión, y de ser positiva, poder crear un esquema automatizado eficiente en la solución que se implemente. Estas observaciones confirman la idea de la necesidad de un sistema de almacenamiento múltiple, donde ciertos archivos se vayan sacando del disco duro y llevados a otros como ser disco óptico o cinta.
3.1 - Costos de Almacenamiento
Los costos mencionados a continuación son teóricos tenidos en cuenta en un estudio realizado a mediado del año 1997. Estos son aproximadamente:
-
$ 0,50 por Megabyte para almacenamiento en disco duro,
-
$ 0,20/MB para el disco óptico y,
-
$ 0,10/MB para almacenamiento en cinta.
Los cartuchos magneto-óptico (MO) más comunes tienen hoy en día 2,6 GB y una velocidad de acceso de unos 25 mseg. Vienen en formatos de 3 1/2", 5 1/4" y 12". Por su parte hay WORMs de 3 I/2", 5 1/4" y 12". Las cintas más comunes son QIC, la de 8 mm. y la DAT de 4 mm, con capacidades variables según los formatos que van desde una fracción de GB hasta decenas de éstos.
Los dispositivos para manejar múltiples discos ópticos se conocen como jukeboxes o cambiadores automáticos de discos, los de cinta se conocen como bibliotecas automatizadas o autocargadores de cinta, aunque algunos les extienden el nombre de jukeboxes, por más que éste término identifica muy claramente en inglés los cambiadores automáticos de discos de uso comercial de hace unas décadas. Ambos tipos de dispositivos se manejan con mecanismos robóticos de forma tal que el material se encuentre casi en línea. Pueden tener más de un drive permitiendo el uso concurrente. Pero entendamos que esto es multitarea y por lo tanto debe soportarlo tanto el software como el propio sistema operativo de red.
Un jukebox de disco óptico para 40 GB, compuesto por 16 discos de 2,6 GB cada uno puede tener un costo de $ 7.000, mientras que. una biblioteca o autocargador de cinta de 4 mm. puede costar $ 8.000 pero con una capacidad de 72 GB. Por cierto, estas cifras nos dicen que para estos ejemplos los precios por Megabyte son de $ 0,175 y $ 0,111 para disco y cinta respectivamente.
Analizando las diferentes situaciones, tenemos que se viene discutiendo bastante sobre el costo administrativo referido al seguimiento de los archivos y organización de directorios del disco duro. Se dice por ejemplo que esto puede insumir entre $ 4 y $ 9 por MB y por año. Otros hablan de un promedio de $ 6 a $ 8 donde los costos del personal involucrado son los que más pesan. Además, no tiene sentido que gente preparada y/o con sueldos elevados, esté haciendo el trabajo de determinar qué archivos hay que sacar de un gran disco duro de un servidor. Todos números estimados, nada fáciles al menos de verificar, pero que de una u otra forma se consignan como un ahorro con un sistema automatizado como el HSM.
Uno de los detalles en que siempre se insiste es el costo del personal. La "depuración" de un sistema de disco puede ser una tarea ardua para un administrador; estrictamente de gran insumo de tiempo y de mano de obra costosa. En cambio, al ofrecer el HSM un sistema automatizado, resulta mínimo el mantenimiento que puede requerir una vez configurado. El propio software HSM como veremos más adelante, tiene un costo que oscila entre los $ 1.000 y $ 3.000.
Por otra parte, si hablamos de pérdida de rendimiento o eficiencia con los otros sistemas de almacenamiento, habría que tener en cuenta que recuperar un archivo de un disco óptico ubicado en un jukebox insume entre 2 y 10 segundos. Lo propio desde una biblioteca automatizada de cinta puede llevar los mismos valores, pero en minutos, siendo los mayores tiempos resultado de la ubicación secuencial del archivo. Por eso es importante fijar una política adecuada de migración: no es lo mismo perder 10 minutos una vez al año que todos los meses.
Obviamente que ampliar la capacidad de almacenamiento simplemente con disco duro costaría mucho más que con los otros medios (más de $ 30.000 para 40 GB). Esta cantidad podría ser algo menor puesto que en principio no haría falta tanta capacidad total como la resultante de los dos o tres sistemas de almacenamiento propios del HSM.
4 - Arquitectura y Funcionamiento
Un sistema HSM extiende el sistema de archivos del disco duro a múltiples dispositivos de almacenamiento y, gracias al establecimiento de políticas de migración, provee en forma automática y transparente un mejor costo por megabyte para los archivos de menor acceso, junto al ahorro del seguimiento administrativo del sistema de almacenamiento primario de forma tal que entre ambos, sobrecompensen la pérdida de eficiencia producida al tener que acceder archivos ubicados en otros medios de almacenamiento.
La idea entonces es ir transfiriendo los archivos a dispositivos de almacenamiento secundario (como jukeboxes magneto-ópticos y autocargadores de cinta) progresivamente menos costosos, en función de su menor uso.
La meta del HSM es un mejor uso de los costos asociados al almacenamiento de datos. En realidad se busca una optimización entre el costo de almacenamiento de diferentes medios y la reducción en la productividad o performance del personal debido al mayor tiempo de acceso de los medios más baratos. Por eso es importante fijar una política de migración de archivos para mantener el equilibrio adecuado de la situación. Si así fuera, lo mínimo que se gana es la eliminación o reducción al máximo de los elevados costos de mantenimiento del almacenamiento tradicional, gracias a la automatización de las tareas de administración de archivos que ofrece el HSM. En definitiva, un sistema de este tipo permite:
-
Hacer más eficiente el almacenamiento primario.
-
Reducir el costo total de los medios de almacenamiento.
-
Simplificar la administración del almacenamiento, con la consiguiente reducción del costo agregado de operación.
Una solución HSM consiste de los componentes de hardware ya mencionados, y un software inteligente de administración de datos que trabaja en base al establecimiento de una jerarquía multinivel de medios de almacenamiento.
La jerarquía se refiere a los diferentes medios de almacenamiento. Pueden ser sólo dos: disco duro y disco óptico, o bien disco duro y cinta. Más usual son tres: disco duro, disco óptico y cinta. En todos los casos, los medios removibles se manejan en forma automática por los dispositivos robóticos correspondientes: un jukebox para discos ópticos, o bien una biblioteca automatizada o autocargador para cinta.
5 - Migración de Archivos
El paso de un medio a otro se llama migración. Este proceso responde a criterios que se fijan en la configuración en base a una cantidad de características como por ejemplo umbrales (los datos se pasan solamente cuando la unidad llega a cierto nivel de su capacidad).
Un sistema HSM de plenas características hace que los procesos de migración y recuperación de datos sean completamente automáticos y transparentes.
El primer criterio a tener en cuenta es que los datos que se acceden más frecuentemente se mantengan en el disco duro, es decir en línea, con lo que se mantiene la eficiencia.
A partir de esto: hay que determinar qué archivos son candidatos elegibles para migración. Los criterios de elección generalmente pueden ser varios en cada nivel y, además, diferentes entre uno y otro, es decir, los que regulan el paso de disco duro a disco óptico de los correspondientes al paso de disco óptico a cinta.
Entonces, en el proceso de configuración del sistema hay que determinar los parámetros de acuerdo con las políticas o reglas de migración de un medio a otro.
Los parámetros se pueden referir al nivel de ocupación del medio, a la antigüedad del medio, al tiempo transcurrido desde su última lectura, al tamaño (los archivos de texto especialmente de gran tamaño están entre los mejores candidatos para el uso del HSM), a la frecuencia de acceso a lo largo de un período, a la pertenencia a un grupo de trabajo, etc.
La ocupación del medio se establece por medio del concepto conocido en inglés como watermark o simplemente de marcas. Se trata de fijar dos umbrales uno de máximo, otro de mínimo. Entonces la migración se produce recién cuando se alcanza el nivel máximo de ocupación del medio. Una vez iniciado el proceso, puede seguir hasta que el nivel de ocupación baje al mínimo establecido. Entonces, puede llegar a haber una cantidad de archivos "elegibles" en condiciones de ser migrados, pero el proceso ocurrirá recién cuando se alcance el nivel de ocupación máximo referido. Valores típicos de marcas son de 80 a 85% para el máximo y alrededor de 60% para el mínimo.
Además de establecer políticas para determinar archivos elegibles para su migración, hay que considerar también en qué momento se producirá la migración.
La migración propiamente dicha puede hacerse que ocurra en cuanto se satisfaga la o las condiciones establecidas, aunque también puede condicionársela para cierta hora del día, por ejemplo de noche, es decir fuera del horario típico de trabajo. Este asunto del horario se hace más crítico cuando la política de migración se complementa con la fijación en la capacidad ocupada del medio.
Algunos sistemas usan lo que se llama la premigración. El procedimiento consiste en realizar una migración seleccionada antes de que se cumplan las condiciones impuestas, de modo que cuando llegue el momento prefijado, sólo hay que borrar el archivo del almacenamiento primario, puesto que la transferencia ya ha ocurrido. Este esquema es interesante porque justamente puede ajustarse para operar por ejemplo de noche, sin afectar el trá6co de la red durante las horas de trabajo. Esta conducta evita el problema de los crecimientos rápidos en el volumen almacenado que de ordinario darían lugar a grandes transferencias. Por otra parte, si hubiera que recuperar un archivo de gran tamaño, podría darse el caso de no tener lugar suficiente especialmente si el watermark de máxima fuera muy alto. En este caso, un sistema con premigración podría inmediatamente borrar todos los archivos premigrados, liberando espacio en disco. Adicionalmente hay que tener especial cuidado con archivos muy grandes, porque si se fijan niveles altos de ocupación antes de la migración, puede ocurrir que recuperar al disco duro un archivo muy grande, ocasione de inmediato el desalojo de una cantidad apreciable de archivos marcados, provocando un aumento del tráfico al extremo de hacer caer el rendimiento total del sistema.
5.1 - Migración Cliente y Servidor
En la siguiente figura podemos apreciar la terminología que se emplea en un proceso de migración, ya sea por “Migración automática de Archivo” o “Migración por Demanda”:
El cliente de migración: Un cliente de migración es cualquier sistema en la red que contiene datos que necesitan ser migrados ahora o en el futuro. Un cliente de migración consiste en múltiples sistemas de archivos o volúmenes; uno o todo los volúmenes pueden estar bajo el control del sistema de migración.
El servidor de migración: Un servidor de migración es un sistema en la red que, con un almacenamiento de migraciones o también llamada “Almacén de migración”, proporciona los servicios de migración a los clientes en la red.
Almacén de Migración: El almacén de migración reside en el servidor de migración. Contiene datos que originalmente residieron en los clientes de migración antes de emigrarse automáticamente encima de el servidor. El almacén de migración puede ser cualquier tipo de medio de almacenamiento, discos, cintas, óptico, etc. Típicamente, el almacén de migración consiste en una jerarquía de medios de almacenamiento y el movimientos de los datos por esta jerarquía, basada en ciertas políticas de organización.
5.2 - Talón o Stub
Cuando se migra un archivo, su entrada de directorio no se borra sino que es ocupada por un inquilino. El archivo que representa ahora dicha entrada es un archivo fantasma que se presenta al usuario como el original migrado. Si vemos al original como un ticket, el inquilino retiene el talón o stub de ese ticket, siendo este último nombre como es conocido en inglés.
Cuando un proceso quiere hacer una lectura o escritura sobre el archivo original, en realidad accede al archivo stub, que inmediatamente produce la re-emigración del original para que se. efectúe la operación correspondiente. Para ello el stub incluye información respecto del lugar donde efectivamente se encuentra un archivo migrado, con los punteros correspondientes para poderlo acceder. El archivo stub generalmente ocupa entre 1 y 2 KB.
Hay otras cuestiones en este asunto relacionadas con la independencia de la información migrada a un medio secundario:
-
Una se relaciona con que se migren no sólo los archivos sino también la información referida a las entradas de directorio en el propio medio secundario. Si así fuera, el medio podrá leerse con cualquier dispositivo.
-
Otro asunto de gran importancia se refíere al formato correspondiente a los archivos. Este formato puede ser propietario de modo que sólo puede leerlo el programa HSM. Mejor es que se mantenga la forma original, porque incluso de esta manera se podrían llegar a leer directamente (si fuera necesario) en el medio secundario sin necesidad de re-emigrar los al medio principal. Porque hasta podría pasar que se pierdan las entradas del directorio del disco duro.
Los sistemas HSM más modernos se integran a los sistemas de archivos que soportan. Un módulo especial activado hace que los archivos migrados se vean transparentemente por medio del stub que queda en el medio local. Pero, por medio de un comando dicho módulo puede desactivarse y hacer que los archivos migrados tengan su propio nombre, mantengan los atributos de los archivos originales y puedan ser accedidos directamente.
6 - Sistema de Archivos
Algunos productos HSM requieren su propio sistema de archivos dedicado que incluso resida en el mismo computador al que se conectan los dispositivos de almacenamiento.
Otros, trabajan con los sistemas de archivos existentes.
En ambos casos se plantea donde residen los metadatos (verdaderas entradas de directorio) del sistema de archivos, es decir la información acerca de cada archivo tales como tamaño, ubicación en disco, fechas de creación y modificación, status de sólo lectura, atributos de acceso, etc. Toda esta información puede estar junto con los datos en el disco óptico o bien en el propio disco duro.
En el primer caso, el disco es intercambiable con otro drive que podrá leer los archivos en cuestión. Pero exige que haya un sistema de archivo propietario en el disco curo, generalmente bajo la forma de una base de datos que las aplicaciones deben consultar antes de la búsqueda correspondiente. Este proceso adicional, hace más lento el proceso de recuperación.
Si los metadatos residen en el disco duro, en cambio, se gana en rapidez porque se usa el sistema de archivos estándar del sistema operativo. La contrapartida es que con cada migración hay que exportar también la información del sistema de archivos al disco óptico. Esto no favorece precisamente el uso de discos ópticos borrables aunque es aceptable para los WORMs.
Con el grado de funcionalidad y escalabilidad necesarios se puede dedicar como servidor de almacenamiento la máquina con los dispositivos de almacenamiento, con lo que se puede atender a otros servidores de la red. También hay productos que contemplan los sistemas distribuidos, como puede serlo los propios de ambientes cliente/servidor con aplicaciones legadas de mainframes. En este caso hay un agente servidor en cada computador donde haya un dispositivo de almacenamiento afectado al HSM, así como un agente cliente que maneja los servicios de migración y recuperación reside en los sistemas de archivos bajo el control del HSM. Pero además, hay un agente intermediario que informa a los agentes clientes de los recursos y ubicación de los dispositivos de almacenamiento de toda la red.
Es importante la interrelación del proceso de migración y recuperación con la administración de archivos de un sistema operativo. Esto puede hacerse vía APIs especiales que acepte el sistema operativo, o directamente si las capacidades HSM están embebidas en el propio sistema operativo. En el primer caso tenemos a NetWare que incluye en sus versiones 4.x un API especial llamado RTDM (Migración de Datos en Tiempo Real) basado en atributos tales como archivado y/o migrado, que pueden utilizar los programadores para desarrollar NLMs con la funcionalidad HSM.
Microsoft, por su parte, incorpora el producto HSM de Wang en el kernel de sus sistemas operativos.
7 - Backup y HSM
Aunque HSM y backup puedan usar los mismos medios de almacenamiento, son cosas muy diferentes. Un sistema de backup es básicamente un sistema de protección; copia archivos en un medio diferente que no queda en línea y permanece inactivo hasta la siguiente oportunidad programada o no. Como hemos mencionado HSM es muy distinto, aunque subsiste el punto común de los medios de almacenamiento.
Esto hace que ambos programas tengan que tener algo en común. Tanto es así que hay proveedores que venden ambos tipos de productos y algunos de backup no aceptan productos HSM de terceros sino el propio. De esta manera se aseguran, por ejemplo que un archivo se respalde antes de migrarlo, y también que se pueda realizar el respaldo directo de los archivos migrados.
Otro punto a tener en cuenta muy importante es el reconocimiento de los archivos stubs por parte del software de backup. Efectivamente, si no fuera así, la lectura de estos archivos por el software de backup provocaría sin necesidad el retorno al almacenamiento primario del archivo migrado correspondiente. Puesto que el proceso de backup seguiría su curso, la lectura de todos los archivos stubs provocaría un gran congestionamiento del tráfico con el riesgo incluso de agotar la capacidad del disco duro.
En esto ayuda un sistema operativo como NetWare que ofrece el bit de mi ación, como ya lo comentáramos. O bien el propio software HSM anula la recuperación mientras dure el proceso de backup que identifica por ejemplo de acuerdo a la configuración correspondiente.
Una funcionalidad completa para compartir dispositivos se logra con la integración de ambos tipos de productos. En este caso, cuando el proceso de backup encuentra un archivo stub puede hacerse o que lo respalde directamente sin activar el archivo principal, o que el proceso sea redireccionado al almacenamiento secundario y respalde dicho archivo principal, o a las dos cosas juntas.
8 - Archivado
Se trata de un proceso unidireccional de copiado de archivos en base a los criterios más comunes comentados en el HSM. Por el criterio que fuere, cuando se produce la copia automática de un archivo en un medio de almacenamiento secundario, no se deja ninguna indicación en el sistema de archivos primario. Simplemente se agrega a una base de datos que controla el programa, la nueva ubicación del archivo copiado.
Un operador será quien, manualmente, tendrá que volverlo a copiar al disco duro si fuera necesario consultando previamente la mencionada base de datos. Esto nos dice que no hay recuperación automática.
El proceso es sin duda simple, fácil de configurar y trabaja directamente con unidades removibles de disco óptico o cinta, sin necesidad de medios robóticos para el manejo de múltiples cartuchos.
El relativamente bajo precio del software (alrededor de $ 1.000) es un atractivo adicional.
Hay empresas en que el archivado puede ser preferible. El trabajo en proyectos es uno de los candidatos. En estos casos se generan generalmente una gran cantidad de archivos de tamaño reducido o mediano que es conveniente se mantengan agrupados, independientemente del uso específico que se le de a cada uno de ellos.
9 - Requisitos para implementar HSM
Desde que la informática distribuida es sumamente heterogénea, las organizaciones deben asegurarse que ciertos elementos básicos de administración de almacenamiento básicos estén en el lugar adecuado antes de que HSM se despliegue a lo largo de la empresa. Éstos incluyen:
Una sólida estrategia de backup y archivado, como hemos mencionado antes, HSM no es un reemplazo para el backup o el archivo. Antes de que HSM se despliegue, se recomienda que las organizaciones tengan implementada una sólida estrategia para backup y archivo, para protección de los datos por una red heterogénea.
Un análisis apropiado del tamaño de las redes y edad de los datos, típicamente las grandes redes con una cantidad inmoderada de datos antiguos, son los candidatos ideales por desplegar HSM. Mientras es difícil de cuantificar la cantidad de datos antiguos, se recomienda que las organizaciones desplieguen HSM si los datos son más antiguos que un año, los cuales liberarán un sube una importante cantidad de los recursos de almacenamiento de red. Hay varias herramientas disponible en el mercado que analiza la edad de datos.
El compromiso de los usuarios finales, es indispensable que el personal de Sistemas, obtenga el máximo apoyo posible de la comunidad del personal de usuarios finales antes de desplegar HSM por la organización. El componente de migración de archivo de HSM es transparente al usuario final. Los usuarios finales se irritarían a menudo si encuentran que su datos se ha migrado a un lugar diferente sin su conocimiento. Esto se exacerba cuando ellos intentan acceder un archivo migrado y toma mucho más tiempo que el usual para accederlo, debido al proceso de de-migración del archivo. Los usuarios también deben estar participando en la administración y archivo de sus datos usando las herramientas que el sistema le provee.
10 - Factores y consideraciones
Para asegurarse una estrategia de administración de almacenamiento integrada exitosa, las organizaciones deben tener en la cuenta los diversos problemas antes de seleccionar una solución de HSM. Los factores claves a tener en cuenta incluyen:
Una solución integrada, de ser posible las organizaciones deben llevar a cabo backup, archivado y HSM del mismo vendedor de software. Desplegando una solución integrada del mismo vendedor se tiene acceso a muchas ventajas. Estas incluyen:
-
consistencia en la administración de datos corporativos,
-
compartir en forma eficaz los recursos de almacenamiento,
-
interface de usuarios comunes,
-
puntos simples de contactos para soporte técnico y otros servicios de soportes,
-
procedimientos simples de recuperación de desastres.
La coexistencia armónica entre el backup y HSM, una ventaja importante de desplegar la solución de un vendedor está satisfaciendo el requisito de coexistencia entre el backup/archivado y HSM. Si la solución no se integra, los usuarios podrían encontrar el backup de un archivo provoca llamadas al proceso de de-migración, o que el almacenamiento migrado no puede ser respaldado, usando el producto de backup. Recíprocamente, un candidato válido para la migración podría ignorarse si se accedió por el software de backup.
Un problema de la empresa requiere una solución de la empresa, los ambientes distribuidos y clientes/servidor deben ser lo más homogéneos posibles, y cuando se requiere una solución HSM a una determinada plataforma de la empresa, debe ser provista por el mismo proveedor, y por ende de la misma plataforma, de las ya implementadas.
Mantenga lo estándares, uno de los bloques a superar más grandes para el despliegue de HSM es que muy pocos vendedores del sistema operativo proveen el soporte inherente a la migración de archivos, como parte del sistema operativo normal. Esto ha hecho necesario que vendedores de terceras partes obliguen a los usuarios a que modifiquen archivos de sistemas o el kernel para facilitar la migración. Cambiar archivos de sistema para apoyar una solución de HSM de terceros no es un camino recomendado, desde que cambia los archivos de sistema, significa que usted ya no está ejecutando un OS que goza la garantía del vendedor de OS. Vendedores como los son de Silicón y Novell (NetWare 4.1) tiene sistemas del archivo que son "HSM Ready".
Los estándares como DMIG (para UNIX) y RTDM (para NetWare 4.1) facilitan una interface común que les permite a otros vendedores de OS que hicieran HSM Ready a sus archivos de sistema. Es indispensable que el desarrollo del vendedor de HSM no sea propietario y que ellos se ajusten fuertemente a los estándares.
Independencia del hardware de almacenamiento, el software para HSM debe trabajar con cualquier tipo de medio de almacenamiento incluso la cinta, el disco óptico, o magnético. No debe obligarle al usuario a que compre un dispositivo del hardware específico (por ejemplo, "sólo trabaja con la máquina de discos óptica X de vendedor Y").
11 - Penetración de HSM
Pese a que fue introducido hace cinco años en el mercado de las LANs las empresas que trabajan con LANs convencionales no han incorporado el HSM sino en forma bastante lenta hasta ahora. En realidad para un administrador es un gran paso que exige una evaluación del tipo de almacenamiento y los requisitos de recuperación.
Algunos de los argumentos escuchados en los primeros tiempos se basaban en algunas fallas de los programas durante el proceso de re-emigración. Verdaderamente en especial algunos productos eran inmaduros. Esta situación fue semejante al caso de los gateways de LANs para sistemas IBM mayores; no había en los proveedores un buen conocimiento del sistema de teleproceso de los sistemas SNA.
Pero también es cierto que en muchos casos los problemas en la implementación han sido causados por los propios administradores.
Y quizás quedó la fama en las LANs de PC. Los sistemas se desarrollaron con bastante facilidad en ambientes Unix (generalmente bajo sistemas operativos Sun). Por otra parte Novell comenzó a ofrecer el soporte adecuado para el manejo de los sistemas de archivos. Pero aún así no se difundió demasiado.
Algunos usuarios optaron por una solución muy parcial como es el archivado, sistema con el cual la re-emigración es completamente manual, así como otras empresas tienen el HSM como opción integrada a productos de backup. Con el backup mantienen la protección de sus datos mientras que el HSM les mantiene los recursos de almacenamiento de la red. Mientras los datos respaldados pierden valor con el tiempo al ser sustituidos por otros más recientes, los datos migrados por el HSM representan un valor prácticamente constante pues se refieren siempre a la última versión de cada archivo, tal como lo muestra la siguiente figura:
Pero hoy en día muchos proveedores ya han hecho su experiencia ofreciendo productos confiables. Las tendencias actuales se refieren a la integración con los sistemas de archivos propios de los sistemas operativos, soporte de plataformas heterogéneas, integración con el backup, configuraciones escalables, y un mayor soporte en la administración del almacenamiento, vía SNMP.
12 - Dónde usar HSM
Las empresas que tengan bases de datos de gran tamaño y activas, no se beneficiarán mucho del HSM. Algo similar es válido para quienes trabajan con muchos archivos pequeños, especialmente si se los debe mantener agrupados en el mismo medio.
El HSM es ideal para toda empresa donde el tamaño del medio de almacenamiento, así como los archivos que lo llenan, toma un volumen importante, con las consiguientes complicaciones de tiempo de respuesta y administración principalmente. No por nada la mayor parte de las instalaciones HSM existentes lo son en ambientes de manejo de imágenes, preludio de lo que será con el manejo masivo de la multimedia.
También el HSM es una buena solución para una LAN con archivos de tamaño mediano de uso comercial donde los archivos envejecen casi sin volver a usarse.
13 - Niveles HSM
Las características más destacadas en que se diferencian los productos HSM son el número de niveles jerárquicos soportados, la configuración, métodos para interactuar con el sistema operativo, soporte a unidades ópticas y de cinta de terceros y, soporte o integración con el backup. Algunos productos incluyen compresión en los archivos migrados.
Un intento de clasificación fue realizado hace tiempo por la empresa Strategic Research, dando lugar a cinco niveles funcionales que por supuesto no tienen nada que ver con los niveles jerárquicos antes mencionados. Estos niveles son:
-
Nivel 1: Características bidireccionales, migración automática y recuperación transparente de archivos. Todos los productos HSM deben satisfacer al menos este nivel.
-
Nivel 2: Umbrales múltiples predefinidos que permite un balance dinámico de los medios de almacenamiento. Este nivel es adecuado para empresas que tienen requerimientos de disco muy variables, tales como los propios de una operatoria comercial, además de otro técnica o de ingeniería.
-
Nivel 3: Provee administración transparente de tres o más niveles de almacenamiento. Los umbrales entre niveles diferentes se balancean dinámicamente. Agrega administración de volúmenes y medios, incluyendo cola de tareas y optimización del rendimiento de los dispositivos. Es para empresas que trabajan con varios tipos de almacenamiento.
-
Nivel 4: Permite la clasificación de archivos, por ejemplo, por el tipo, tamaño, ubicación, o propiedad. Además, el administrador puede establecer diferentes reglas de migración para cada clasificación. Puede operar en plataformas diferentes.
-
Nivel 5: Organización basada en objetos, con registros estructurados y no estructurados, preservando las relaciones entre aquellos.
14 - Productos HSM
Entre los productos que corren bajo plataforma Unix tenemos HSM Extensión de OpenVision, Sparcus HSM de Hiarc, Epochserver de Epoch/EMC, Inspire Emissary/HSM de Alphatronix y MastarMind Axxes de Qstar. Todos corren en SunOS y algunos en Solaris. El producto de Qstar está presente también en el OpStar de Data General que corre en procesadores AViiON.
Entre los productos para NetWare podemos mencionar Inspire Migrator de Alphatronix, AvailHSM for NetWare de Wang, JETServe de Cheyenne.
Sobre plataformas Microsoft tenemos el OPEN/stor for Microsoft Windows NT de Wang, y el Storage Manager for NT de Seagate.
Windows NT 5.0 o Windows 2000 también incorporará novedades importantes respecto a sus capacidades de almacenamiento. Una de las más destacadas es la incorporación de tecnologías HSM. Como memoria virtual, NT utiliza el disco duro como si fuese memoria cuando se queda sin RAM. Con HSM, NT creará almacenamiento de disco virtual sobre discos secundarios, dispositivos de cinta, discos ópticos, y otros sistemas de almacenamiento con una baja relación precio por byte de almacenamiento.
Un caso típico de solución HSM para ambientes de imágenes es el provisto por Watermark Software. Se trata de un módulo HSM opcional para su producto Enterprise Image Server que trabaja bajo NT y SQL Server, como motor de base de datos).
Ascent Storage de Kofax, por su parte, es un administrador de almacenamiento óptico de alta performance para Win NT y Netware, especial para el manejo de imágenes.
Un producto bastante completo, de hecho de Nivel 5, es el ADSM de IBM que soporta una amplia variedad de formatos de cinta que incluyen 34xx y 3590, además de los más comunes de QIC, 4 y 8 mm, y DLT. Ofrece una premigración en caché para acelerar la migración propiamente dicha y además, si el medio local tiene poco espacio para una recuperación, puede leer directamente del almacenamiento secundario. Por otra parte, los procesos de transporte se hacen en forma comprimida para reducir los tiempos correspondientes.
A continuación se listan algunos productos HSM de actualidad en el mercado tanto para rango medio / alto, como PC LANs, indicando compañía, producto, plataformas que soportan y costo del mismo en ambos casos:
Plataformas UNIX / Midrange
COMPAÑIA | NOMBRE PRODUCTO | PLATAFORMA | PRECIO |
Acorn Software | HSManager [Web] | OpenVMS, Windows NT | N/D |
Adaptive Info | AdaptStor HSM | SunOS, Solaris, HP-UX, AIX, Win NT Systems | N/D |
Alphatronix | Inspire Migrator | Solaris, SunOS, NetWare | $6,000 |
Automated Network | METIOR TM | SunOS, Solaris Technologies[Web] | $3,000 -$100,000 |
Com Squared | UNISearch | UNIX | N/D |
CommVault Systems | Data Migrator | SunOS,HP-UX,AIX,Solaris | $5,000 |
Computer Associates | ARCserveIT Enterprise Edition Data Migration Option[Web] | Windows NT Server | N/D |
Computer Upgrade | ALSS/UX-HSM | SunOS,AIX,HP-UX | $2,000 |
Comtec | Emperor | SunOS, Solaris | $50,000-$300,000 |
Cray Research | Data Migration Facility | UNICOS | $30,000 |
Digital Equipment Corp.[Web] | PolyCenter HSM | OSF/1,Open VMS | $1,500-$95,000 |
Dorotech France | DoroStore | Solaris 2.5, IBM AIX 4.1, Bull AIX 4.1, HP-UX10, UNISYS OS1.3 | N/D |
EMASS | Data Manager | AIX, SVR4, SunOS, Solaris, HP-UX,IRIX | $500-$70,000 |
EMC Corp. (Epoch) | EpochMigration | SunOS | $750-$7,500 |
EMC Corp. (Epoch) | EpochServer | SunOS | $30,000 c/server |
Emigro | Emigro HSM | UNIX NFS, PC, MAC | N/D |
Entraspan | Interactive OrgChart | PC, MAC, UNIX | $250-$7,500 |
Fathom Technology | Fathom HSM | N/D | N/D |
FileTek | Storage Machine | SunOS, Solaris | $300,000-$700,000 (incluido storage server) |
Fujitsu America | DynaServe | Solaris | $190,000 (c/storage server) |
Hewlett-Packard [Web] | OmniStorage | SunOS, Solaris, HP-UX, IRIX, EP/IX | $16,000-$62,500 |
HIARC | Sparcus | SunOS,Solaris | $3,995-$18,995 |
HIARC | Hiarc HSM | SunOS,Solaris | $3,995-$20,995 |
IBM [Web] | DFSMS / MVS Optimizer [Web] | OS/2 | N/D |
IBM [Web] | FSF / 6000 [Web] | AIX | N/D |
IBM [Web] | Unitree for AIX / 6000 [Web] | AIX | N/D |
Innovation Data | Automatic Backup | MVS,VM, DOS/Windows, OS/2, NetWare, Vines | N/D |
Innovation Data | Processing Restore (ABR) [Web] | LANServer, LANManager, Windows NT | N/D |
Innovation Data | FDR Upstream [Web] | MVS, OS/2, Windows NT, NetWare, AIX ,Solaris, Vines, HP-UX | $7,200 |
Intelliguard Software | HSM from UniTree [Web] | Solaris, HP-UX, IRIX | N/D |
K-Par Systems | Archive Server System, The (ARCH) | AIX, OS/400, Solaris, SunOS | $2000 |
K-Par Systems | Archimedia | Unix, Windows NT | $2000 |
KOM,Inc. | OptiHSM! for NT | Windows NT | N/D |
KOM,Inc. | OptiHSM! for UNIX | UNIX | N/D |
Legato | NetWorker HSM [Web] | Solaris | $15,000 |
LSC, Inc. | Storage & Archive Manager File System - (SAM-FS) | Solaris | $3,000 |
LXI Corp. | Media Management System(MMS)[Web] | AS/400 | N/D |
LXI Corp. | LXItms (Tape Management System) [Web] | AS/400 | N/D |
LXI Corp. | Storage Archive and Retrieval System (STARS) [Web] | AS/400 | N/D |
LXI Corp. | LXIcms (Container Management System) [Web] | AS/400 | N/D |
MTI | OpenVMS: AutoStor [Web] | OpenVMS | $1,150 - $73,330 |
Performance Group | NetHSM | Solaris, IRIX | $3,000 |
Platinum Technology [Web] | NetArchive [Web] | HP9000 / 700/800, Solaris, SunOS, AIX | $5,000 |
Programmed Logic Corporation | DMAPI Module[Web] | All UNIX Operating Systems | N/D |
Qstar | MastarMind | SunOS, Solaris, SCO, Ultrix, AIX, HP-UX, DG/UX, IRIX, MLS | $300 - $255,000 |
Qstar | QStar HSM | Solaris, HP-UX, AIX, IRIX, NT | $700 - $25,000 |
Rorke Data | FLEXSTOR HSM | AIX,IRIX,Solaris,NT | $1,500 a $35,000 |
Software Partners /32 | Hierarchy | OpenVMS | $1,350-$35,000 |
Sterling Software | SAMS:Disk - Hierarchical Data Management System [Web] | MVS | N/D |
UniTree Software [Web] | UniTree Central File Manager (UCFM) [Web] | Digital UNIX, HP-UX, IRIX, SGI, Solaris | $5,000 - $400,000 |
Veritas | HSM [Web] | Sun,AIX,HP-UX,IRIX | $20,000 |
Veritas | HSM with Enterprise Extension[Web] | SunOS, Solaris, HP-UX | N/D |
Plataformas PC LANs
COMPAÑIA | NOMBRE PRODUCTO | PLATAFORMA | PRECIO |
Adaptive Info Systems | AdaptStor HSM | Windows NT, SunOS, Solaris, HP-UX, AIX | N/D |
Alphatronix | Inspire Migrator | NetWare, Solaris, SunOS | $6,000 |
Camino Software Systems | Highway Server | NetWare | $4,995 |
Computer Associates | ARCserveIT Server Enterprise Edition Data Migration Option[Web] | Windows NT | N/D |
Computer Associates | HSM for NetWare [Web] | NetWare | N/D |
Entraspan | Interactive OrgChart | PC, MAC, UNIX | $250-$7,500 |
Innovation Data Processing | FDR Upstream[Web] | MVS, OS/2, Windows NT, NetWare, AIX, Solaris, Vines, HP-UX | $7,200 |
Eastman Software | OPEN/stor | Windows NT 3.51 and 4.0 | $2,995 |
FileLink Corp | BAM! (Backup Archive Manager) | Windows NT | $1,500 |
Knozall Systems | FileWizard HSM | NetWare | N/D |
Legato | NetWorker for Netware [Web] | NetWare, DOS, Windows, NT, OS/2 | $750 |
Micro Design International | EZ Express | NetWare | $1,595-$4,595 |
Seagate Software | Storage Exec! for NetWare[Web] | NetWare, Windows, 95, NT, Mac, DOS | N/D |
Seagate Software | Storage Exec! for Windows NT [Web] | NetWare, Windows 95, NT, Mac, DOS | N/D |
15 - Conclusión
El almacenamiento de los datos en LANs corporativo y WANs está creciendo a un paso explosivo y a veces alarmante. Entre 1991 y 1995, se estima que una red de la computadora típica experimentó un aumento de tres veces el almacenamiento de los datos. La disminución dramática en los precios de almacenamiento del disco duro, y el crecimiento inaudito de redes y las nuevas aplicaciones como las multimedias, ha alimentado esta explosión más aun.
Esta proliferación del almacenamiento de los datos genera diversos problemas para el uso de los recursos la red y un desafío para los administradores del sistema. Estos deben encargarse de tener un plan racional de respaldo en cintas, las cuales son una garantía para los datos de uso diario. Estas cintas están obviamente fuera de línea, con lo cual sólo se las trae de ser necesario.
Estas cintas también se pueden usar casi en línea, como así también los nuevos dispositivos ópticos que existen en el mercado, tal como autocargadores y jukeboxes, cambiadores automáticos de cinta y discos ópticos respectivamente. Con éstos dispositivos que manejan medios más baratos que el magnético del disco duro se puede encontrar una solución interesante a los problemas de almacenamiento masivo.
Se puede desarrollar un sistema donde se optimiza el costo del medio por megabyte almacenado. Donde en función del tiempo sin utilizar los mismos, se vayan migrando del disco duro al óptico, para luego seguir la cinta si siguen inactivos por un tiempo mayor. Así como también en cualquier momento se puede volver a recuperarlos al disco duro.
El sistema de Administración de Almacenamiento Jerárquico, proporciona una distribución de recursos en forma efectiva en costo y, sobre todo, con una migración y recuperación automática y transparente de la información. Casi lo único que se necesita hacer es configurar los parámetros que determinan los umbrales en que se produzcan las migraciones de datos.
Siempre se debe tener en cuenta al momento de la implantación de un sistema HSM que debe convivir con producto de archivado y backup, lo cual es fundamental mantener un criterio homogéneo en la elección de productos y equipamiento.
Descargar
Enviado por: | Salvucci Domingo |
Idioma: | castellano |
País: | Argentina |