Bases de Datos

Datamining. Tranasacciones. DataWareHouse. Seguridad. Usuarios de Sistema Gestor de Base de Datos. Sistemas de Gestión de Bases de Datos

  • Enviado por: Carola
  • Idioma: castellano
  • País: Argentina Argentina
  • 13 páginas
publicidad

Transacciones

Definición: Es un conjunto de operaciones sobre una base de datos, donde la misma pasa de un estado consistente a otro consistente, sin conservar necesariamente la consistencia en las etapas intermedias.

Reglas de las transacciones (ACID):

A Atomicidad

C Consistencia

I Isolation (Aislamiento, impedir que se ejecute otra transacción, que se entrometa, o sea se produce el bloqueo del dato)

D Durabilidad

Puede existir (como en Sql7) un bit de transacción (para avisar que comienza) y puede terminar de manera exitosa (con un commit o confirmación para bajar a disco lo realizado) o puede terminar con error (y con una instrucción rollback para que se deshaga lo que se hizo)

Una transacción puede tener entorno: Monousuario

Multiusuario

Monousuario: si todo salió bien guarda físicamente los datos del log.

Multiusuario: hay acceso concurrente.

Fallas Tipo Local: falla en transacción corriente, en curso, overflow

Tipo Global: falla que afecta a todo el sistema.

  • Del sistema: caída blanda, sin daño

  • Del hardware: caída dura, catástrofe, daño grande.

  • Protocolo de escritura de Bitácora adelantada

    Protocolos:

  • Actualización en check point (punto de control): puede ocurrir por tiempo o por cantidad de entradas. Es rápido, se guarda todo lo hecho hasta el checkpoint.

  • Actualización diferida: en un check point sólo se guarda en disco las transacciones que terminaron con un commit, no hay rollback. Guarda solo las que tiene el commit.

  • En caída dura: toma último back up y compara con log (que debe estar en otro disco que el de la base)

    Problemas con las bases de datos distribuidas: cada sitio tiene su log, la transacción es distribuida.

    Generalmente el sitio que inició la transacción hace de coordinador, hay un log para cada sitio y un log distribuido.

    Se basa en un commit en 2 fases:

  • Coordinador entra transacciones a hacer y los sitios le mandan un OK, si hay uno que le falla el coordinador manda orden de rollback en fase 2.

  • Coordinador manda OK a cada uno de los sitios.

  • Concurrencia:

    Simultaneidad de una o varias operaciones.

    Problemas:

    1) Modificación perdida:

    En T1 (Tiempo 1), arranca TA (Transacción A), leen dato “X”

    En T2 (Tiempo 2), arranca TB (Transacción B), leen dato “X” datos = 100

    En T3 (Tiempo 3), modifica TA (Transacción A), dato “X” (aumenta el 100%) datos = 200

    En T4 (Tiempo 4), modifica TB, dato “X” (en base a lo que leyó en T2) (aumenta el 50%) 150 datos final.

    2)Dependencia no COMMITADA

    Permitir leer un dato sin esperar que una transacción que la estaba modificando haga su commit.

    3) Análisis consistente:

    TA (Transacción A): suma saldos

    TB (Transacción B): transfiere $10 de cuenta 1 a cuenta3

    CUENTA 1

    50

    CUENTA 2

    40

    CUENTA 3

    30

    TA CUENTA 1 = $50

    T1 SALDO = $50

    __________________________________

    TA CUENTA 2 = $40

    T2 SALDO 2 = $90

    __________________________________

    TB CUENTA 1 = $50

    T3 CUENTA 1 = $50 - $10

    CUENTA 1 = $40

    __________________________________

    TB CUENTA 3 = $30 + $10

    T4 CUENTA 3 = $40

    ___________________________________

    TA CUENTA 3 = $40

    T5 SALDO = $130 (EN REALIDAD ES $ 120)

    Para eliminar o disminuir estos 3 problemas se utilizan protocolos:

    a) Bloqueos

  • S compartido (para lecturas)

  • X exclusivo, este puede ser por páginas/ tabla/ registros

  • TB/ TA

    NO BLOQUEO

    S

    X

    NO BLOQUEO

    ACCEDE A OBJETO

    ACCEDE A OBJETO

    NO ACCEDE

    S

    ACCEDE A OBJETO

    ACCEDE A OBJETO

    NO ACCEDE

    X

    NO ACCEDE

    NO ACCEDE

    NO ACCEDE

    Problemas con los bloqueos exclusivos: puede haber un bloqueo mortal o deadlock.

    TA TB

    I J

    J I

    Recursos

    Políticas para terminar con el bloqueo mortal:

    • Matar los dos

    • Darles un tiempo de vida

    • Matar a la más vieja

    • Matar al azar

    Seguridad

    Seguridad: Que quien quiera hacer algo esté autorizado para hacerlo

    Integridad: que lo que haga sea correcto

    • Referencial

    • Constraints

    • Campo fecha (Ej. : no siglo pasado)

    • Triggers

    Cuestiones a tener en cuenta:

  • Aspectos legales, éticos, etc: que información puedo guardar y que información pueden ver los usuarios.

  • Política Interna: Por Ej.: no de dejo que todos vean lo que ganan todos

  • Controles físicos: Por Ej.: si se puede ingresar al centro de cómputos, y sacar un disco.

  • Política de contraseñas: bien documentado, Por Ej.: exigir el cambio de las mismas cada 30 días, o de una longitud mínima.

  • Seguridad del sistema operativo: es la primera barrera, pide el login.

  • Seguridad en acceso a Base de Datos

    Discrecional Grant

    Revoke

    Mandatorio u Obligatorio: (muy rígido)

    Libreo naranja: lo escribió el Dpto. de Defensa de EEUU, tiene normas y estándares de productos informáticos.

    El lavanda es el de base de datos.

    NADA

    BAJA

    MEDIA

    ALTA

    MAXIMO

    1

    2

    3

    4

    5

    Por ejemplo, el usuario 4 lee el nivel menor o igual al 4

    Usuario 4 escribe solamente nivel 4.

    Ventaja: seguridad, ya que si por ejemplo el usuario 4 modifica algo de menor nivel puede suceder que permita luego de su modificación el acceso a un usuario de menor nivel.

    AUDIT TRAIL

    • Login

    • Día / Hora

    • Lugar

    • ¿Escribió?

    • ¿Modifico?

    Para más seguridad se pueden encriptar los datos.

    • Permutación

    • Sustitución

    BACKUP

    Cuestiones a tener en cuenta:

    • ¿Dónde lo guardo?

    • ¿Cada cuánto?

    • ¿Qué tipo?

    • Probarlo

    Se tiene que cumplir, y verificar que se cumplan las normas. Se tiene que documentar todo y cumplir todo.

    CMM (proyecto, puntaje de 1 a 5)

    PLAN DE CONTINGENCIA

    Esquema de trabajo para superar extremos, de recuperación.

    Métrica, equivalente al CMM, pero Español.

    2 grandes etapas:

    1) Elaboración:

  • Determinar los problemas que me pueden afectar, teniendo en cuenta la probabilidad de que sucedan.

  • Escribir el plan.

  • Probar el plan (ver si es factible), hacer simulacros.

  • 2) Ejecución:

  • Puesta en marcha del plan

  • Retorno a la actividad normal, luego pruebo el original y una vez que me aseguro que funciona bien vuelvo a trabajar con el.

  • DATAWAREHOUSE

    “Un datawarehouse es un conjunto de datos integrados, orientados a una materia que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisión”

    • No son transitorios

    • No son volátiles

    • No se llevan a cabo modificaciones o eliminaciones, solo inserciones

    • Guarda datos sumarizados

    • Orientados a una materia

    Orientados a una materia:

    Organiza y orienta los datos en función del usuario final y sus temas de interés

    Ejemplo

    Ventas, Competencias, Internaciones

    Datos integrados

    Los datos provienen de diferentes fuentes

    La integración de datos se logra mediante la consistencia en la Convenciones de nombres, Unidades de medida y codificación

    Varían con el tiempo

    Mantiene tanto datos históricos como datos actuales

    La información histórica es de gran importancia, permite analizar tendencias

    • Software de consultas

    • Generadores de reportes

    • Data mining

    Metadatos: Representan toda la información de administración y seguimiento necesarios para:

    • Acceso a datos

    • Compresión y utilización

    Datamarts

    • Subconjuntos departamentales que focalizan objetos seleccionados

    • Se caracteriza por una definición de requerimientos más rápida y fácil

    • Pueden integrarse en un futuro en un DataWarehouse

    Data mining :“Extracción de información oculta y predecible de grandes bases de datos”

    • Predicción automatizada de tendencias y comportamientos

    • Descubrimiento automatizado de modelos previamamente desconocidos

    Modelo Conceptual de un datawarehouse

    Esquema de Hechos: El esquema de DataWarehouse consiste en un conjunto de esquemas de hechos. Componentes:

    Hechos: es un enfoque de interés para la empresa, Ej. : ventas, competencias, internaciones

    Dimensiones: determina la granularidad para la determinación de los hechos. Ej. : producto, fecha, almacén

    Jerarquías: La dimensiones se asocian con sus jerarquías y especifican distintos niveles de agrupamiento

    Hipercubo:

    Operaciones:

    Pivoting: se rota el cubo para ver una cara en particular. Por Ej. : analizar informaciones referidas a un proveedor.

    Slicing Dicing: se selecciona algún subconjunto del cubo. Analizar el cubo de datos restringiéndolo para algunos proveedores, productos y fechas

    Roll Up: se agrupa por alguna dimensión determinada. Por Ej. : Analizar las ventas de producto a las ventas por tipo de producto

    Drill Down: Operación inversa: muestra información detallada de cada agrupamiento. Por Ej. Analizar las ventas de tipo de producto a las ventas por producto

    Implementaciones relacionales

    Esquema estrella: Compuesto por una tabla central -tabla de hechos- y un conjunto de tablas mostradas en una forma radial alrededor de ésta -tablas dimensión

    Copo de nieve ó Pochoclo: Extensión del esquema estrella, donde cada una de las tablas del esquema se divide en más tablas -tablas más normalizadas-

    Ventajas

    Desventajas

    Más flexible a requerimientos

    Puede agrandarse y ser inmanejable

    Carga más rápida

    Puede degradar la performance

    Modelo Constelación

    Diseño conceptual de un DataWarehouse

    Metodología semi automática para construir un modelo lógico de un DataWarehouse a partir de un Modelo Entidad Interrelación

    Ejemplo de MER:

    Transformación de una relación en entidad

    Metodología :

    • Definir los hechos

    • Por cada hecho

    • Construir el árbol de atributos

    • Recortar e injertar el árbol

    • Definir dimensiones

    • Definir atributos de hecho

    • Definir jerarquias

    • Cada vértice corresponde a un atributo del esquema

    • La raíz corresponde al identificador de F

    Construir el árbol de atributos

    Dada una porción de interés del MER y una entidad F que pertenece a él, denominamos árbol de atributos al árbol que:

    Recortar e injertar el árbol

    No todos los atributos representados en el árbol pueden ser de interés.

    El árbol puede ser podado e injertado para eliminar detalles innecesarios

    Definir los hechos

    Los hechos son conceptos de interés primario para realizar procesos de toma de decisiones

    Un hecho puede ser representado en un MER mediante un entidad o una relación que

    representan archivos actualizables

    Definir dimensiones

    Las dimensiones determinan cómo las instancias de hechos pueden ser agregadas para el proceso de la toma de decisiones

    Deben ser elegidas entre los vértices del árbol, Ejemplo: Fecha, Producto, Almacén.

    Definir atributos de hecho

    Son cantidades del número de instancias de hecho o suma/ promedio /máximo /mínimo de expresiones que involucran atributos numéricos del árbol de atributos

    Definir jerarquías

    La jerarquías especifican distintos niveles de agrupamiento. El árbol ya muestra una organización jerárquica.

    DATAMINING

    • Es la extracción de Información oculta y predecible de grandes base de datos. Las herramientas de datamining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomas decisiones proactivas. El usuario trata de obtener una relación de los datos que tengan repercusiones en su negocio.

    Los fundamentos de Dataminig:

    • Recolección masiva de datos

    • Potentes computadoras con multiprocesadores

    • Algoritmos de datamining

    El Alcance de Dataminig

    • Predicción automatizada de tendencias y comportamientos.

    • Descubrimiento automatizado de modelos previamente desconocidos.

    Técnicas más comunes usadas en Dataminig

    • Redes neuronales artificiales

    • Árboles de decisión

    • Algoritmos Genéticos

    • Regla de inducción

    • ANOVA (análisis de la varianza)

    • Regresión

    • Ji cuadrado

    • Lógica Difusa

    • Series Temporales

    Cómo Trabaja Dataminig

    Las computadoras son cargadas con mucha información donde una respuesta es conocida y luego El soft de datamining debe correr a través de los datos y distinguir Las características de los datos que levarán al modelo. Una vez que El modelo se construyó, puede ser usado en situaciones similares donde no se conoce la respuesta.

    Introducción a OLAP

    Los sistemas de soporte a la decisión usando tecnología de DW, se llaman sistemas OLAP. Estos OLAP deben:

  • Soportar requerimientos complejos de análisis.

  • Analizar datos de diferentes perspectivas.

  • Soportar análisis complejos contra un volumen ingente de datos.


  • OLAP: La funcionalidad de los sistemas OLAP se caracteriza por ser un análisis multidimensional de datos corporativos, que soportan los análisis de usuario y unas posibilidades de navegación, seleccionando la información a obtener (drill Down, Roll up, etc)


    Arquitecturas para sistemas OLAP


    Existen dos tipos de arquitecturas:

    MOLAP : OLAP multidimensional

    ROLAP : OLAP relacional

    MOLAP:

    • La arquitectura MOLAP usa bases de datos multidimensionales para proporcionar el análisis.

    • Un sistema MOLAP usa una base de datos multidimensión, en la que la información se almacena multidimensionalmente, para ser visualizada multidimensionalmente

    • ROLAP

    • La arquitectura ROLAP cree que Las capacidades OLAP están perfectamente implantadas sobre BD relacionales.

    • Los usuarios finales ejecutan su análisis multidimensional a través Del motor ROLAP que transforma sus consultas a consultas de SQL. Estas consultas se ejecutan en BD relacionales y sus resultados se relacionan mediante tablas cruzadas y conjuntos multidimensionales para devolver los resultados a los usuarios

    ROLAP vs. MOLAP

    ROLAP

    MOLAP

    Muchas dimensiones

    Diez o menos dimensiones.

    Soportan análisis OLAP contra grandes volúmenes de datos

    Se comportan razonablemente en volúmenes de datos más reducidos ( menos de 5Gb)

    Herramienta flexible y general

    Solución particular con volúmenes de información y número de dimensiones más modestos

    WEBHOUSING


    Es tomar información proporcionada por Internet.

    Ventajas:

    • Consistencia

    • Accesibilidad

    • Disponibilidad

    • Bajos costos de desarrollo y mantenimiento.

    • Protección de datos




    Tipos de aplicaciones en las que se utilizan técnicas disponibles sobre DW

    ðSistemas de marketing

    ðAnálisis de riesgo financiero

    ðAnálisis de riesgo de créditos

    ðOtras áreas de aplicación


    Áreas de aplicación

    ðControl de gestión: Presupuestación, reporting y análisis de desviaciones.

    ðRRHH: Planificación de incorporaciones, gestión de carreras profesionales.

    ðLogística: previsión de la demanda en infraestructura, optimización de los niveles de producción, mejora de la relación con proveedores.

    Aspectos Técnicos en El proceso de creación y explotación de un DW


    ðSe pretende dar orientación al comprador para la preparación Del conjunto de especificaciones que definirán los requisitos que ha de cumplir la creación y explotación de un DW.

    ðAnálisis de las necesidades del comprador.

    ðFactores relevantes en el proceso de adquisición.

    ðDiseño Del pliego de prescripciones técnicas particulares.

    Análisis de Las necesidades del comprador

    ðDefinición de los objetivos.

    Se define el equipo de proyecto, alcance, funciones del DW, parámetros para evaluar el proyecto.

    ðDefinición de los requerimientos de Información.

    Entrevistas, se define estrategia y arquitectura de implementación del DW

    Factores relevantes en el proceso de Adquisición

    ðPruebas en condiciones reales.

    ðVolumen y organización de datos

    ðDimensionamiento de la plataforma de instalación

    ðCondiciones económicas y Del soporte

    Diseño Del pliego de prestaciones Técnicas

    ðEntorno Hardware:

    ðHost:(tipo máquina, sist.operativo y bd operacional)

    ðServidor de aplicación Del DW

    ðClientes:(memoria, tipo de máquina, etc.)

    ðRed local: (topología, protocolos, etc.)

    ðEntorno Software:

    ð

    Gestor de BD para El DW.

    ðVolumen estimado de la BD

    Página 11 de 13