Indización alfabética y sistemática

Análisis, representación y recuperación de información. Lenguajes de clasificación. Índices. Tesauro. Bases de datos

  • Enviado por: Cavatappy
  • Idioma: castellano
  • País: México México
  • 27 páginas
publicidad
publicidad

PARTE I

INDIZACIÓN

1.CONCEPTO DE INDIZACIÓN.

Fases de indización.

Búsqueda de información.

2. LA INDIZACIÓN.

Antecedentes.

Formulación teórica.

Objetivos y finalidad.

Dimensiones.

Indización alfabética y sistemática.

Etapas del proceso.

Niveles de indización: exhaustividad y especificidad.

3. INDIZACIÓN ALFABÉTICA.

  • Definición y objetivos

  • Signos entradas y formas de encabezamientos.

  • Principios de la indización alfabética.

  • Los índices.

  • Construcción y mantenimiento de los lenguajes de clasificación.

  • PARTE II

  • Tesauro.

  • Bases de Datos Deductivas e Inferencia lógica.

  • Modelo Entidad-Relación.

  • Modelo Relacional.

  • INDIZACIÓN

    1.CONCEPTO DE INDIZACIÓN.

    Se refiere a las funciones combinadas de recuperar y seleccionar información específica sobre los procesos con el fin de darla a conocer en forma amplia y que se logre, mediante ella, enriquecer el conocimiento sobre las experiencias que van produciendo los distintos procesos.

    Términos genéricos:

    • Procesamiento de datos

    • Información científica y técnica.

    Términos específicos:

    • Acceso a la información

    • Información científica y técnica

    • Diseminación de información

    Términos relacionados:

    • Almacenamiento de datos

    • Bases de datos

    • Monitoreo a los procesos

    • Sistemas de información.

    Fases de la Indización

    La indización profundiza en los aspectos teóricos relacionados con el análisis, representación y recuperación de la información.

    Analiza diferentes modelos aplicables tanto al análisis y representación de la información textual como a la organización de procesos.

    Estudia los procesos vinculados a la creación, gestión y evaluación de lenguajes documentales y su utilización en las unidades de información.

    Ayuda a conocer los principales modelos de recuperación de información.

    Comprende los procedimientos utilizados para la evaluación de los sistemas de recuperación de información.

    Con la indización se entiende y se valora las ventajas e inconvenientes de la utilización de vocabularios controlados para la organización y recuperación de información.

    Búsqueda de información.

    Procedimiento de trabajo para la catalogación de registros.

    El primer paso, antes de catalogar un registros, será comprobar si este existe ya en la base de datos, tanto por que esté duplicado, como por haber sido de alta desde el módulo de adquisiciones. En estos casos, haremos las modificaciones necesarias y daremos de alta las nuevas copias.

    Se realizará un nuevo registro en los casos siguientes:

    • Un nuevo archivo.

    • El mismo archivo, con revisiones o actualizaciones

    En el caso de reimpresiones que no suponen cambio alguno en el archivo, no se hará un nuevo registro, sino, que se efectuarán los siguientes cambios en el que ya teníamos.

    Aitchison y Gilchrist consideran a los términos de la lista como Términos Indizantes, tomando como base de definición de los mismos la proporcionada por la Norma ISO-2788: "un término indizante (index term), es la representación de un concepto". Puede consistir de más de una palabra, y entonces, se conoce como término compuesto. En un lenguaje controlado un Término Indizante puede ser bien un Término Preferente o bien, un Término No Preferente.

    Un Término Preferente es aquél que es utilizado consistentemente en la indexación para representar un concepto dado. Es conocido también como "Descriptor" o "palabra clave" (keyword).

    Un término no preferente es el Sinónimo o Cuasi-sinónimo de un término preferente. No es utilizado en la indexación, pero provee de una entrada alternativa desde la que el usuario puede acceder directamente por medio de la instrucción USE al término preferente apropiado. Este tipo de término es también conocido como no descriptor.

    De esta breve descripción de los elementos constituyentes de un Tesauro, destacamos a continuación tres conjuntos de entidades:

    a) Términos Descriptores.

    b) Términos No Descriptores.

    c) Notas Explicativas.

    Los conjuntos de entidades a) y b) representan a todos los términos Indizantes, que juntos conforman un subconjunto estructurado del lenguaje natural. El conjunto de las Notas Explicativas es de naturaleza débil, pues una Nota depende por existencia del un Término descriptor.

    Situación de los Lenguajes Documentales.

    Se ha aportado la idea de la introducción de un Modelo de Datos, el Modelo Entidad Relación en particular, como marco de referencia para la implementación de un Lenguaje Documental de Estructura Combinatoria, concretamente nos referimos a un Tesauro. El concepto de Modelo de Datos se refiere al grupo de herramientas conceptuales utilizadas para la descripción de la realidad de un sistema de información. Este grupo se compone de los datos, sus relaciones, su semántica y sus relaciones; instrumentos que utilizamos para el diseño de una Base de Datos a nivel lógico, dentro de la Arquitectura de Tres Niveles aceptada por la Norma ANSI/SPARC.

    Uno de los Modelos de Datos de mayor aceptación y posteriores desarrollos es el Modelo Entidad Relación, introducido por Chen a mediados de los años 70. Este modelo se basa en dos elementos fundamentales:

    a) Las Entidades o conjunto de objetos individuales que se distinguen unos de otros por medio de sus atributos y ..

    b) Las Relaciones o asociaciones que se establecen entre las entidades.

    2. LA INDIZACIÓN.

    ANTECEDENTES. Indización, literalmente proviene del termino en ingles `indexation', esto es, la elaboración de un índice basado en cualquier característica del conjunto de datos agrupados que tenemos, misma que puede ser alfabética, numérica, cronológica, etc.

    En lo que respecta a las bases de datos, la indización es la manera de agrupar los datos en las diferentes tablas, de modo que el acceso a las mismas, si es de modo secuencial, sea de la manera más rápida y eficiente posible, tomando como parámetro de agrupamiento y clasificación a la llave primaria.

    Indización, literalmente proviene del termino en ingles `indexation', esto es, la elaboración de un índice basado en cualquier característica del conjunto de datos agrupados que tenemos, misma que puede ser alfabética, numérica, cronológica, etc.

    En lo que respecta a las bases de datos, la indización es la manera de agrupar los datos en las diferentes tablas, de modo que el acceso a las mismas, si es de modo secuencial, sea de la manera más rápida y eficiente posible, tomando como parámetro de agrupamiento y clasificación a la llave primaria.

    Indización, literalmente proviene del termino en ingles `indexation', esto es, la elaboración de un índice basado en cualquier característica del conjunto de datos agrupados que tenemos, misma que puede ser alfabética, numérica, cronológica, etc.

    Indización, literalmente proviene del termino en ingles `indexation', esto es, la elaboración de un índice basado en cualquier característica del conjunto de datos agrupados que tenemos, misma que puede ser alfabética, numérica, cronológica, etc.

    Indización, literalmente proviene del termino en ingles `indexation', esto es, la elaboración de un índice basado en cualquier característica del conjunto de datos agrupados que tenemos, misma que puede ser alfabética, numérica, cronológica, etc.

    En lo que respecta a las bases de datos, la indización es la manera de agrupar los datos en las diferentes tablas, de modo que el acceso a las mismas, si es de modo secuencial, sea de la manera más rápida y eficiente posible, tomando como parámetro de agrupamiento y clasificación a la llave primaria.

    Indización, literalmente proviene del termino en ingles `indexation', esto es, la elaboración de un índice basado en cualquier característica del conjunto de datos agrupados que tenemos, misma que puede ser alfabética, numérica, cronológica, etc.

    En lo que respecta a las bases de datos, la indización es la manera de agrupar los datos en las diferentes tablas, de modo que el acceso a las mismas, si es de modo secuencial, sea de la manera más rápida y eficiente posible, tomando como parámetro de agrupamiento y clasificación a la llave primaria.

    Indización, literalmente proviene del termino en ingles `indexation', esto es, la elaboración de un índice basado en cualquier característica del conjunto de datos agrupados que tenemos, misma que puede ser alfabética, numérica, cronológica, etc.

    En lo que respecta a las bases de datos, la indización es la manera de agrupar los datos en las diferentes tablas, de modo que el acceso a las mismas, si es de modo secuencial, sea de la manera más rápida y eficiente posible, tomando como parámetro de agrupamiento y clasificación a la llave primaria.

    Indización, literalmente proviene del termino en ingles `indexation', esto es, la elaboración de un índice basado en cualquier característica del conjunto de datos agrupados que tenemos, misma que puede ser alfabética, numérica, cronológica, etc.

    En lo que respecta a las bases de datos, la indización es la manera de agrupar los datos en las diferentes tablas, de modo que el acceso a las mismas, si es de modo secuencial, sea de la manera más rápida y eficiente posible, tomando como parámetro de agrupamiento y clasificación a la llave primaria.

    Indización, literalmente proviene del termino en ingles `indexation', esto es, la elaboración de un índice basado en cualquier característica del conjunto de datos agrupados que tenemos, misma que puede ser alfabética, numérica, cronológica, etc.

    En lo que respecta a las bases de datos, la indización es la manera de agrupar los datos en las diferentes tablas, de modo que el acceso a las mismas, si es de modo secuencial, sea de la manera más rápida y eficiente posible, tomando como parámetro de agrupamiento y clasificación a la llave primaria.

    Indización, literalmente proviene del termino en ingles `indexation', esto es, la elaboración de un índice basado en cualquier característica del conjunto de datos agrupados que tenemos, misma que puede ser alfabética, numérica, cronológica, etc.

    En lo que respecta a las bases de datos, la indización es la manera de agrupar los datos en las diferentes tablas, de modo que el acceso a las mismas, si es de modo secuencial, sea de la manera más rápida y eficiente posible, tomando como parámetro de agrupamiento y clasificación a la llave primaria.

    Indización, literalmente proviene del termino en ingles `indexation', esto es, la elaboración de un índice basado en cualquier característica del conjunto de datos agrupados que tenemos, misma que puede ser alfabética, numérica, cronológica, etc.

    En lo que respecta a las bases de datos, la indización es la manera de agrupar los datos en las diferentes tablas, de modo que el acceso a las mismas, si es de modo secuencial, sea de la manera más rápida y eficiente posible, tomando como parámetro de agrupamiento y clasificación a la llave primaria.

    Indización, literalmente proviene del termino en ingles `indexation', esto es, la elaboración de un índice basado en cualquier característica del conjunto de datos agrupados que tenemos, misma que puede ser alfabética, numérica, cronológica, etc.

    En lo que respecta a las bases de datos, la indización es la manera de agrupar los datos en las diferentes tablas, de modo que el acceso a las mismas, si es de modo secuencial, sea de la manera más rápida y eficiente posible, tomando como parámetro de agrupamiento y clasificación a la llave primaria.

    FORMULACIÓN TEÓRICA.

    La organización secuencial indexada de archivos esta diseñada para superar las debilidades de las organizaciones secuencial y relativa. Los registros en un archivo secuencial indexado se guardan en unidades de almacenamiento de acceso directo, de acuerdo con el orden lógico de las claves primarias.

    Un archivo secuencial indexado se puede procesar, ya sea secuencialmente, como cualquier archivo secuencial, o aleatoriamente (a través del índice), especificando el valor de la clave primaria del registro objetivo. Esta organización de archivos es, por lo tanto, conveniente para aplicaciones en las cuales se necesitan, tanto el procesamiento por lotes, como el acceso directo a registros.

    Para establecer las trayectorias de datos para el acceso aleatorio en un archivo secuencial indizado, se crea una tabla de consulta llamada `directorio', o bien, `índice'. Las entradas del índice contienen solo algunas llaves representativas, es decir, no incluyen todas las llaves primarias de todos los registros. Cada entrada del directorio esta formada por la clave más grande en el bloque y la dirección del primer registro en el bloque.

    Un archivo de índices puede ser un archivo muy grande por sí solo. Las entradas en el índice se agrupan en bloques y se puede crear un índice de segundo nivel para proporcionar trayectorias de acceso al índice del primer nivel.

    Una analogía para explicar lo que es la estructura básica de un archivo secuencial indizado es un diccionario ordinario, ordenado alfabéticamente, como un archivo secuencial ordinario, excepto que la lista entera esta dividida en paginas. Para facilitar la búsqueda de una palabra (o registro), se crea una tabla de consulta, la cual registra la última palabra de cada pagina, así como el número de la misma. Al buscar una palabra, primero se ve esta tabla de consulta para buscar en que pagina debe estar la palabra objetivo. Una vez encontrada la pagina apropiada, se busca la palabra requerida analizando sucesivamente todas las palabras de la pagina. En este ejemplo, el diccionario corresponde a un archivo de datos, una pagina a un bloque y la lista de palabras en la esquina de todas las hojas, al índice.

    La organización secuencial indexada de archivos esta diseñada para superar las debilidades de las organizaciones secuencial y relativa. Los registros en un archivo secuencial indexado se guardan en unidades de almacenamiento de acceso directo, de acuerdo con el orden lógico de las claves primarias.

    Un archivo secuencial indexado se puede procesar, ya sea secuencialmente, como cualquier archivo secuencial, o aleatoriamente (a través del índice), especificando el valor de la clave primaria del registro objetivo. Esta organización de archivos es, por lo tanto, conveniente para aplicaciones en las cuales se necesitan, tanto el procesamiento por lotes, como el acceso directo a registros.

    Para establecer las trayectorias de datos para el acceso aleatorio en un archivo secuencial indizado, se crea una tabla de consulta llamada `directorio', o bien, `índice'. Las entradas del índice contienen solo algunas llaves representativas, es decir, no incluyen todas las llaves primarias de todos los registros. Cada entrada del directorio esta formada por la clave más grande en el bloque y la dirección del primer registro en el bloque.

    Un archivo de índices puede ser un archivo muy grande por sí solo. Las entradas en el índice se agrupan en bloques y se puede crear un índice de segundo nivel para proporcionar trayectorias de acceso al índice del primer nivel.

    Una analogía para explicar lo que es la estructura básica de un archivo secuencial indizado es un diccionario ordinario, ordenado alfabéticamente, como un archivo secuencial ordinario, excepto que la lista entera esta dividida en paginas. Para facilitar la búsqueda de una palabra (o registro), se crea una tabla de consulta, la cual registra la última palabra de cada pagina, así como el número de la misma. Al buscar una palabra, primero se ve esta tabla de consulta para buscar en que pagina debe estar la palabra objetivo. Una vez encontrada la pagina apropiada, se busca la palabra requerida analizando sucesivamente todas las palabras de la pagina. En este ejemplo, el diccionario corresponde a un archivo de datos, una pagina a un bloque y la lista de palabras en la esquina de todas las hojas, al índice.

    OBJETIVOS Y FINALIDAD.

    ORGANIZACIÓN DE LOS INDICES

    El índice es una tabla sobre la que se realizan operaciones de búsqueda. El problema está en que a menudo la tabla es muy extensa y nos preocupa el tiempo que necesitamos para examinarla.

    El campo que sirve para la búsqueda se llama argumento, y el campo que obtenemos como resultado se llama función. Con cada argumento puede haber varias funciones asociadas.

    FUNCIONES

    La salida, o función del índice de una base de datos adopta una de las siguientes formas:

    DIRECCION DE REGISTROS

    Es su forma más común, el índice provee la dirección de máquina del registro que se busca. A menudo se requieren varios niveles de índice para hallar la dirección del registro que interesa.

    DIRECCION DE REGISTRO RELATIVA

    El índice provee una dirección relativa más bien que la dirección absoluta. De ser así, será posible mudar bloques de registros sin necesidad de actualizar todas las entradas del índice. Está posibilidad aumenta a medida que se populariza el uso de la paginación en las jerarquías de almacenamiento.

    DIRECCION DE REGISTRO SIMBOLICA

    Cuando el índice provee las posiciones ocupadas por registros dados, el índice es de hecho una tabla de punteros. El uso de punteros simbólicos es relativamente frecuente en los índices secundarios, porque ellos permiten independizar la estructura índices secundarios, de la distribución física de los registros. Los índices secundarios resultan a menudo muy grandes y llevara mucho tiempo rehacerlos cada vez que se reorganiza el archivo. Los índices secundarios pueden ser las clave primarias del registro. El direccionamiento simbólico de los índices alarga el tiempo de respuesta, pero facilita en alto grado el mantenimiento de aquéllos.

    LOCALIZACION DE CUBOS

    Algunos índices no señalan registros, sino localidades en las que se alojan varios registros, esta localidad se llama cubo. Puede ser una pista, un intervalo de control en el VSAM, o un área de tamaño adecuado en cualquier técnica de indización.

    El termino resolución describe el numero de registros contenidos en cada cubo individualizado por el índice. Los índices que dan como funciones registros individuales se llaman índices resueltos por registros. Los índices resueltos por cubo dan direcciones de cubo. El índice resuelto por cubo es viable, solo cuando los registros que contienen el atributo a indizado pueden ser agrupados en cubos.

    DIRECCION DE CADENA

    Si el archivo está encadenado puede dar la dirección de la cabeza de la cadena, suele incluir el numero de eslabones de ésta.

    VALORES DE ATRIBUTO

    Algunos índices secundarios no dan direcciones, sino valores de atributo. Esto permite que muchas cuestiones que involucran claves secundarias pueden responderse sin ir a los registros de datos. El valor de atributo provisto por un índice secundario admite a veces la conversión en una dirección de registros de datos si es sometido a operaciones adicionales de indización. En algunos casos el índice consiste en tuples claves.

    SALIDAS MULTIPLES

    Cada entrada de índice primario provee un único puntero. En los índices secundarios, o en las guías relacionales, pueden proveerse muchos punteros por cada entrada. Esto puede referirse a registros, cubos o fragmentos de cadena. Puede ser a si mismo direcciones de maquina, direcciones relativas, direcciones simbólicas o valores de atributo. Cada entrada de una guía de relaciones puede proveer punteros múltiples a hijos u otros parientes.

    INDICES DE FUNCIONES MULTIPLES

    En algunos índices, cada argumento corresponde a varias funciones, todas las pertenecientes a un conjunto finito de funciones. Es entonces deseable reducir el espacio necesario para almacenar estas funciones. Hay dos maneras de almacenarlas.

    * Como sartas de valores

    • A modo de una matriz de bites.

    DIMENSIONES.

    INDICES SIMPLES

    La adición de un índice a tal archivo proporciona flexibilidad en la asignación de espacio, de manera que el archivo puede llenarse por incrementos o en forma dispersa. Los espacios usados por registros pueden identificarse mediante un marcador en el índice para proporcionar la capacidad de omitir, insertar actualizar registros.

    El espacio para los registros se toma de los bloques según sea necesario. El índice completo se defina previamente y se asigna al menos hasta el punto de que el mayor registro existente se incluya. Cuando no existen registros el valor de la notación del índice es NULL.

    El valor real del atributo o llave no aparece en el índice se encuentra mediante el calculo:

    dirección_del_indice = inicio_indice + (llave-1)*p

    Que es semejante al utilizado para acceso inmediato al registro sin índices.

    Las entradas del índice contienen solo algunas claves representativas, ya que no incluyen todas las llaves primarias de todos los registros. Un ejemplo: Un diccionario se organiza en orden alfabético, como un archivo secuencial ordinario, excepto que la lista entera esta dividida en páginas. Para facilitar la búsqueda de una palabra, se crea una tabla de consulta, la cual registra la ultima palabra de cada pagina así como el número de la misma.

    Un archivo de índices puede ser un archivo grande por sí solo. Las entradas del índice se agrupan en bloques y se puede crear un índice de segundo nivel para proporcionar trayectorias de acceso al índice del primer nivel. El método de acceso establece un índice cuando se crea un archivo secuencial indexado. Para el acceso aleatorio de un registro dada su clave, se busca el índice para encontrar la dirección del bloque en que se encuentra el registro.

    INDIZADO DE MEMORIAS DE ACUMULACIÒN

    La organización de índice mostrada antes también puede utilizarse para apoyar entornos más complejo. Ya que puede proporcionar facilidades para registros de longitud variable. También puede emplearse para almacenar conjuntos o MEMORIAS DE ACUMULACION de pequeños registros de longitud variable en la mayoría de los métodos de organización de archivos.

    INDIZACIÓN ALFABÉTICA Y SISTEMÁTICA.

    TIPOS DE ÌNDICES

    El campo clave_secundaria sobre la cual se crea un índice se llama clave inversa o clave indexada. Se dice entonces que el campo es inverso para la recuperación por clave secundaria. Cada entrada del índice valor clave consiste en un valor clave secundario y en un conjunto de señaladores a los registros de datos. Un señalador puede contener una dirección relativa, una dirección física o una clave principal de los registros objeto.

    Dirección Relativa: El campo señalador en el índice valor clave contiene direcciones relativas.

    Señalador simbólico: Es un identificador de registro, pero no una dirección de registro.

    ETAPAS DEL PROCESO.

    MANEJO DE INDICES

    Cada vez que se inserta, borra o actualiza un registro, las entradas afectadas de un índice deben ser modificadas por el sistema para que así el índice pueda proporcionar las trayectorias de datos correctas.

    • Inserción: Si se va a agregar al archivo el registro se debe de modificar el índice valor_clave para incorporar los valores insertados en los campos c00lave inversa.

    • Eliminación: Cada señalador dirigido a este registro se debe borrar, un registro eliminado se marca, pero no sele mueve físicamente barriendo en directorio.

    • Actualización

    • Establecimiento un índice: Una de las complicaciones en la implantación y mantenimiento de un índice inverso es que son variables. Pueden contener un solo señalador, en tanto que otras pueden tener gran cantidad de ellos. Un archivo índice por sí solo puede ser tan grande como uno de datos si involucra un alto grado de inversión. Por tanto, deben crearse índices para campos de datos que tengan posibilidad de uso en condiciones de búsqueda.

    Pueden crearse índices de tres o mas niveles si el segundo nivel se hace muy largo para ser analizado secuencialmente. Así, un índice grande puede disponerse en estructura de árbol para una búsqueda mas rápida. Dos tipos comunes de estructuras indexadas de varios niveles son : ARBOL BALANCEADO y EL ARBOL-B (balance tree, B-tree).

    Arbol balanceado/árbol-b

    El número de entradas en cada bloque se mantiene constante. La estructura de árbol-b fue diseñada como una mejora al árbol balanceado. No es necesario que cada bloque en un árbol-b contenga el mismo número de claves. Con excepción de la raíz en el nivel superior, el número de entradas por bloque en un árbol-b de orden n debe de estar en el siguiente rango:

    Cota inferior de ((N-1)/2)< = entradas por bloque > = N-1

    Los arboles B tienen la propiedad especial de que el número de apuntadores en un bloque de índices es igual al número de claves en el bloque mas 1.

    Una de las ventajas del árbol B sobre el árbol balanceado es que el árbol B es lo suficientemente flexible como para acomodar inserciones de claves nuevas.

    Indice de Pistas

    Cada cilindro tiene un índice de pistas para indicar la clave mas alta que se encuentra en cada pista de cilindro. La clave mas grande de cada pista se guarda en un índice de pistas. Cada entrada del índice consiste en un componente normal y uno de sobreflujo. Ambas contienen el mismo valor si es que no han ocurrido sobreflujos en la pista.

    Indice Principal y de Cilindro

    En una estructura de varios niveles de índices , el índice del cilindro esta en un nivel superior respecto al índice de pistas. Para cada índice de pistas hay una entrada en el índice del cilindro. Si los datos son almacenados en cilindros , habrá n índices de pistas y n entradas en el índice del cilindro. Cuando el archivo es muy grande, el índice del cilindro puede ocupar varias pistas. Para esto el ISAM (Método de acceso secuencial indexado) crea un INDICE PRINCIPAL o maestro además del índice del cilindro. El índice principal puede contener hasta tres niveles.

    ESTRUCTURAS MULTINIVEL DE ÌNDICES

    Las laves utilizadas para indicar registros pueden ser muy largas. Las llaves largas, cuando se conservan varios niveles de un ìndice, no solo provocan desperdicio de espacios, sino que reducen el número de anotaciones que pueden conservarse en el bloque del ìndice, por lo tanto aumenta el tiempo de procesamiento. Las partes de orden inferior pueden no ayudar para nada en el proceso de discriminación entre registros.

    Abreviatura externa de llaves

    Este método es semejante a una técnica de cálculo de dirección que conserve la secuencia pero también puede realizarse en forma manual. Se emplea un dígito de secuencia para asegurar su unicidad.

    Abreviatura interna de llaves

    Al procesar datos es necesario que se seleccione un registro en respuesta en una solicitud de recuperación A fin de beneficiarse de la abreviatura interna, el índice debe ser capaz de manejar llaves de longitud variable. Las marcas de registro necesarias para indicar las fronteras de llave y registro reducen el efecto de la abreviatura.

    Llaves de longitud variable

    Pueden incurrir de forma natural o debido a un algoritmo de abreviatura.

    Abreviatura de orden superior de Llaves

    Si a partir de un índice superior se sabe que todas las anotaciones de índice de un bloque se refiere a llaves dentro de cierto intervalo, los dígitos de orden superior serán idénticos y este segmento de orden superior puede eliminarse.

    Abreviatura de orden inferior de Llaves

    Los índices en que el atributo es una cadena potencialmente larga de caracteres, algunas veces limitan los campos a un número fijo de caracteres. Tiene la desventaja de que es necesario efectuar el acceso al archivo real de datos a fin de determinar si existe un registro inexistente, a través de un índice anclado por registro pero abreviado requerirá un acceso más.

    Claves repetitivas

    Puede existir más de un registro para una llave dada, puede resultar benéfico evitar volver a especificar la llave.

    Apuntadores de abreviatura

    El segmento del orden superior del apuntador en cualquier bloque puede acortarse en forma significativa, especialmente en el caso en que las anotaciones indizadas se utilicen para apuntar a un archivo secuencial en el orden del índice.

    Procesamiento en serie mediante índices

    Es necesario realizar la búsqueda binaria en el diseño de archivos indizados a los que pueda lograrse el acceso serial. Ya que el índice proporciona un ordenamiento para los registros dato, es posible encontrar apuntadores a registros sucesores mediante rastreo a través de un bloque índice en el nivel 1.

    Acceso en serie de un bloque de índice

    Es necesario un enlace más dentro de cada bloque si estos índices deben proporcionar un conjunto de TID en orden serial por valor de anotación.

    PARTE II

    1. DISEÑO LÓGICO-CONCEPTUAL DE TESAUROS.

    Los Modelos de Datos, grupo de herramientas conceptuales, utilizadas para representar a nivel abstracto un sistema de información reflejando en él tanto a las entidades del mismo como a las relaciones que se establecen entre ellas, resultan una interesante aportación dentro del campo del diseño lógico-conceptual de un lenguaje documental de estructura combinatoria o Tesauro.

    2. BASES DE DATOS DEDUCTIVAS E INFERENCIA LÓGICA.

    Una base de datos deductiva es una base de datos en la que podemos derivar información a partir de la que se encuentra almacenada explícitamente. Como elementos constitutivos de una Base de Datos Deductiva nos encontramos con los Hechos, Reglas de Inferencia y las Restricciones de Integridad.

    Los hechos representan la información que se almacena explícitamente; en el diseño e implementación de las reglas de inferencia se toma como base la lógica de primer orden y las restricciones de integridad son de la misma tipología que en el modelo anterior.

    La actuación de un conjunto de rutinas lógicas sobre los hechos llega a producir como resultado una información inferida que en un principio no aparece de forma explícita.

    Es ésta una característica muy a tener en cuenta, ya que así podemos deducir una serie de relaciones existentes entre los términos descriptores que almacenamos en un Tesauro soportado por una base de datos relacional pero que no aparecen reflejadas en una primera instancia.

    Sirva como ejemplo el caso de la siguiente relación, en la que se recogen los datos relativos al parentesco PADRE-HIJO. Hay que destacar que en la misma, no aparece información relativa a la ascendencia en un grado superior (como puede ser el caso del abuelo).

    A esta relación la denominaremos PADRE.

    Elegimos el Modelo Relacional como el más apropiado para el diseño de un Tesauro, e introducimos el concepto de Base de Datos Deductiva. Este tipo de Base de Datos es aquella de la que se puede derivar nueva información partiendo de la que está almacenada explícitamente. Por medio de la aplicación de una serie de reglas de inferencia, presentamos la posibilidad de extraer información diferente de la que se representa en forma de relaciones entre tuplas o entidades, además introducimos el conjunto de restricciones semánticas que un Tesauro debe de cumplir y modificamos el concepto estático propio del diseño relacional a un concepto de diseño dinámico orientado a las posibles actualizaciones del Tesauro verificando su integridad en todo instante.

    Podemos destacar que existe una cierta similitud estructural entre un Tesauro y un Modelo E-R. En un Tesauro, los términos descriptores son distinguibles y además, se establecen entre ellos una serie de relaciones de naturaleza semántica. Por ello, el Modelo de Datos E-R parece muy adecuado para el diseño de un Tesauro, debido a la gran facilidad que nos aporta para la representación de los conjuntos de entidades que participan en un Tesauro y de las distintas relaciones propias de sus términos.

    A la hora de la implementación y puesta al marcha de nuestro sistema, tomando como base el Modelo E-R anterior, utilizamos como herramienta el Modelo Relacional. La nueva vista de la realidad que proporciona este modelo, es el marco apropiado para la aplicación de una serie de reglas de inferencia lógica sobre los datos contenidos en el mismo. Así, generamos una Base de Datos Deductiva, que ofrece información adicional a la ya ofrecida explícitamente.

    3. EL MODELO ENTIDAD RELACIÓN. (MODELO E-R)

    Tal como se ha destacado anteriormente, los dos elementos fundamentales de este Modelo de Datos, se encuentran inmersos en su propio nombre: la Entidad o Conjunto de Entidades y la Relación o Conjunto de Relaciones.

    Una entidad se distingue de otra por medio de sus atributos, o características de la misma. Por propia definición, no pueden existir dos entidades iguales. El contenido o valor de los atributos se encuentra limitado por un determinado Rango.

    Una entidad se puede agrupar con otras del mismo tipo (es decir, que posean los mismos atributos, pero, evidentemente, con contenido diferente). Es decir, una entidad Persona, puede pertenecer al conjunto de entidades Ciudadanos. Una entidad puede pertenecer a varios conjuntos de entidades, o sea, la misma entidad Persona puede pertenecer al conjunto de entidades Clientes de una determinada empresa.

    Al conjunto de atributos que sirve para identificar una entidad de otra, se le conoce como Superclave, y a la superclave mínima (es decir, al mínimo conjunto de atributos válido para efectuar la distinción entre dos entidades), se le denomina Clave Primaria. La Clave Primaria de una entidad, es también la clave primaria del conjunto de entidades del mismo tipo.

    Cuando una entidad precise por razones de existencia, de la existencia previa de otra entidad de distinto tipo (es el típico caso de un apunte en una cuenta corriente: no puede existir el apunte si no existe la cuenta), podemos decir que la primera entidad es una entidad dependiente por existencia de la segunda. En este caso, la entidad dependiente se considera que es de naturaleza débil, frente a la otra que se considera de naturaleza fuerte.

    Una entidad débil, carece de clave primaria, por lo que para distinguirla de otra se hace necesario recurrir a la entidad fuerte de la cual depende.

    Un Modelo de Datos E-R puede trasladarse a un Modelo de Datos Relacional, donde la visión del sistema de información se realiza por medio de tablas (Relaciones). Para ello, se siguen una serie de reglas apropiadas al caso,

    4. MODELO RELACIONAL.

    La visión relacional de un determinado sistema de información se corresponde al almacenamiento en forma de tablas (o relaciones), de las distintas tuplas (filas de la relación), que se corresponden a las entidades del modelo E-R. En cada columna de la tabla se depositan los valores de los distintos atributos de las tuplas. El Modelo Relacional, es con mucho, el más en auge en la actualidad. El aumento considerable de los sistemas gestores de bases de datos relacionales hoy en día, no hace más que afirmar su gran valía como modelo de datos.

    Las tuplas se distinguen unas de otras por medio de su Clave Primaria, de igual definición que en el Modelo de Datos E-R. Toda tupla tiene clave primaria, por lo tanto, toda tupla es distinguible. Si en una relación aparece un atributo que es clave primaria en otra relación, se le denomina Clave Ajena. Es muy importante en este modelo todo lo referente a la integridad y consistencia del mismo. Por ello, se han introducido como norma general dos reglas de integridades o propiedades de tipo semántico que la base de datos debe cumplir:

    1. Integridad de Entidad: ningún valor de una clave primaria puede ser nulo.

    2. Integridad de Referencia: todo valor de una clave ajena debe ser distinto de nulo y además pertenecer al conjunto de valores de la relación donde dicha clave sea primaria.

    Estas dos reglas de integridad se ven complementadas por una serie de restricciones de integridad, que en cada modelo persiguen el objetivo de salvaguardar la consistencia y verificabilidad de los datos.

    Bibliografía.

    AITCHISON, J; GILCHRIST, A.Thesaurus Construction. A practical manual. Londres, Aslib, 1987.

    AMAT NOGUERA, N. Documentación Científica y Nuevas Tecnologías de la Información. Madrid,

    Pirámide, 1988.

    BORKO, H; BERNIER, C. Indexing Concepts and Methods.

    Nueva York: Academic Press, 1978.

    CHEN, P.P.S. "The Entity-Relationship Model-Towards a Unified View of Data". Nueva York. ACM.

    Trans. on Database Systems 1. Vol 1. No 1. Marzo 1976. pp 9-36.

    DATE C.J. Introducción a los sistemas de bases de datos. México, Adison Wesley Iberoamericana, 1986.

    MINKER, J. Foundations of Deductive Databases and Logic Programming. Los Altos, California. Morgan

    Kaufmann Publishers, Inc.

    Indización