Biblioteconomía y Documentación


Tesauros


TESAUROS

ÍNDICE

1 INTRODUCCIÓN 2

2 TESAUROS 3

2.1 DEFINICIÓN 3

2.2 RAZONES Y OBJETIVOS DE UN TESAURO 4

2.3 PASADO Y PRESENTE DE LOS TESAUROS 5

2.4 CARACTERÍSTICAS 7

2.5 ESTRUCTURA GENERAL DE UN TESAURO 8

2.6 TIPOS DE TESAUROS 13

2.7 PRESENTACIÓN DE UN TESAURO 14

2.8 DIRECTRICES PARA LA CONSTRUCCIÓN DE TESAUROS 15

3 ELABORACIÓN DE UN TESAURO 17

3.1 ELECCIÓN DE TEMA 17

3.2 RECOPILACIÓN DE LOS TÉRMINOS 17

3.3 NORMALIZACIÓN DEL VOCABULARIO O CONTROL TERMINOLÓGICO Y REDUCCIÓN DEL VOCABULARIO 18

3.4 ESTABLECIMIENTO DEL ESQUEMA Y LA ESTRUCTURA DE ORGANIZACIÓN DE LOS TÉRMINOS 19

3.5 REVISIÓN DEL TESAURO 20

3.6 PRESENTACIÓN Y EDICIÓN DE UN TESAURO 20

3.7 MANTENIMIENTO. 21

4 TESAURO AUTOGENERADO. 22

4.1 INTRODUCCIÓN. 22

4.2 DESCRIPCIÓN DE UN TESAURO AUTOGENERADO. 22

4.3 PASADO, PRESENTE DE LOS TESAURO AUTOGENERADOS. 23

4.4 EL FUTURO DE LOS TESAUROS AUTOGENERADOS. 24

4.5 TIPOS DE INDIZACIÓN AUTOMÁTICA 26

5 ELABORACIÓN DE UN TESAURO AUTOGENERADO 28

5.1 IDENTIFICACIÓN DEL VOCABULARIO 28

5.2 IDENTIFICACIÓN DE LAS RELACIONES 30

6 TESAUROS MANUALES Y TESAUROS AUTOMÁTICOS 32

6.1 VENTAJAS DE TESAUROS AUTOMÁTICOS. 32

6.2 INCONVENIENTES DE TESAUROS AUTOMÁTICOS. 33

1 INTRODUCCIÓN

Hasta ahora hemos hablado de la motivación para realizar este proyecto y la importancia de los tesauros como método para la organización y recuperación de la información, pero todavía no tenemos una definición formal de lo que es un tesauro. A continuación hablaremos de qué es un tesauro, su forma de construcción, elementos que lo componen junto con más información relevante para llegar a una buena comprensión del concepto.

2 TESAUROS

2.1 DEFINICIÓN

Se pueden definir según su función y según su estructura (Norma ISO 2788, 1986)

- Por su función, se puede definir como un instrumento de control terminológico  utilizado para trasponer a un lenguaje más estricto el idioma   natural empleado en los documentos y por los indizadores.

- Por su estructura, es un vocabulario controlado y dinámico de  términos que tienen entre ellos relaciones semánticas y genéricas y que se aplica a un dominio particular del conocimiento.

Otra definición dada por Alan Gilchrist y Jean Aitchison (“Thesaurus construction and use”, 1997) es:

Vocabulario de un lenguaje controlado de indización organizado formalmente, de manera que las relaciones entre los conceptos se establezcan a priori, para ser usadas en sistemas de recuperación de información.

Y por último otra definición, para que veamos que todas ellas se engloban dentro de términos parecidos.

Del conjunto de definiciones se desprende que un tesauro es un vocabulario controlado para representar de manera unívoca el contenido de los documentos y de las preguntas, así como ayudar al usuario en el tratamiento de la información.

A continuación se explicará la evolución de los tesauros para poder llegar a comprender toda su utilidad.

2.2 RAZONES Y OBJETIVOS DE UN TESAURO

A continuación vamos a comentar las principales razones que justifican la construcción y utilización de tesauros:

1. Crear un mapa del campo/conocimiento.

2. Crear un vocabulario controlado para dicho campo.

3. Asegurar que para un concepto sólo se utilizará un término, pero se contemplan los sinónimos.

4. Facilitar a los usuarios la localización de nuevos conceptos mediante las relaciones del sistema.

5. Poder restringir o ampliar los resultados de una búsqueda mediante las relaciones.

Estos principales objetivos son planteados por Foskett, en su artículo Thesaurus (1997). En definitiva, un tesauro es una herramienta que nos permite clasificar, organizar y recuperar la información en un área temática determinada.

2.3 PASADO Y PRESENTE DE LOS TESAUROS

Para llegar a comprender la utilidad e importancia de estos es parte fundamental e interesante recodar algunos hitos de su evolución.

En sus comienzos (Siglo XVIII) los desarrollos sobre la organización de la información habían estado subordinados a otros intereses como por ejemplo la ordenación de la bibliografía.

En 1852 se publicó por primera vez el conocido como tesauro literario de Rodget.

En 1876 Charles Ammi Cutter expuso varias teorías acerca del acceso temático de la información. Estas teorías se unieron a la introducción por parte de Cutter de una clase de lenguaje documental. Este hecho se considera como uno de los precursores más inmediatos de los lenguajes documentales, el tesauro.

A partir del siglo XIX es cuando se renueva la idea sobre la organización o lenguaje documental y se comienzan a realizar las primeras obras en torno a este nuevo concepto.

Durante el siglo XX, estos nuevos conceptos (los lenguajes documentales) que habían estado surgiendo a lo largo del siglo XIX se consolidan y desarrollan.

En 1948 fue cuando Bernier definió tesauro documental como “herramienta conceptual de relaciones entre términos de tipos postcoordinados”. En 1957 Bernier y Heumann propusieron el uso del tesauro para organizar el vocabulario en sistemas de recuperación de la información.

En este momento (los años 50) fue cuando se comenzó a tratar a los tesauros como herramientas documentales. Estas herramientas documentales fueron perfeccionándose con el paso del tiempo hasta llegar a ser un sistema de control terminológico.

Los primeros desarrollos prácticos enfocados a la “recuperación conceptual” se produjeron en los años 80. Estos desarrollos comenzaron en Estados Unidos y su finalidad era la gestión de la información de grandes instituciones de forma más automática. Ejemplo de estas instituciones fueron la API-CASI (American Petroleum Institute) la cual en 1982 comenzó el desarrollo que finalizaría en 1985 con éxito, Este ha sido considerado como el primer desarrollo de los sistemas automáticos de indización.

En España a grandes rasgos no existieron casi referencias a los tesauros hasta finales de la década de los 70. A partir de ese momento se consolidó su utilización y se empezaron a desarrollar en mayor cantidad.

2.4 CARACTERÍSTICAS

Un tesauro, en base a su definición, debe presentar las características siguientes (Curras, Emilia. Tesauros):

  • Ha de ser un lenguaje especializado.

  • Debe estar normalizado, lo cual se realiza en un proceso por lo que el tesauro ha de estar post-controlado.

  • Las distintas unidades lingüísticas que lo componen como consecuencia de tratarse de léxicos dedicados a un tema en concreto, adquieren la categoría de términos. Estos son convertidos en palabras clave en el sentido de que determinan el tema de que trata un documento.

  • Este conjunto de palabras clave que forman el lenguaje especializado se relacionan entre sí, bien sea con una estructura jerárquica, de manera asociativa, o bien por semejanzas de equivalencia que pudieran existir entre ellas.

  • Dichas relaciones se podrán realizar con métodos de precoordinación y/o métodos de postcoordinación.

  • Una característica que se deriva de la tercera condición es que los tesauros hacen referencia a lenguajes terminológicos, los cuales se emplean con fines documentalistas, y como consecuencia de esto se convierten en los lenguajes empleados en los procesos de indización o clasificación y en los procesos de recuperación de la información.

  • Otra característica no menos importante es que deben de ser dinámicos, lo que significa que deben poder permitir la introducción y supresión de términos con el fin de poder mantenerlo actualizado.

  • Han de servir para convertir el lenguaje natural en lenguaje normalizado, formal, apto para controlar la información contenida en el documento.

  • Por último y como punto importante, han de servir de nexo de unión entre el documento y el usuario, donde la figura del documentalista, es el eslabón fundamental.

2.5 ESTRUCTURA GENERAL DE UN TESAURO

Para comprender el funcionamiento de un tesauro vamos a realizar una explicación más a fondo de la estructura del mismo. Los elementos principales que lo componen son los términos y las relaciones entre ellos.

Los términos son los siguientes:

  • Unidades Lexicales:

Estas pueden ser de las siguientes categorías: grupo de descriptores, que agrupan los términos de indización bien por campos o por clases de términos o facetas.

  • Descriptores:

Son palabras o expresiones del lenguaje natural retenidas por el constructor del tesauro para designar los conceptos representativos del documento.

Los descriptores pueden estar compuestos por varias palabras. Si cada una de las palabras que conforma el descriptor se encuentra en el tesauro como un término compuesto se le denomina descriptor precoordinado. Normalmente se utilizan este tipo de descriptores cuando se utilizan solos con mucha frecuencia.

Si por el contrario los términos que componen a nuestro descriptor compuesto varían su significado utilizándolos como descriptores simples, la combinación se realiza en la indización y por lo tanto se denominarán postcoordinados.

  • No Descriptores:

Son sinónimos o cuasi-sinónimos de los descriptores o términos que designan en el lenguaje de uso conceptos afines a los que cubren los descriptores. Los no descriptores no pueden ser utilizados para la indización de documentos, pero cada uno de ellos se reenvía a otro descriptor para representar los conceptos correspondientes.

Las relaciones que hay entre los términos de un tesauro son:

  • Relaciones de equivalencia:

Una relación de equivalencia es la relación entre descriptores o términos preferidos y los no descriptores o términos no usados en la indización referentes a un mismo concepto. Esta relación cubre dos tipos de términos: los sinónimos y los cuasi-sinónimos.

Los sinónimos son términos cuyo significado puede considerarse igual, por lo que son intercambiables y tienen diferente origen lingüístico.

Los cuasi-sinónimos son términos cuyo significado es considerado diferente en el uso común, pero son tratados como sinónimos en la indización.

  • Relaciones jerárquicas:

Una relación jerárquica es la relación vertical entre todos los descriptores de una misma clase, expresada en términos de subordinación de los conceptos. Estas relaciones se utilizan durante la búsqueda para enriquecer la formulación de la pregunta, añadiendo a la búsqueda uno o más descriptores superiores o inferiores para concretar la más.

  • Relaciones asociativas :

Indican relación o uniones en el significado de los descriptores. Son relaciones simétricas entre dos descriptores, que son susceptibles de evocarse mutuamente por asociación de ideas. Las relaciones asociativas son las más difíciles de definir.

Otro componente que tiene el tesauro son las Notas de Alcance:

Se usan para limitar el uso de los descriptores, para escribir un posible sentido del término cuando éste tiene diferentes significados, pues es usado en diferentes disciplinas. No forma parte del descriptor, aunque aparezca en el tesauro.

Las notas de alcance deben ser:

  • Relevantes.

  • Bien formadas.

En definitiva, estas notas de alcance son anotaciones sobre los términos con el fin de aclarar y que el usuario no tenga dudas a la hora de seleccionar un término.

Las siglas empleadas para expresar estas relaciones son las siguientes:

Siglas (inglés)

Siglas

(español)

Significado

Descripción

SN

NA

Nota de alcance

No es ningún tipo de relación si no anotación útiles para la comprensión de los tesauros.

USE

USE

Término Preferido

Siglas utilizadas en la relación de equivalencia.

UF

UP

Término no preferido

Siglas utilizadas en la relación de equivalencia.

BT

TG

Término genérico

Estas siglas corresponden a las relaciones verticales o de jerarquía.

NT

TE

Término específico

Estas siglas corresponden a las relaciones verticales o de jerarquía.

RT

TR

Término relacionado

Por último esta sigla corresponde a la relación asociativa, y sólo existe una clase de siglas para este tipo ya que es simétrica.

Y por último vamos a poner unos ejemplos aclaratorios.

Esta es una representación gráfica de términos con sus relaciones del tesauro que utilizamos en nuestro proyecto.

A continuación pondremos un ejemplo de una nota de alcance:

AGALLAS

SN: 01Estructura resultante de la

SN: 02hipertrofia de tejidos vegetales causada

SN: 03por un insecto, donde se desarrollan sus

SN: 04larvas. Usar el término BRANQUIAS para

SN: 05referirse al órgano respiratorio de los

SN: 06peces, que recibe también el nombre de

SN: 07"agallas".

BT: ZOOLOGÍA

RT: INSECTA

RT: LARVAS

Vemos como esta nota de alcance aclara que este término no lo utilizamos para referirnos a branquias y en qué caso lo tendremos que utilizar.

2.6 TIPOS DE TESAUROS

En cuanto a los tipos de tesauros se pueden percibir desde dos enfoques:

    • Tesauro facetado.

Combina por un lado la clasificación facetada o sistemática, junto con un tesauro alfabético. Los documentos se agrupan por clases o por puntos de vista.

    • Tesauro por campos.

Son aquellos que agrupan los términos por temas o campos de información.

En cuanto a la estructura del tesauro, pueden darse origen a tres tipos de tesauros.

  • Tesauro lineal.

Este tipo de estructura de tesauro está compuesto por una serie de palabras sin conexiones entre ellas. Puede denominarse vocabulario simple.

  • Tesauro absorbente.

Este otro está construido en forma ramificada, así cada descriptor está asociado con un término genérico y otros descriptores ascendente o descendentemente.

  • Tesauro reticular.

El tesauro reticular está construido con descriptores entrecruzados en forma de red. Cada descriptor puede tener varios descriptores genéricos y específicos y la información generada será más completa.

2.7 PRESENTACIÓN DE UN TESAURO

En lo referido a la presentación del tesauro, o lo que es lo mismo a la manera de mostrar el tesauro final tenemos los siguientes tipos:

  • Presentación alfabética.

En este tipo de presentación los descriptores y no descriptores se encuentran en una misma secuencia alfabética, acompañados de sus relaciones.

  • Presentación sistemática o jerárquica.

Esta presentación consta de dos partes; una de ellas contiene las categorías o jerarquías y por otra parte tienen un índice alfabético.

  • Presentación gráfica.

En esta presentación los descriptores y no descriptores están dispuestos como una figura que permite al usuario asociar los términos que se encuentran relacionados, mostrando sobre todo las relaciones jerárquicas existentes entre los descriptores. Esta representación puede ser con árboles o con flechados.

  • Presentación permutada.

La presentación permutada alfabetiza los descriptores por cada una de las palabras que lo compone, apareciendo el descriptor tantas veces como número de palabras lo compone.

2.8 DIRECTRICES PARA LA CONSTRUCCIÓN DE TESAUROS

Las normas existentes para el diseño y construcción de un tesauro son esenciales y necesarias a la hora de elaborar uno en cualquier área del conocimiento.

Para los tesauros monolingües existen dos importantes normas internacionales:

  • La norma ANSI Z39.19:2005 y la correspondiente española la UNE 50-106-90. Proporciona reglas y recomendaciones para la normalización de los términos, definiendo sus tipos de relaciones como son la jerárquica, la asociativa y la de equivalencia.

También define sus tipos de presentaciones, la alfabética, jerárquica y la gráfica y el tratamiento de los términos, desde su verificación hasta su admisión o supresión.

  • UNE 50-125-1997, en la que vienen desarrolladas las directrices para el establecimiento y desarrollo de los tesauros multilingües, equivalente a ISO 5964:1985.

3 ELABORACIÓN DE UN TESAURO

Para el diseño y la elaboración de un tesauro se deben de seguir una serie de etapas establecidas. Éstas se encuentran plasmadas en la norma UNE 50-106-90 (Normativa para la construcción de un tesauro comentada anteriormente). Para la indización la norma a seguir es UNE 50-106-91. Además existen otras recomendaciones otorgadas por Aitchison en su manual práctico de Uso y construcción de tesauros. Con todo esto detallamos las fases a seguir.

3.1 ELECCIÓN DE TEMA

En el proceso de la construcción manual de un tesauro lo primero que se debe hacer es definir los límites o área temática en la que se va a desarrollar el tesauro. Una vez elegida la temática general y las periféricas, el dominio será dividido en subáreas.

3.2 RECOPILACIÓN DE LOS TÉRMINOS

En esta segunda fase del proceso nos debemos centrar en la recogida de los términos para nuestro tesauro. Para eso tenemos que plantearnos qué fuentes consultar, pudiendo ser por ejemplo enciclopedias, manuales, libros de texto, artículos o también otros tesauros. Estas fuentes se pueden dividir en tres grupos:

  • Fuentes Personales, especialistas en el dominio, por ejemplo.

  • Fuentes documentales, como artículos o libros relacionados con el tema.

  • Tesauros o instrumentos de representación del conocimiento en base al área en el que nos encontramos.

Aquí vemos como el proyecto empieza a coger cuerpo, ya que nosotros nos basamos en dos de las principales fuentes para desarrollar nuestro tesauro; por un lado un tesauro existente y por otro artículos relacionados en la materia.

Para la recopilación de esta información se pueden utilizar dos métodos distintos como son el deductivo o el inductivo.

  • Método deductivo. En este método, se construye el tesauro antes del inicio del análisis de los documentos.

  • Método inductivo. En este otro, los descriptores se determinan conforme se realiza el análisis de los documentos y no con un tesauro previamente construido como sucede con el método deductivo.

3.3 NORMALIZACIÓN DEL VOCABULARIO O CONTROL TERMINOLÓGICO Y REDUCCIÓN DEL VOCABULARIO

En esta fase, se identificaran los diferentes términos que designan un mismo concepto y se seleccionará de entre ellos cuál será el término preferido y cuáles se considerarán los no preferidos. También se comprobará que los futuros descriptores no tengan varios términos, evitando ambigüedades.

En este paso también tenemos que evitar los términos duplicados (eliminando los no necesarios) y el control gramatical de género y número.

En definitiva lo que se busca es fijar una terminología inequívoca. Con inequívoca nos referimos a que supere las sinonimias y polisemias, es decir, que estén controladas. También deberá eliminar los términos que se quedan fuera de nuestro alcance.

3.4 ESTABLECIMIENTO DEL ESQUEMA Y LA ESTRUCTURA DE ORGANIZACIÓN DE LOS TÉRMINOS

En este proceso se tendrá primero que marcar una organización esquemática para dividir o agrupar las categorías a través de criterios como son los temas o materias, tareas o funciones, etc.

Una vez completada la fase de la recopilación y normalización del vocabulario (términos ya recogidos), estos términos tienen que pasar a ser los descriptores y no descriptores del tesauro. Además se deberán añadir las notas de alcance.

Al haber concluido con los elementos del tesauro, se deberán establecer las relaciones semánticas entre los términos. Entre estas relaciones se encuentran las ya comentadas anteriormente: relaciones de equivalencia, jerárquica y asociativa.

3.5 REVISIÓN DEL TESAURO

Una vez definidos todos los elementos que componen a los tesauros como son, los términos y las relaciones, y antes de dar forma a todos estos elementos se deberán realizar pruebas para ver que nuestro tesauro es al mismo tiempo robusto, útil y correcto.

3.6 PRESENTACIÓN Y EDICIÓN DE UN TESAURO

Por último hay que elegir el tipo de presentación y más tarde realizar el paso final; la edición del tesauro.

Los términos que componen el tesauro junto con sus relaciones se pueden representar de distintas formas. Primero se elegirá la tipología del tesauro, que puede ser elegida de entre dos fundamentales; el facetado o por campos, y también su estructura entre lineal, absorbente o reticular.

Una vez completado este paso, lo que queda es la presentación del tesauro. Como anteriormente se ha explicado hay varios tipos de representación. Entre los más comunes se encuentran la presentación alfabética, la presentación jerárquica y por último la presentación gráfica.

Como complemento muy conveniente emerge la realización de un índice permutado. En este índice estarán todos los descriptores en orden alfabético tantas veces como términos compongan a estos descriptores.

Una vez realizados todos los pasos anteriores se procede a la construcción de la primera edición. Cuando el tesauro ya haya sido editado se podrán realizar recomposiciones, correcciones y ampliaciones según se desee.

3.7 MANTENIMIENTO.

Una vez que el tesauro ha sido diseñado e implementado para usarse en un sistema de recuperación, este deberá ser mantenido y actualizado para asegurar su validez y efectividad a lo largo del tiempo, es decir, que el tesauro deberá estar completamente al día de los cambios que se producen, en concreto de los términos que pasan a formar parte de nuestra área temática. Al ir añadiendo todos estos nuevos términos, la magnitud del tesauro va aumentando, ya que éste todavía conserva la información de los viejos documentos. Todo esto provoca que las actualizaciones sean lentas y la realización dé mucho trabajo para la revisión y modificación continua de este tesauro.

Con lo anteriormente expuesto, concluimos que una forma de enfocar la elaboración de los tesauros podría ser a través de una automatización de los mismos. Estos tesauros automáticos o autogenerados los explicaremos a continuación.

4 TESAURO AUTOGENERADO.

4.1 INTRODUCCIÓN.

A la vez que aumentaba la cantidad de información iba aumentando la necesidad de herramientas de control y recuperación de la información. Todo esto ha confirmado la necesidad de los procesos de indización automática de documentos debido a la palpable diferencia de tiempo entre un proceso automático y otro manual, por un lado, y al ahorro de costes por otro.

4.2 DESCRIPCIÓN DE UN TESAURO AUTOGENERADO.

Un tesauro autogenerable es el resultado de la automatización total o parcial del proceso de elaboración de un tesauro. Estos tesauros pueden poseer unas características especiales que son:

  • Monotemática: debe estar englobada en una determinada área temática (característica general de todos los tesauros).

  • Gestión de descriptores: realización de un control sobre los sinónimos, genéricos, específicos y relacionados de un descriptor, todo ello para que la información obtenida sea más completa.

  • Ha de tener capacidad de indización automática de texto libre a nivel morfológico, sintáctico y semántico.

  • Capacidad de actualización automática.

  • Capacidad de recuperación normalizada: las consultas de información que se realizan se modificarán con el fin de conseguir más información.

  • Capacidad de recuperación por aproximación temática: la búsqueda no se realizará sólo sobre el tema específico, sino que también abarcará los temas que estén relacionados.

4.3 PASADO, PRESENTE DE LOS TESAURO AUTOGENERADOS.

El comienzo en la automatización de la construcción de tesauros no surgió hasta los años 50, cuando se empezó a ensayar con distintos métodos para la creación semiautomática de tesauros.

Los primeros sistemas fueron detectores de sustantivos dentro de textos. Éstos solo eran eficientes en campos muy limitados. Ejemplos de los primeros sistemas fueron AIPIA, un método de indización que se utiliza todavía en nuestros días en ámbitos como la industria del aceite o el turismo.

También existen otros ejemplos como el sistema de información del API, ya comentado anteriormente, aplicado en empresas petroquímicas desde los años 70. Estos sistemas tenían todavía deficiencias. Un ejemplo de estas deficiencias es que las únicas relaciones que podía detectar eran las asociativas.

4.4 EL FUTURO DE LOS TESAUROS AUTOGENERADOS.

Las tendencias en los últimos años han ido cambiando, ya que se han producido grandes avances a nivel de hardware y en las tecnologías de clasificación. Todos estos avances están ayudando a que se realicen herramientas capaces de ayudar en la construcción automática. En definitiva, lo que se intenta es abaratar y facilitar su construcción. Estas tendencias se han traducido en las siguientes propuestas:

  • Mejora del estándar clásico (ISO 2788) sobre tesauros.

    • Inclusión de relaciones a documentos y relaciones circunstanciales localizadas en corpus concretos. Esta idea surgió en los trabajos de grupos de investigación alemanes liderados por H. Holger y S. Pepper.

    • Incluir como descriptores otros elementos distintos a los sustantivos, como adjetivos o verbos.

    • Aumento de la tipología de relaciones entre conceptos. Se propone un aumento de la variedad de tipos de relaciones para mejorar la recuperación.

  • Se complementa la estructura del tesauro con otros aspectos como la inclusión de vistas (facetas) diferentes que suponen la ampliación del tesauro.

  • Se trasladan los modelos propios de la Ingeniería del Software a las estructuras de recuperación mediante tesauros. Esto supondrá una ventaja en los dominios más complejos beneficiados por el alto nivel de abstracción que nos dan estos modelos.

  • Otra de las ramas por las que se está experimentando para el desarrollo de estos tesauros automáticos es la intervención de la Inteligencia Artificial.

  • La Inteligencia Artificial se utiliza para intentar conseguir una cierta aproximación a las capacidades tanto cognitiva como lingüística de los humanos. Los proyectos actuales de indización automática se caracterizan por la estrecha colaboración que se está desarrollando entre los sistemas de Inteligencia Artificial y la gestión digital de los documentos. Algunos ejemplos de programas de indización automática son los siguientes:

    • LEXIWARE de Lexiquest http://www.lexiquest.com. Mejorar los resultados mediante la adición de texto a los análisis de datos.

    • OINGO, de applied semantics http://appliedsemantics.com

    • SPIRIT, comercializado en un principio con Systex y luego por Sport Technologies SIG http://www.t-gid.com. Motor de búsqueda semántica, Difusión selectiva de información, Categorización automática.

    En definitiva se puede concluir que la solución no viene del desarrollo de sólo una de estas vías, si no de la unión e integración de varias de éstas.

    4.5 TIPOS DE INDIZACIÓN AUTOMÁTICA

    Vamos a describir los distintos procedimientos a través de los cuales se pueden realizar tesauros automáticos.

    Esta división se realiza en función de dos aspectos. La primera división se realiza sobre la forma de obtención de los términos y el grado de automatización del mismo:

    • Indización asistida por ordenador:

    La obtención de los términos se realiza intelectualmente, y el almacenamiento y mantenimiento se realiza a través de un soporte informático.

    • Indización semiautomática:

    El sistema informático es el encargado de la extracción de los conceptos pero los términos son propuestos por una persona.

    • Indización automática:

    El sistema informático realiza la extracción de los conceptos y valida su representación como descriptores o términos no preferidos.

    La otra división se rige según los sistemas de indización automática utilizados, que son los siguientes:

    • El primer método es la indización automática a partir de una colección de documentos.

    La idea es usar una colección de documentos como fuente para la construcción del tesauro. Se asume la idea de que los textos disponibles conforman una muestra muy completa del área elegida. Se deben aplicar procedimientos estadísticos para identificar los términos importantes así como sus relacionas más significativas. Hasta que sean descubiertos métodos más directos, los estadísticos continuarán siendo los más usados.

    • Construcción a partir de la mezcla de tesauros existentes.

    En este método, como ya hemos explicado, si existen dos tesauros del mismo área temática se pueden unir dando como resultado otro tesauro más completo.

    Un ejemplo de este método fue el aumento del tesauro MeSH (Medical Subject Headings) usando otro tesauro como era el MEDLINE.

    • Construcción a partir de los usuarios.

    La idea es utilizar los conocimientos de los usuarios. Estos métodos utilizan distintos tipos de operadores para concretar o generalizar la búsqueda. Estos operadores pueden ser OR, AND, etc. Entonces el sistema será capaz de capturar este conocimiento y utilizarlo para conformar un tesauro, por lo que este método requiere una considerable interacción con la población usuaria. Un ejemplo de ello es la base TEGEN, sistema de generación de un tesauro diseñado por Guntzer en 1988.

    5 ELABORACIÓN DE UN TESAURO AUTOGENERADO

    La elaboración de un tesauro autogenerado o automático es un proceso similar a la construcción de un tesauro. La única diferencia es que, de forma parcial o total, los pasos están automatizados.

    5.1 IDENTIFICACIÓN DEL VOCABULARIO

    En la primera parte de la elaboración de un tesauro autogenerado, el primer paso que hay que dar es la identificación del vocabulario, y lo más significativo en relación a este tema es lo siguiente:

    • Corpus Documentales.

    Estos corpus son conjuntos de documentos de determinadas áreas que sirven para hacer estudios lingüísticos. La mayoría de los sistemas para la creación automática de tesauros funcionan mejor cuanto mayor sea el corpus, o cuanto más restringido sea el área de estudio. Estos corpus documentales sirven para identificar el vocabulario característico del área. Los corpus léxicos o documentales más importantes son: BNC (British Nacional Corpus) en inglés y CREA en español.

    • Tokenizador.

    Una de las cuestiones que debe resolver un sistema de indización, independientemente de que su finalidad sea recuperar información o construir un tesauro, es saber qué unidades de información debemos guardar. Esta información se refiere a que constituye un registro o un término.

    • Normalización.

    La normalización o stemming es un proceso mediante el cual se pretende unificar en una única familia de palabras aquellos términos que están relacionados semánticamente. Para normalizar se sigue un proceso en el que se unifican bajo una forma normalizada las distintas variantes de términos flexionadas y derivadas.

    • Filtrado.

    El filtrado es un paso previo a la indización automática. Con esto se consiguen varios fines:

    - Reducir el tiempo dedicado a la indización, mediante la reducción del texto.

    - Control de los términos.

    • Los método tradicionales son el filtrado manual, normalización a mayúsculas y la supresión de espacios en descriptores coordinados.

    • Indización de la información.

    En principio, la indización automática siempre es por extracción, es decir, que los términos que se relacionan han sido extraídos de los documentos. Sin embargo, hay sistemas basados en tesauros en los que se han realizado desarrollos que permiten indizar con términos no presentes en los documentos. Esta indización se denomina por asignación.

    5.2 IDENTIFICACIÓN DE LAS RELACIONES

    Una vez obtenido el vocabulario, el siguiente paso es crear las relaciones entre términos basándose en dos tipos de herramientas; o bien la estadística o bien las herramientas de Procesamiento de Lenguaje Natural (PLN).

    • Estadística.

    Se basan en la pauta y el número de apariciones de un término o grupo de términos en los documentos de un corpus. Entre los desarrollos basados en los algoritmos estadísticos se encuentran los siguientes:

    - Uno de ellos son los de agrupación en clases (k-means por ejemplo). Éstos sólo resultan eficaces en términos concretos. Las relaciones que dan tienen una semántica pobre, del tipo “el término A está relacionado con el término B”.

    • PLN (Procesamiento del Lenguaje Natural).

    Existen tres grandes corrientes en las que la inclusión de formas verbales en la indización y construcción de los tesauros mediante la utilización de recursos lingüísticos y el uso del PLN:

    - Utilización de clasificaciones verbales, para mejorar la recuperación.

    - Identificación de estructuras verbales que indiquen a priori las relaciones clásicas de los tesauros; principalmente jerarquía, asociación, equivalencia.

    - Otra tendencia ha sido la utilización de los verbos para la desambiguación de los sustantivos. El objetivo es determinar el sentido correcto (en nuestro contexto) de aquellas palabras que tienen más de un significado mediante la utilización de los verbos.

    6 TESAUROS MANUALES Y TESAUROS AUTOMÁTICOS

    Una vez comprendidas las diferencias existentes entre ambos y bien definida la situación en la que nos encontramos, se va a contrastar directamente la utilización de unos respecto de los otros.

    6.1 VENTAJAS DE TESAUROS AUTOMÁTICOS.

    Existen incuestionables beneficios a la hora de elegir un sistema de construcción automático de tesauros frente a uno manual y son los siguientes:

    • Mayor actualización.

    Estos sistemas automáticos son mucho más rápidos a la hora de la introducción de términos y relaciones; son muy útiles en los ámbitos de rápida evolución.

    • Menor tiempo y menor coste de construcción.

    A la hora de construir un tesauro, todo el proceso lleva una gran cantidad de tiempo y cuesta mucho mantenerlo. Por otro lado los sistemas automáticos tienen un elevado coste de construcción pero una vez que están desarrollados la construcción de tesauros automáticos será muy sencilla.

    • Mejor reutilización del software.

    Una vez desarrollada una herramienta para la construcción de tesauros en un determinado área, reutilizarlos para otras áreas distintas será fácil y muy útil.

    • Mayor consenso.

    A la hora de introducir nuevos elementos en los tesauros, esta decisión se basará en sistemas estadísticos siempre objetivos y nunca estarán sustentados sobre distintas escuelas de pensamientos.

    • Buenas perspectivas de importación y exportación de resultados.

    Esto quiere decir que la difusión del tesauro será mucho más elevada y sencilla al encontrarse en formato electrónico.

    • Mejora de la indización y recuperación de documentos.

    Se facilita la acotación o expansión de las búsquedas a través de las relaciones jerárquicas del tesauro.


    6.2 INCONVENIENTES DE TESAUROS AUTOMÁTICOS.

    Las dificultades e inconvenientes a la hora de construir los tesauros automáticos son las siguientes:

    1. Problemas en la extracción del vocabulario y en la interrelación entre los elementos del tesauro. Estos problemas son los siguientes:

    • Problemas con la selección inicial del vocabulario

    Este problema se produce ya que no hay un sistema experto y la máquina no tiene la capacidad cognitiva que tienen los humanos. Esto se intenta paliar con métodos de análisis de texto eficaces sin que la máquina los comprenda.

    • Otro de los problemas es la discriminación de elementos.

    Uno de ellos es la discriminación de los términos que no sean propios del dominio. El segundo de ellos es la elección entre descriptores y términos no preferidos. A través de la estadística se intenta la realización de esta elección pero no son 100% fiables.

    • Problema de la normalización de los elementos del tesauro.

    Una vez elegido el vocabulario de nuestro tesauro hay que normalizar los términos. Estos términos deberán aparecer en el tesauro en su forma canónica. Debido a que en los textos no suelen aparecer en esta forma se utiliza herramientas de ayuda como los stemmers. En este momento la fiabilidad de estos stemmers todavía no es del cien por cien.

    2. Problemas a la hora de relacionar los distintos descriptores.

    • Introducción de términos (en las jerarquías) que no se encuentran en el vocabulario.

    En un sistema automático es muy difícil lograr una abstracción tal, que si tenemos los términos “zapato”, “bota” y “sandalia” sepa que es conveniente añadir el descriptor calzado, jerárquicamente superior a los anteriores.

    • Dificultad a la hora de establecer ciertas relaciones.

    En un texto las relaciones obvias como que un Seat es un coche o que Edding es un rotulador no suelen aparecer y los sistemas automáticos no son capaces de asociarlos.

    • Otro de los problemas con las relaciones en palabras polisémicas.

    Otros problemas se pueden dar a la hora de tratar con palabras polisémicas, en concreto a la hora de establecer relaciones. Por ejemplo un “pez” está relacionado con un “banco de peces” y un “banco” con una “cuenta corriente” entonces relacionará “pez con cuenta corriente”.

    25

    RT

    USE

    UF

    RT

    NT

    NT

    NT

    BT

    BT

    INSECTOS ÚTILES

    ABEJAS

    ABEJA REINA

    APICULTURA

    COLMENA

    ABEJA AFRICANIZADA

    BT

    INSECTA

    Insecto

    NT

    BT

    NT




    Descargar
    Enviado por:Ana
    Idioma: castellano
    País: España

    Te va a interesar