Interconexión de Redes

Internet. Comunicaciones. Modelo de Comunicación. Servicios de Referencia. Sistema Adaptado. Automatización de Bibliotecas

  • Enviado por: Gema Trigueros
  • Idioma: castellano
  • País: España España
  • 26 páginas
publicidad
cursos destacados
Desarrollo Web Profesional
Desarrollo Web Profesional
Conviértete en un profesional en el desarrollo web y aplica las técnicas que se ocupan en la vida del...
Ver más información

El uso de una Consola o Terminal Segura con SSH
El uso de una Consola o Terminal Segura con SSH
Aprenda el uso del protocolo SSH de manera básica y sencilla al establecer una conexión por terminal...
Ver más información

publicidad

INTERNET Y LA INTERCONEXIÓN DE SISTEMAS Y REDES.

20/02/2001

Hitos en la Automatización de Bibliotecas.

1969- Nace Arpanet en el ámbito militar.

1970- OCLC

1973- El MARC se convierte en norma internacional.

1974- El Pentágono adopta los protocolos Internet.

1981- La OCLC cambia su nombre por el de Online Computer Library Center, y la Library o congress deja de añadir entradas en el catalogo manual.

1986- aparecen los CD-ROMS en las bibliotecas.

1990- la Library of Congress emprende el proyecto American Memory para hacer accesibles los materiales audiovisuales a 44 ordenadores del país.

1994- La LC emprende el proyecto de Biblioteca nacional digital.

1997- La Comisión Federal de Comunicaciones reduce las tarifas telefónicas para las comunicaciones en línea de bibliotecas, escuelas y hospitales.

De toda esta enumeración podemos extraer dos palabras claves:

  • AUTOMATIZACIÓN: que comenzó en los años 60.

  • INTERCONEXIÓN

El entorno tecnológico: Evolución.

CENTRALIZADO 60's

LOCAL (70's-80's)

DISTRIBUIDO (fin80's-90's)

Sistemas centrales compartidos.

Sistema Integrado de Gestión Bibliotecaria (SIGB)

CD-ROM

Biblioteca Virtual

Redes Dedicadas

(punto a punto)

Redes Fragmentadas

(dedicadas, LAN)

Interconexión

(cable, Internet)

Protocolos propios

X.25-TCP/IP

LAN

TCP/IP

?Futuro

Modelo Centralizado:

En los años 60, los ordenadores eran muy grandes y lentos, la información se metía mediante fichas perforadas, tenían una única salida con una impresora.

En estos años sólo existía un ordenador por que los ministerios, las redes eran centralizadas al ordenador central, y los protocolos no estaban desarrollados.

Los protocolos son normas para la transferencia de datos.

Modelo Local:

Aparecen los SIGB y los CD-ROM, las redes fragmentadas:

LAN Local Area Net.

Los protocolos ya se comienzan a generalizar, nacen los primeros OSI en el área de las bibliotecas, tienen que pasar por muchos comités para su aprobación, frente a los TCP, cuya aprobación pasaba por una prueba de funcionamiento, y si funcionaban se procedía a su uso.

Un Sistema Integrado de Gestión Bibliotecaria es un conjunto de programas informáticos que controlan todas las actividades de una biblioteca, se basan en una base de datos común para todos los módulos (préstamos, catalogación, etc.)

Modelo Distribuido:

En este modelo existe la interconexión, es decir, desde un terminal podemos acceder a todos los servicios de una biblioteca.

TIPOLOGÍA DEL ENTORNO TECNOLÓGICO

CENTRALIZADO

LOCAL

DISTRIBUIDO

Acceso desde el terminal al host

Acceso desde el terminal a múltiples sistemas.

De aplicación a aplicación

Terminales tontos dedicados

Emulación/ paquetes de comunicaciones

Cliente/Servidor Z39.50

Offline

Carga y descarga, etc.

Intercambio de datos entre aplicaciones

Ordenador. (No había ni sistemas ni redes)

Sistemas (los ordenadores ya estaban unidos)

Servicios

Modelo Local.

Antes se necesitaban diferentes soportes para las distintas actividades, ahora un único software en un único ordenador que es el que gestiona todas las actividades.

Modelo Distribuido.

Tiene un arquitectura Cliente/Servidor, el cliente sería el ordenador que quiere acceder a otro para extraer la información que necesita, para que la transferencia se realice correctamente, se necesitan una serie de normas que rijan la comunicación.

Software: Cliente - Navegador .

Servidor - Servidor Web.

E-mail: Cliente - agente de correo.

Servidor - servidor de e-mail.

FTP: Programa de transferencia de ficheros, hay diferentes para clientes y servidor.

TELNET: Conexiones cliente/servidor para trabajar como si fuesen un terminal del propio ordenador.

SERVICIO DEL ENTORNO TECNOLÓGICO

Etapas

Centralizado

Local

Distribuido

Actividades

Catalogación

Gestión de la Colección

Gestión de la información

Servicios de acceso público

Ninguno

Acceso limitado a Opac's y servicios de información no integrados.

Sistemas de búsqueda y recuperación integrados.

¿Qué es automatizar una biblioteca?

  • Automatizar los procesos técnicos.

    • Adquisiciones.

    • Catalogación

    • Suscripciones.

  • Automatizar los servicios.

    • El servicio de referencia.

    • El servicio de préstamo.

    • El servicios de préstamo interbibliotecario

    • Servicio de información diversa.

  • Conectarse con el exterior: redes, Internet.

  • Internet y las bibliotecas:

    • Internet en algunos años ha modificado totalmente el paisaje de la automatización de las bibliotecas.

    • Es imposible llevar a cabo 1 proyecto de automatización sin tener en cuenta este nuevo paradigma.

    • Sobre todo, en el dominio académico y científico pero cada vez más extendido a todo tipo de bibliotecas.

    ¿Cómo afecta internet a las bibliotecas?

  • Biblioteca como usuario de internet.

  • Biblioteca como proveedor de información en la red.

  • La biblioteca como proveedores de acceso a internet a los usuarios.

  • Bibliotecas como usuarias de internet:

    • Internet no representa sólo 1 instrumento de trabajo para las bibliotecas sino que había profundizado en los procedimientos y el carácter tradicional de los trabajos técnicos que en ellos se realizan.

    • Los servicios técnicos están cambiando al mismo tiempo que se incrementa la automatización y la comunicación electrónica.

    Internet ha repercutido también en las bibliotecas. Una palabra clave sería el crecimiento de la información electrónica, que ha afectado notablemente en varios aspectos de la gestión bibliotecaria como son:

    • Adquisiciones

    • Acceso al documento

    • Catalogación

    • Formación y comunicación profesional

    • Servicios de referencia.

    Adquisiciones; situación actual:

    Se caracteriza por la explosión en el número de materiales publicados y por el crecimiento de los costes de adquisición tanto de monografías como de revistas científicas, y erosionan el papel de las bibliotecas en tanto que creadoras y mantenedoras de colecciones autosuficientes a disposición de sus usuarios.

    Hay restricciones presupuestarias que afectan directamente a las posibilidades de los departamentos de adquisiciones, y en los que los pagos en moneda extranjera se han exacerbado como consecuencia de la revalorización del dólar.

    Todo esto se ha traducido en cambios en la gestión de las bibliotecas:

    • Cambios en la gestión para maximizar sus propios presupuestos.

    • El debate en torno al “acceso” frente a la “posesión”.

    • El impacto de las tecnologías digitales:

    + Gestión de las publicaciones seriadas.

    + Problemas en la selección, compra, acceso y conservación.

    • Existencia de un mercado de información desestructurado.

    Adquisiciones; futuro.

    Con el desarrollo de las herramientas existentes en Internet, el acceso al world wide web y las posibilidades multimedia la biblioteca debe facilitar el acceso a las colecciones independientemente del formato en el que estén editados y donde estén localizados.

    Organización cooperativa de las colecciones compuestas por documentos en múltiples formatos; editados, manuscritos, textuales, digitales, organizados en torno a un tema, un autor o una determinada disciplina.

    Adquisiciones; evolución.

    Clásico:

    • Basado en materiales impresos.

    • Colecciones globales.

    • Biblioteca como archivo.

    Modernizado:

    • Basado en materiales impresos.

    • Colecciones bajo demanda.

    • Compartición de recursos.

    • Acceso vs. propiedad.

    Emergente:

    • Redes de datos.

    • Comunicación interactiva de investigaciones.

    • Información como resultado.

    A veces el lector accede directamente a los recursos informativos sin intermediarios.

    Adquisiciones; futuro.

    • Conversión retrospectiva de texto completo.

    • Nueva forma de gestionar los presupuestos para el acceso en línea a la información; entre instituciones, entre bibliotecas y editores y autores.

    • Los departamentos de selección, catalogación y referencia se unirán (todos trabajan sobre un mismo material)

    • Desaparece el sentido de propiedad.

    • El usuario es, en última instancia el que selecciona.

    Internet como herramienta en el servicio de adquisiciones:

    • Comprobar datos de libros en la propia editorial.

    • Pedidos electrónicos.

    • Pagos electrónicos.

    • Adquisiciones cooperativas o más racionales según el entorno.

    • Ejemplo: Acqweb: sede que recoge cientos de enlaces a editores y librerías. (http://www.library.vanderbilt.edu/law/acqs/pubr.html)

    El cualquier método o conjunto de métodos para pedir y recibir copias completas de documentos originales, el objetivo es unir a usuarios e información, que necesitan de la forma más rápida y al mejor coste.

    El crecimiento exponencial de la información ha creado una amplia demanda de documentos y una verdadera industria de servicios de acceso.

    Los mejores son los que cuentan con:

    • Tecnología innovadora. (Ariel)

    • Acceso conveniente y respuesta rápida (hay una industria que da acceso al documento. OCDC, etc. Que compiten con los servicios tradicionales.

    Acceso al documento: servicios en Internet.

    • La demanda al documento primario está gestionada por muchos y diferentes tipos de industria: empresas, organizaciones de investigación e instituciones educativas.

    • Crecimiento de bases de datos bibliográficas en línea (Internet), Cd-Rom, etc que permiten el acceso a miles de referencias.

    • Las empresas comerciales en línea centran sus esfuerzos en enviar fotocopias de documentos vía fax y/o correo electrónico.

    Acceso al documento: Recursos gratuitos en Internet.

    • Se observa gran variedad, desde los más tradicionales a los generados por la propia red.

    • Documentos tradicionales como libros, revistas, periódicos, documentos administrativas, etc. Han pasado de forma impresa a forma electrónico.

    • Proyecto Gutenberg: Pasa libros a formato electrónico y disponibles en Internet.

    • Información y actas de congresos…

    • Periódicos:

    • en papel y formato electrónico; El País, El Mundo.

    • Sólo en formato electrónico; La Estrella Digital.

    Acceso al documento: distintas posibilidades.

  • La biblioteca como intermediaria entre el usuario y el proveedor.

  • El usuario se conecta directamente al servicio de acceso al documento y desaparece la biblioteca como intermediaria.

  • (The Colorado Association of Research Libraries CARL, ofrece UnCover, que se trata de un sistema en línea que envía documentos vía fax o correo electrónico.

  • El usuario puede leer directamente en la red.

  • Catalogación e Internet.

    • Instrumentos de apoyo a la catalogación:

    • Como fuente de información

    • Catalogación por copia

    • Consulta de catálogos Z39.50.

    • Cambio de estructura en el catálogo:

    • Catalogación de documentos en las redes.

    • Metadatos.

    Formación y comunicación profesional:

    • Grupos de discusión:

    • Medio de comunicación entre profesionales.

    • Resolver problemas.

    • Estar al día.

    • Revistas electrónicas profesionales.

    • Asociaciones de bibliotecas.

    • Instituciones normalizadoras.

    • Automatización.

    • Conexión a centros nacionales de información y a recursos especializados.

    Servicios de referencia e Internet.

    • Información actualizada en línea.

    • Bibliografías.

    • Catálogos.

    • Diccionarios.

    • Enciclopedias.

    • Directorios.

    • Actividades culturales.

    • Información de bolsa.

    • Información de organismos estatales.

    • Traductores

    • Geográfica

    • Etc.

    La clasificación de recursos informativos sobre bibliotecas en la Red.

    • Por cobertura:

    • Directorios generales.

    • Directorios específicos sobre un tema.

    • Sedes particulares.

    • Por tipo de servicios en Internet.

    • Correo electrónico.

    • Listas de discusión.

    • FTP.

    • Telnet.

    • Sedes Web

    • Por servicios bibliotecarios.

    • Adquisiciones. Publicaciones seriadas. Desarrollo de la colección.

    • Automatización.

    • Catalogación.

    • Sección infantil/juvenil.

    • Circulación, reserva, préstamo interbibliotecario, etc.

    • Referencia

    • Formación, etc.

    Para empezar dos buenas direcciones:

    • TANG SHA, Vianne. Internet Library for Librarians. www.itcompany.com/inforetriever

    • MERLO VEGA J.A. Y SORLI ROJO, A. Biblioteconomía y Documentación en Internet. Madrid: CINDOC, 1997. Contiene un disquete con bookmarks.

    Automatización de bibliotecas: evolución histórica.

    Las características de los ordenadores y las razones de su uso son su capacidad, su velocidad y su flexibilidad y precisión. (se puede completar con el libro de la bibliografía de Reynolds).

    Estas características ha ido cambiando y evolucionando.

    Los factores que han influido de manera determinante en la evolución de la automatización de bibliotecas son :

    • Avances tecnológicos:

    • Evolución de los equipos (hardware)

    • Evolución de los programas.

    • Desarrollo de las técnicas de bases de datos.

    • Factores sociales, económicos y políticos.

    • Reducción de costes, que ocasiona la extensión de la automatización y el fomento de su uso.

    • El formato MARC.

    • Cambio de actitud entre los bibliotecarios.

    Evolución histórica de los sistemas de automatización de bibliotecas.

    AÑOS 60.

    • Nacimiento de las aplicaciones de ordenadores a bibliotecas; Sistemas Unit-Records (Ficha única o ficha perforada) y los sistemas fuera de línea.

    AÑOS 70:

    • Desarrollo de los sistemas en línea.

    • Desarrollo de las técnicas de bases de datos.

    • Desarrollo de las Redes bibliotecarias.
      AÑOS 80:

    • Sistemas integrados de bibliotecas.

    • Catálogos en línea de accesos público (OPAC's).

    AÑOS 6O.

    Problemas en la automatización en los años 60.

    • Lentitud en el proceso de los datos.

    • Sistemas unifuncionales para cada trabajo bibliotecario.

    • Longitud fija de los campos de información bibliográfica.

    • Productos en papel o cinta magnética.

    • Imposibilidad de eliminar el catálogo en fichas o en forma de libros.

    • Altos costes de los equipos: sólo era posible la automatización en bibliotecas con recursos. Poca rentabilidad.

    Aspectos positivos de la automatización en los años 60.

    • Introducción del ordenador en algunas bibliotecas.

    • Nacimiento del formato MARC (Machine Readable Cataloguing).

    “ Un registro bibliográfico único, legible por máquina, creado una sola vez puede ser utilizado para una gran variedad de fines, incluyendo las adquisiciones, la catalogación y el registro de publicaciones seriadas”

    AÑOS 70's

    • Cambio radical en la tecnología del ordenador: (supuso la automatización en línea)

    • proceso más rápido.

    • Aumenta la capacidad de almacenamiento.

    • Se reducen los precios.

    • Se reduce el tamaño físico de los equipos.

    • Técnicos de bases de datos. (supondrán los SIGB)

    • Proyectos para uso interno de instituciones concretas.

    • Servicios bibliográficos.

    • Empresas privadas elaboran paquetes de sistemas automatizados.

    • Desarrollo del MARC

    El cambio radical en la tecnología del ordenador supuso:

    - la automatización en línea

    Bases de datos:

    Definición: Una base de datos es una colección de datos operacionales utilizados por todas las aplicaciones de una organización.

    Ventajas:

    • Consistencia de los datos. (Todos los servicios operan con los mismos datos.)

    • Menor proliferación de los datos. (Están todos en el mismo lugar)

    • Facilidad para definir nuevas aplicaciones.

    • Mayor control.

    • Disminución de los costes de mantenimiento.

    Conceptos básicos:

    • Estructura lógica = Modelo de datos.

    • Estructura física = Independencia de los datos.

    • Software de Gestión de la base de datos (Access, Oracle, Informix.)

    • Gestores de bases de datos documentales: Knosys, BRS.

    ABSYS ------ Sistema de Gestión Bibliotecaria.

    Híbridos

    Oracle - Relacional Documental - BRS

    Tablas Ficheros inversos

    Tipos de Bases de datos:

    • Jerárquicas.

    • En red.

    • Relacionales.

    • Documentales

    • Orientadas al objeto.

    ARCHIVO MAESTRO

    Registro

    Autor

    Título

    Editorial

    Año

    1

    Cervantes

    La Gitanilla

    Alianza

    1993

    2

    Valle Inclán

    Luces de Bohemia

    Destino

    1992

    3

    Conrad

    Línea de Sombra

    AGB

    1993

    4

    Cervantes

    Sombra de vida

    Alianza

    1991

    5

    Conrad

    Gitanilla valiente

    AGB

    1992

    6

    Valle Inclán

    Vida inacabada

    Destino

    1991

    Fichero invertido de autores

    Fichero invertido de palabras clave en el título

    Cervantes 1,4

    Bohemia 2

    Conrad 3,5

    Gitanilla 1,5

    Valle Inclán 2,6

    Inacabado 6

    Sombra 3,4

    Valiente 5

    Vida 4,6

    SISTEMAS INTEGRADOS DE GESTIÓN BIBLIOTECARIA: Primeros proyectos.

    • Para uso interno: Ballots.

    • Servicios bibliográficos (Bibliographics Utilities).

    • OCLC: Online Computer Library Center.

    • RLIN: Research Libraries Information Network.

    • WLN: Washington Library Network.

    • UTLAS: University of Toronto Library System.

    • Sistemas comerciales en línea: Geac, Dobis-libis, Libertas, Sabini, Absys, etc.

    SERVICIOS DE INTERNET.

  • Correo electrónico.

  • Telnet.

  • FTP.

  • Archie.

  • Gopher.

  • Listserv.

  • Usenet.

  • Web.

  • CORREO ELECTRÓNICO.

  • Definición: Es el medio para enviar mensajes y ficheros a través de la red: (de uno a uno o de uno a varios).

    Acceso: Cuenta de correo electrónico y un agente de correo.

    Uso: Comunicación entre personas y organizaciones.

    2) TELNET.

    Definición: Conexión y uso de 1 ordenador remoto.

    Acceso: - programa cliente.

    - cuenta de ordenador multiusuario.

    - Login y Password.

    Uso: Opac's y bases de datos públicos.

  • FTP.

  • Definición: Transmisión de ficheros y programas entre los ordenadores conectados a la red.

    Acceso: Conexión con programa cliente (anonymous y e-mail), y un navegador Web.

    Uso: Recupera software de dominio público. Carga documentos html en el servidor Web.

  • ARCHIE.

  • Definición: Localización de ficheros FTP, anónimo en la red.

    Acceso: www, Telnet, Correo electrónico, Programa cliente.

    Alcance: 1.500 servidores y 6.000.000 de ficheros.

  • GOPHER.

  • Definición: Sistemas de información por menús jerárquicos.

    Acceso: Programa cliente, www.

    Alcance: en declive actualmente.

    Uso: Seleccionar y recuperar información textual a partir de un menú.

  • LISTSERV.

  • Definición: Programa para crear, gestionar y controlar grupos de discusión.

    Acceso: E-mail, dirección administrativa, dirección de colaboradores.

    Uso: Distribución de información, comunicación entre grupos afines.

    Alcance: Tratan sobre multitud de materias.

  • USENET.

  • Definición: Grupos de noticias, inmensa colección de mensajes de correo electrónico sobre los temas más variopintos.

    Acceso: Servidores de news, programas clientes en www.

    Alcance: Cantidad de temas sin ninguna garantía de calidad.

  • WEB.

  • Definición:

    • Sistema hipermedia (engloba documentos sonoros, imágenes y todo tipo de docs.)

    • Sistema de acceso a información distribuida en Internet.

    • Medio flexible de publicación de información.

    Acceso: Navegador; Netscape, Explorer, Opera.

    Alcance: El web interactúa con Gopher, FTP, Telnet, Mail.

    ¿Cómo es el world wide web?

    • Es una herramienta para acceder a Internet.

    • El servicio de la red ha crecido muy rápidamente porque:

    • fácil de usar.

    • Puede mostrar texto, sonidos e imágenes fijas y en movimiento.

    • Una colección de páginas, web que residen en los ordenadores de cualquier parte del mundo.

    Sedes y servidores web.

    • Una sede web es un ordenador conectado a Internet que almacena páginas web de una persona grupo u organismo.

    • Un servidor web, es un software especializado que transmite información desde una sede web al ordenador del usuario.

    • Una página web es un documento electrónico que reside en un servidor web, escrito en lenguaje html que puede incluir imágenes, sonidos y/o animación. Puede tener enlaces (links) a otras páginas web o a diferentes secciones de una misma página.

    • Una home page es la página inicial que trasmite un servidor web cuando se accede a una sede web, proporciona un índice de contenidos o un directorio de otras páginas web.

    • URL: Un localizador universal de recursos, identifica de forma inequívoca cualquier dirección y recurso de internet, oculta una dirección IP.

    Mirrow: Aplicación que permite duplicar una jerarquía de directorios entre dos máquinas de FTP.

    DIRECTORIOS TEMÁTICOS

    Definición: Es una lista de recursos de Internet clasificados por categorías temáticas ordenadas jerárquicamente. La mayoría de ellos disponen de búsqueda por palabras claves.

    Diferencias entre motores y directorios temáticos:

    • La forma de trabajar; en los directorios se usa más el browsing, en ellos hay una base de datos con direcciones URL la búsqueda es completamente automatizada. Mientras que en el directorio la búsqueda es más manual.

    Puede haber tanto directorios generales como especializados (éstos últimos suelen hacerlos profesionales).

    http://www.omni.ac.uk

    Omni: Lo ha hecho una universidad y va dirigido a médicos y gente interesada por la medicina. No contiene publicidad.

    Ejercicios.-

    • Buscar en OMNI un estudio sobre el arsénico bebido en aguoa. Se sabe que hay un estudio en Bangladesh.

    • Buscar en yahoo un diccionario multilingüe:

    http://uva.es/aufop/recursos/dictio.htm (eurodicatón)

    Los directorios especializados como OMNI nos ofrecen un abstract, sobre el documento hecho por documentalistas. Esto no lo dan directorios como yahoo.

    MOTORES DE BÚSQUEDA.

    Definición: Son agentes que atraviesan de forma automática el www, con distintos fines como :

    • Mantener la estructura hipertextual del web.

    • Duplicar directorios FTP (mirrors)

    • Realizar análisis estadísticos del web.

    • Descubrir nuevas aprotaciones (What's new?)

    Selección de motores:

    • Altavista: www.altavista.com

    • Excite: www.excite.com

    • Lycos: www.lycos.com

    En un motor lo que pesa más es la ventana de recuperación de información por palabras clave, mientras que en un directorio lo que pesa más son las categorías.

    ANILLOS:

    • Webs de temática idéntica preenlazados, en los que se obtienen resultados concretos con un nivel de ruido cero.

    • Índices bien estructurados; nº de webs, ubicación y ringmaster.

    • Facilita la incorporación al mercado.

    • Webring: http://dir.webring.yahoo.com/rw

    • Spanishring: www.spanishring.com

    El web es un recurso de información. En él podemos encontrar:

    • Información sobre porductos.

    • Información sobre personas.

    • Información producida por organismos públicos.

    • Información de última hora.

    • (…)

    No se encuentra normalmente gratis en internet recursos que se venden en papel u otro soporte, es le caso de los libros que tienen derechos de autor y la mayor parte de revistas científicas o de entretenimiento (suelen obligar a comprar el recurso electrónico y el papel).

    Cada vez se encuentra menos información gratuita por lo que hay que pagarla.

    La red se caracteriza por su volatilidad, además la información suele estar actualizada, pero la mayoría de las veces no dicen ni cuando ni por quién. Además al estar en soporte electrónico puede estar manipulada.

    El crecimiento de la red implica multiplicidad de servicios y que hay que controlar y evaluar la calidad.

    Procesos en la búsqueda de información.- Cada vez hay más personas que tienen que manejar mayor cantidad de información, en su trabajo y vida diaria, para controlar esta información se necesita más tecnología y a su vez produce más información. Consecuencias básicas:

    • más información.

    • Nuevas formas de información por las nuevas tecnologias.

    • Más herramientas de gestión.

    ¿Qué es información?

    Buckland define información como proceso (el acto de la comunicación) como conocimiento mayor o menor del nivel de incertidumbre, como cosa (los objetos que pueden transmitir información).

    Información es cualquier cosa que puede cambiar el conocimiento de una persona.

    Headow 1992: Información es el dote que altera el estado del sistema que la percibe, tanto si es un ordenador como si se trata de un cerebro, lo que significa que si un conjunto de datos no cambia el estado del que/quién lo recibe no podrá ser considerada como información.

    Información es igual a lo que es transferido desde los sujetos o desde los objetos al sistema congitivo humnao, así como a los componentes del conocimiento humano.

    Objetos portadores de inforamción: bit, dato, registro, texto, sonido, gráfico, documento, artículo, etc…

    Búsqueda / recuperación de información.

    • Búsqueda o acceso a la información; todo aquello que está relacionada con lo activo del sujeto cuando trata de satisfacer sus necesidades informativas.

    • Recuperación de información (RI), las operaciones realizadas por los sistemas automáticos de recuperación de información (SR) o (IRS).

    El usuario accede, el sistema de recuperación.

    • El acceso es un proceso humano vinculada al aprendizaje y resolución de los problemas.

    • La recuperación se aplica a la gestión de la base de datos y la mayoría de los problemas implicadas (con es recuperación de la base de datos).

    Elementos que intervienen en el acceso a la información:

    • El entorno.

    • El usuario.

    • Las tareas que realice el usuario.

    • El sistema de búsqueda.

    • Los dominios: campos temáticos con los que se relaciona la necesidad del usuario.

    • Los resultados.

    No son excluyentes sino que están entrelazados por las relaciones que varían en complejidad e importancia.

    Actividades

    racionales

    Activa

    Actitudes

    emocionales

    Documentalista

    Bibliotecarios

    Ingenieros del cto.

    Periodistas

    Pc Adictos

    Pro. Universitarios

    Abogados

    Ministros

    Médicos

    Amas de casa

    Desempleados

    maxmedia

    Pasiva

    El análisis de los resultados puede:

    • Terminar la búsqueda porque se ha encontrado los que se quería.

    • Formular otra consulta.

    • Redefinir el problema.

    • Rechazar los resultados y terminar la búsqueda:

    Los sistemas de búsqueda altamente interactivos diluyen las fronteras de los subprocesos y su linealidad.

    Bibliotecas versus Internet:

    • En las bibliotecas tradicionales se obtiene información identificada previamente. (Dialogamos con personas)

    • En Internet necesitamos identificar la información relevante. “dialogamos” con máquinas.

    En una búsqueda debemos saber:

    • El vocabulario específico de la materia.

    • El grado de exhaustividad que se desea

    • A mayor exhaustividad mayor complejidad.

    • El tamaño de la colección en la que se busca:

    • A mayor tamaño mayor dificultad

    • A mayor número de términos de búsqueda mayor complejidad para construirlas.

    Estilos de búsqueda de información:

    • Buscar una respuesta a preguntas concretas:

    • Se responden con un dato:

    • Resolver un problema requiere:

    • Soluciones.

    • Clarificaciones de los resultados

    • Decisiones sobre los problemas que se puedan plantear en una investigación.

    • Hay que llegar a un síntesis para resolver el problema.

    Preguntas que debes plantearte antes de realizar cualquier búsqueda de información:

    • Cómo y por qué se necesita la información

    • Cómo puede ayudarte

    • Qué es lo que ya sabes sobre la materia

    • Qué es lo que esperas

    • Cómo se formula el problema

    Estrategias que hay que seguir:

  • Descomponer la necesidad de información en cuantos conceptos atómicos como sea posible. (transformar los conceptos en palabras claves de búsqueda o frases, para luego combinar esos términos con los operadores)

  • Transformar los conceptos en palabras clave o frases.

  • Buscar sinónimos, incluso en diversos idiomas: Realizar la búsqueda

  • (...)

  • Utilizar paréntesis para definir el alcance de cada operador

  • Limitar por años, dominios o por protocolos.

  • Adaptarse a la lógica de recuperación de los servidores.

  • (Diagrama de flujo)

    Sintaxis y operadores de búsqueda:

    • Internet es una base de datos distribuida y son contenido debe buscarse de acuerdo con las reglas que rigen las búsquedas en las bases de datos.

    • Las búsquedas se basan en los principios de la lógica boleaba.

    • La lógica booleana se refiere a las relaciones lógicas que existen entre los términos y su nombre se deben al matemático irlandés George Boole.

    Operadores Booleanos:

    • La lógica booleana consiste básicamente en tres operadores lógicos:

    • OR

    • AND

    • NOT

    • cada operador se describirá visualmente usando diagramas de Venn. El resultado de la búsqueda estará sombreado.

    OR

    • Quiero información relacionada con la universidad: college OR university

    • Se recuperan paginas que contengan AL MENOS UNO de los términos que se introduzcan.

    • La lógica de OR se debe emplear en búsquedas por sinónimos.

    • Si sólo contiene una de las palabras también se visualizará.

    • Cuantas más palabras se combinen en una búsqueda, más aciertos se recuperarán.

    AND

    • Estoy interesado en las relaciones entre pobreza y crimen: poverty AND crime.

    • Se recuperan las páginas que contengan AMBOS términos.

    • No se recuperan los que contengan sólo uno de los términos.

    • Cuantos más términos se empleen menos aciertos se recuperarán

    NOT

    • Quiero información sobre gatos, pero no quiero ver nada sobre perros: cats NOT dogs.

    • Se recuperan páginas con UNO SOLO de los términos introducidos.

    • NOT excluye páginas de los resultados.

    • Hay que ser cuidadosos con NOT: El término por el que deseas encontrar puede estar presente en documentos que contienen la palabra que quieres evitar.

    • En el resultado aparecen los resultados que contienen “cats”

    NEAR

    • Búsqueda por fibra NEAR óptica.

    • Es un operador de proximidad.

    • Define la cercanía entre las palabras que se introducen y cómo se encuentran en el documento.

    • NEAR es más restrictivo que AND. Se tratan de encontrar palabras que están “geográficamente cercanas" unas de otras.

    • El motor efectúa sus búsquedas en el interior de las páginas que incluyan los dos términos, pero solamente si están separados uno de otro por un cierto número de palabras como máximo.

    • La cercanía entre los términos depende de cada robot

    • NEAR en Altavista (power search) es de 10 palabras.

    • NEAR en Open Text (power search) es de 80 caracteres.

    Búsquedas combinadas:

    • Al combinar los operadores se realizan búsquedas muy refinadas.

    • Se realizan normalmente usando paréntesis entre los términos unidos por diferentes operadores booleanos.

    • Se usan, normalmente los operadores OR y AND.

    • Se da preeminencia en el cálculo a los términos y operadores introducidos entre paréntesis.

    Ej. Queremos comprar un coche usado que sea volvo o volswagen, pero no queremos bajo ningún concepto que sea Ford, en España o en un sitio comercial.

    Palabras clave: Sinónimos:

    • Coche automóvil

    • usado “segunda mano”, usad*, use*, “second hand”

    • fiat

    • volswagen

    • ford

    Sintaxis de búsqueda: ((coch* OR car* OR automovil*) NEAR (use* OR "segunda mano" OR usad* OR "second hand" OR second-hand OR"secondhand)) AND NOT (Ford) AND url:.com

    Truncamientos

    • Búsqueda por opti*

    • Algunos motores permiten la posibilidad de utilizar lo que se denominan comodines o wildcarts. Se simbolizan frecuente mente con los signos `*$.

    • Para encontrar aquellas referencias que tengan la palabra exacta y no extensiones, seleccione la opción Complete words en Yahoo en Lycos use el (.) al final de una palabra.

    • Por ejemplo ciudad. Encontrar referencias que contengan la palabra “ciudad.”, pero no ciudadano ni ciudadanía.

    JUNTO (ADJ)

    • Es la intersección de dos conjuntos de búsqueda que además estén adyacentes.

    • Exige que entre ambas palabras no haya otra palabra.

    • Estudiantes ADJ europeos

    • No lo tiene Altavista pero pueden usarse las comillas como un resultado idéntico.

    BUSQUEDAS BOOLEANAS EN INTERNET:

    • Cuando se usa un motor de búsqueda la lógica booleana puede estar presente de tres formas distintas:

    • búsqueda booleana completa con uso de operadores booleanos.

    • Lógica booleana implícita mediante el uso de signos que sustituyen a los operadores.

    • Lenguaje predeterminado, al emplear formularios de búsqueda.

    CARACTERÍSTICAS GENERALES:

    • Falta de homogeneidad.

    • Sintaxis de interrogación distintas y en ocasiones mal documentadas.

    • El objetivo es recoger en poco tiempo no todo lo que existe en la Red sobre un tema determinado, sino únicamente los documentos interesantes que responden a una interrogación específica.

    • No sólo páginas Web, sino también correo, FTP, listas de discusión, etc.

    TIPOLOGÍA DE LOS SERVICIOS DE BÚSQUEDA:

    • Para recursos Web:

    • Directorios temáticos:

    • Directorios comerciales

    • Directorios académicos.

    • Para otro tipos de recursos y/o protocolos:

    • Personas, instituciones

    • Software y ficheros

    • Telnet y OPACs

    • Z39.50

    • Novedades

    DIRECTORIOS TEMÁTICOS

    Descripción: Recursos clasificados y ordenados jerárquicamente por materias. Organización manual en la mayoría de los casos.

    Acceso: hojeo (browsing), y algunos también por palabras clave

    Organización: clasificaciones ad hoc, y clasificaciones de bibliotecas.

    Clasificación:

    • Comerciales, generales, portales

    • Académicos profesionales: Los profesionales de la información seleccionan describen e indizan los recursos recogidos. Pueden ser de una o varias materias.

    MOTORES DE BÚSQUEDA:

    Descripción: Son programas que buscan en el web. Indizan páginas de toda la red:

    • Texto completo o ciertas etiquetas html

    • Todas las palabras son entradas del índice

    • Operadores mínimos y/o

    • Resultados ordenados por pertinencia.

    Acceso:

    • A través de formularios.

    METABUSCADORES: (nos dice que motores tienen más páginas indizadas sobre un tema, etc.)

    • Ofrece búsquedas simultáneas en distintos motores de búsqueda a partir de un único formulario.

    • Los términos de búsqueda que teclea el usuario se envían a distintos buscadores al mismo tiempo.

    • Los resultados se presentan de forma conjunta la procedencia.

    • Recogen fundamentalmente los resultados más relevantes.

    Motores de 2ª Generación: ( intentan dar un valor añadido)

    • Son servicios que permiten agrupar los resultados de una búsqueda de forma organizada; por concepto, dominio, popularidad y nº de enlaces. Contrastan con aquellos que organizan de acuerdo con cálculos automáticos de relevancia.

    • Tratan de ordenar los resultados con información no existente en las páginas.

    Personas o instituciones:

    • Permiten localizar direcciones de personas que comparten los mismos intereses o detalles de los usuarios.

    • Existen directorios con direcciones que comparten las mismas inquietudes buscando a través de Listserv o News.

    • Otros directorios permiten buscar números de teléfonos, direcciones de email o fax. Los hay locales por países o globales.

    • Otro tipo de directorios permiten localizar información sobre empresas o instituciones.

    Software y ficheros.

    • Son servidores distintos a los FTP con el software clasificado por sistema operativo o tipo de aplicación (gráficos, cálculo)

    • (...)

    Telnet's y OPACs

    • Permiten localizar catálogos de bibliotecas de todo el mundo para buscar información bibliográfica.

    • Pueden buscarse a través de www para posteriormente establecer la conexión telnet, usando el lenguaje de interrogación propio del sistema.

    http://homepage.usask.ca/~pas508/

    Ejercicios:

    Buscar estudios o referencias sobre Rojo y Negro de Stendhal que haya en la red sólo en español.

    Buscar todo lo que haya sobre bibliotecas que haya hecho Peter Scott.

    Si ponemos la sentencia de búsqueda con mayúsculas o acentos diacríticos, solo nos van aparecer las páginas en las que las palabras aparezcan escritas de esa forma. En cambio si lo ponemos todo en minúscula nos busca todas las páginas que contengan las palabras escritas de cualquier forma.

    El web invisible: bases de datos, bases de datos de referencias y catálogos.

    DIRECTORIOS TEMÁTICOS

    Definición:

    • Son servicios que ofrecen colecciones de enlaces a recursos web proporcionados por los propios creadores o evaluadores y organizados mediante clasificaciones temáticas.

    • Los directorios tienen políticas para incluir los recursos, aunque los criterios de selectividad varían.

    • La mayoría cuentan con un motor para interrogar la base de datos.

    Tipos de directorios temáticos:

    • Existen dos tipos de directorios: académicos y/o profesionales creados y mantenidos por expertos para apoyar a los investigadores de carácter comercial o portales.

    • Académicos:

    • creados por bibliotecarios o expertos en las respectivas materias. Ubicados en bibliotecas o Universidades. Recogen sitios de gran interés para el apoyo a la investigación. Selección cuidadosa y normalmente comentados. No contienen publicidad y no generan ingresos económicos.

    • Informine: http://infomine.ucr.edu de la Universidad de California

    • Comerciales o portales;

    • Creados para generar beneficios y servir al público en general. Contienen enlaces a múltiples temas pero hacen hincapié en el entretenimiento, comercio, aficiones, deportes, viajes y temas no cubiertos por los profesionales.

    • Buscan atraer mucho tráfico para financiarse con la publicidad.

    • Ofrecen servicios a los usuarios; e-mail, etc.

    • Snap: http://www.nbi.com es un ejemplo de portal comercial

    Trucos para los directorios temáticos:

    • Los directorios se diferencia por el grado de selección de los recursos que incluyen. Se requiere conocer la política que emplean.

    • No todos los directorios dan a conocer sus criterios o lo nombres y cualificaciones de los evaluadores.

    • Algunos directorios incluyen enlaces seguidos de anotaciones que describen o evalúan el servicio. Un enlace revisado siempre es mejor que un simple enlace.

    • Las diferencias entre los directorios y los motores de búsqueda se están desdibujando. El acceso por clasificaciones temáticas también se encuentran en algunos motores. Altavista tiene Looksmart,; Infoseek comparte el directorio con Go Network; Excite tiene su propio directorio a partir del Open Directory Poject de Netscape-American Online.

    • El motor más potente en cuanto a lenguaje de interrogación es Altavista, pero los motores de segunda generación como Nothernligth y Google ofrecen también muchas posibilidades.

    Búsquedas en contexto. (directorios temáticos)

    • Al igual que en la bibliotecas los directorios están organizados por materias y el browsing ofrece posibilidad de encontrar materias afines.

    Recursos seleccionados (directorios temáticos)

    • La selectividad de las páginas recogidas compensa la falta de exhaustividad. excelentes para localizar .

    Yahoo

    Definición:

    Acceso: Existen Yahoo's con información de diferentes países.

    Alcance: Cada resultado consisten en un título o una breve descripción. Tiene enlaces específicos para reservas de hoteles, información de fútbol, novedades, predicciones del tiempo, directorios de empresas, búsquedas sobre personas, valores de bolsa, noticias del día, comparas, fotografías, etc.

    Uso:

    • Búsquedas: En cualquier pantalla hay una ventana desde la que se puede hacer una búsqueda general en la sección o nivel en el que te encuentras. Como las jerarquías son muy amplias es una función indispensable.

    • Los resultados de una búsqueda sencilla se presentan en las grandes categorías y con enlaces a las páginas acertadas.

    • Si no hay resultados genera un búsqueda en Altavista.

    • En todo caso se ofrece un enlace para consultar en Altavista, DirectHit, Infoseek, HotBot, Deja.com, Lycos.

    Uso desde la pantalla principal:

    • Operador booleano por defecto: OR. Lógica booleana implícita: + para AND y - para NOT.

    • Ignora mayúsculas y minúsculas.

    • Campos: Título t:automóviles. URL: u:adobe

    • Frases: Términos entrecomillados: Pe. “electronic publishing”.

    • Truncamiento: Signo . Pe. Electr* publishing.

    Uso avanzado:

    • Al seleccionar: Advanced Search se pueden utilizar las opciones avanzadas.

    • Que contenga todas las palabras. Matches on all words (AND), Que contenga cualquier palabra Matches on any word (OR).

    • Sólo admite un operador booleano por búsqueda.

    • Limita la búsqueda por días, meses, años o tres años.

    • Busca en Yahoo y en Usenet.

    • Búsqueda inteligente (¿Lenguaje natural?)

    Ventajas:

    • Una de las mayores bases de datos.

    • Amplia cobertura temática.

    • Fácil hojeo por la clasificación temática.

    • Su motor de búsqueda trabaja contra otros motores.

    Inconvenientes:

    • Acepta cualqueir información para incluir. No evalúa su exactitud ni actualidad.

    • No cubre bien especialidades científicos, ni de investigación.

    • El sistema de clasificación no es útil en todos los casos.

    • Sólo admite un operador en las búsquedas avanzadas.

    • Parece que solo indiza la página principal, las páginas subsiguientes no se indizan.

    ¿Cuándo usarlo?

    • Cuando se quiera conocer de forma genérica qué sitios existen en Internet, pero sin evaluación previa.

    Ejercicio: Busca sitios sobre campos de fútbol españoles pero que no sean madrileños.

    Sintaxis: +estadio* +fútbol +españa -madrid

    Recursos en castellano sobre genética en Yahoo haciendo browsing.

    Inicio > Ciencia y tecnología > Biología >

    ARGUS CLEARINGHOUSE: http://www.clearinghouse.net

    Definición: Permite localizar información sobre recursos de Internet clasificados por materias y evaluados por bibliotecarios.

    Acceso: mediante browsing y búsquedas.

    Alcance: Cada registro tiene palabras clave y diversas puntuaciones obtenidas por contenidos, diseño del contenido, información meta incluye fecha de puntuación y la última fecha de evaluación.

    Uso:

    • Mediante browsing a partir de 13 categorías.

    • Mediante búsquedas:

    • la búsqueda por palabras clave usa por defecto AND, a menos que uno de los términos se trunque en cuyo caso el operador por defecto es OR.

    • Pueden usarse paréntesis: behavior and (cats or felines)

    • El signo de truncamiento es *.

    • No se puede utilizar el operador NOT.

    • Hay que volver a una parrilla inicial cada vez que se quiera iniciar una nueva búsqueda.

    Ventajas:

    • El directorio es muy selectivo.

    • Cubren muy bien la información académica.

    • Los recursos recomendados están bien clasificados y están revisados por personas.

    • Los autores de las guías son especialistas en la materia.

    • La mayoría de las guías estás descritas y evaluadas.

    • Existen explicaciones de los criterios de evaluación.

    Inconvenientes:

    • La cobertura temática está limitada por las guías que ser revisan.

    • Las guías con puntuaciones bajas no se excluyen.

    • Las guías no están necesariamente actualizadas.

    • Algunas guías están en ASCII y no contienen enlaces hipertextuales.

    • La búsqueda tiene una sintaxis inusual .

    • Es recomendable leer la sección de trucos “tips”

    ¿cuándo usarlo?

    -

    Vamos a hacer un viaje a un país africano, investigar sobre las enfermedades infecciosas, mediante browsing.

    Magellan: http://magellan.excite.com

    Alcance:

    • Los enlaces se seleccionan a partir de su utilidad o calidad de su contenido. Posee una gran base de datos con millones de enlaces aún no revisados.

    Uso:

    • Posee una interfaz, tanto para hojeo a través de las jerarquías de niveles como para buscar en la base de datos. Ambas opciones están siempre presentes.

    • Desde la página inicial existen 18 grandes categorías a partir de las cuales se puede descender a las subdivisiones y subcategorías.

    • Cada enlace posee una breve descripción del contenido.

    • Búsquedas:

    • Las búsquedas se pueden realizar en toda la base de sedes web.

    • Cuando se realiza la búsqueda se genera:

    • Un listado con los enlaces a los web's relacionadas con el argumento de búsqueda.

    • La lista de resultados ordenados por relevancia. Cada resultado incluye título, breve descripción, enlace y url.

    • Posibilidad de realizar la misma búsqueda en Exite y Webcrawler.

    Uso avanzado:

    • Permite la búsqueda por “ideas y conceptos” y no sólo por palabras clave.

    • Búsquedas por frases exactas entrecomilladas “better business bureau”

    • Operadores: AND, OR y AND NOT (Siempre en mayúsculas)

    • Signo + para presencia y - para ausencia. No hay que dejar espacio entre el signo y el término.

    • Admite búsquedas combinadas mediante el uso de paréntesis: frutas AND (plátano OR manzana)

    Ventajas:

    • Orientado al gran público.

    • Inconvenientes:

    • No existe una actualización.

    • Algunas categorías no contienen enlaces. (octubre del 2000)

    SOSIG www.esrc.bris.ac.uk

    Definición:

    • El Social Sciencie Information Gateway es un directorio de gran calidad con recursos online en ciencias sociales y áreas afines. Cada recurso está descrito y clasificado de acuerdo con un registro único. 12062 recurso en octubre del 2000.

    Alcance:

    • Se describen recursos del Reino Unido, europeos y del mundo en “ciencias sociales”. Su definición es muy amplia. Se incluyen recursos, no sólo por su extensión, sino también por su calidad.

    Uso:

    • Permite browsing a través de las secciones. Los resultados se pueden limitar por países de ubicación: Europa., Reino Unido o todo el mundo.

    • El resultado es un registro con campos de descripción del recurso, palabras clave, título alternativo y enlace.

    • Permite búsquedas booleanas con AND, OR y NOT (deben escribirse con mayúsculas). Pueden combinarse.

    • Los resultados de las búsquedas pueden clasificarse por tipo documental: informes, bases bibliográficas, bibliografías, libros, empresas, datos, materiales educativos, FAQ's, revistas, publicaciones oficiales, material de referencia, software.

    Uso avanzado:

    • Pueden formularse búsquedas cualificadas en los respectivos campos del registro.

    • Posibilidades de recuperación a partir del tesauros Hassets (humanities and social sciences electronic thesaurus)

    • Excelente para buscar términos alternativos a los usados para la recuperación.

    • Incluye términos amplios, específicos y relacionados.

    • Los “resultados cero” redireccionan automáticamente para la consulta del thesaurus.

    • El tesauro admite browsing o búsqueda.

    (Ejercicio: Relación exhaustiva de todo lo que pueda haber: obras de referencia o depósitos de información en la red (repository) en la red sobre el tema de la mujer.) Anotar la estrategia de búsqueda, analizar los resultados, seleccionar y hacer un listado.

    mailto://v.repiso@uah.es

    Combina directorio y motor de búsqueda; (el de arriba y el que sigue).

    SOSIG Social Science search engine

    Definición:

    • Es una base de datos distinta del Catálogo SOSIG.

    • El contenido está recogido automáticamente por un robot.

    • La calidad de los recursos es menos segura que la de los recursos del Catálogo y las descripciones son creadas automáticamente.

    • Obtiene los recursos sólo de las sedes incluidas en el catálogo SOSIG.

    • Aprovecha la existencia de metadatos. Si no los tiene realiza descripciones automáticas, indicadas mediante la expresión “generated automatically”.

    -------ROBOTS----------

    Terminología:

    • Robots, arañas (Spiders), vagabundos (wanders) hormigas web (WebAnts)

    Definición:

    • Agentes que atraviesan de forma automática la WWW con distintos fines:

    • Mantener la estructura hipertextual del Web.

    • Duplicar directorios FTP (mirrors)

    • Realizar análisis estadísticos del Web.

    • Descubrir nuevas aportaciones (What's new) y

    • Crear de forma automática bases de datos textuales a partir de los documentos html distribuidos por diferentes servidores-.

    Objetivo:

    • Indizar la red constantemente para permitir la consulta de sus índices.

    • Encontrar los documentos que contengan las palabras clave introducidas por el usuario. Habitualmente localiza las páginas Web que mejor se adopten a las palabras introducidas.

    • Arquitectura cliente/servidor

    ¿Cómo son?

    • Programa que explora la red (robot)

    • Para localizar documentos y direcciones de documentos.

    • Buscan periódicamente por los servidores WWW (También en los de News, Gopher y FTP)

    • Una base de datos:

    • Sistema de indización automática de los documentos localizados.

    • Un sistema de interrogación con un lenguaje de consulta.

    • Una interfaz.

    Si quisiéramos hacer un estudio de los robots o motores existentes en la red tendríamos que fijarnos en las características de estos tres puntos. Las capacidades de buscar, de recoger, de indizar y de interactuar.

    ¿Cómo funcionan?

    Robots:

    • Parten de una lista inicial de URLs para: (

    • Crear una lista de direcciones: URLs.

    • Acceder y leer los documentos.

    • Mantener la lista de direcciones.

    • Se nutren de: inscripciones voluntarias y de los documentos localizados por el robot.

    • De cada página que leen copian parte o la totalidad del texto y lo envían a la base de datos.

    • Documentos Web varios niveles de profundidad. (Descienden a varios niveles)

    Bases de datos, sistema de indización:

    • El SGBD es parecido a las bases de datos documentales.

    • Recibe como entrada el texto localizado por el robot y produce como salida un índice invertido:

    • algunas veces sólo almacena raíces de palabras

    • suelen excluirse las palabras vacías (Internet)

    • No contiene los documentos originales, sino únicamente las direcciones de los documentos. Desfase

    • Algunos ficheros invertidos guarda más información que otros: situación y orden relativo de cada palabra en el documento, en qué etiquetas... etc.

    Bases de datos, el lenguaje de consulta:

    • Parte del programa que recoge la pregunta de usuario, a veces en el lenguaje casi natural, y se recorre el índice de la base de datos para seleccionar los documentos más relevantes.

    • Es la parte más importante del sistema de consulta y

    • Sin embargo es la parte más débil de los buscadores.

    Interfaz:

    • Página de consulta.

    • Presentación de los resultados.

    La calidad de un robot depende de: (criterios para evaluar los robots)

    • La eficacia para descubrir nuevos documento y mantener la lista de direcciones.

    • La cantidad de información que guarda el fichero invertido sobre cada documento.

    • La potencia del lenguaje de consulta:

    Ej. Lycos es uno de los más exhaustivos en número de sedes Web pero el que peor lenguaje de consulta tiene y no indiza el texto completo de los documentos. Web Crawler es el que menor número de documentos indiza pero tiene uno de los lenguajes de interrogación más flexibles.

    • Tamaño:

    • Puede ir desde los 20.000 documentos de Harvest Home Page Broker hasta los 19 millones de Lycos.

    • Cada servicio usa su propia unidad de medida: UELs, documentos indizados, etc...

    • Todos juntos no abarcan la totalidad de la red.

    • Alcance:

    - El área geográfica y el área temática cubierta es casi imposible de establecer.

    • Muchos están limitados a un solo tipo de publicaciones o protocolos incluso si aparentemente tratan de ser generales.

    • La mayoría páginas Web, otros Gopher, FTP, news, etc.

    • Otros protocolos y tipos de documentos son excluidos: OPACs y Bases de datos.

    • Actualización:

    • Gran variedad: desde diaria a una vez al año.

    • Diferentes interpretaciones: revisiones de servidores y páginas, inclusión de datos nuevos en los índices, reindización.

    • La mayoría de las veces no proporcionan información.

    • Indización:

    • Texto completo. (mejor)

    • Partes del documento.

    • Recuperación:

    • Las opciones de búsqueda difieren mucho de unos a otros.

    • El cálculo de relevancia:

    • Sirve para ordenar los documentos recuperados.

    • La mayoría utiliza el número de veces que aparece la palabra en el documento:

    • Riqueza de vocabulario

    • Homónimos.

    • Basado en las etiquetas HTM: Título, METS,

    • Referencias cruzadas.

    Problemas generales en los robots:

    • Técnicos:

    • Pueden generar una sobrecarga y saturación en los servidores Web.

    • Sobrecarga en la infraestructura de la red de comunicaciones.

    • Problemas derivados de indizar hipertexto:

    • Unidades de información son más pequeñas y peor definidas.

    • Imposible fijar los límites de un documento.

    • La heterogeneidad de la información dificulta la creación de índices uniformes.

    • Calidad de la entrada de datos:

    • Mal uso de etiquetas HTML.

    • Terminología incorrecta en los títulos y encabezamientos.

    • No se excluyen documentos de poca importancia.

    • Indización, recuperación e interfaz:

    • Se necesitan métodos más avanzados.

    • Nuevos desarrollos: Indización distribuidas: (el responsable de la máquina indiza el contenido de sus páginas).

    • Se minimiza la navegación automática de robots.

    • Se garantiza una mayor calidad de indización.

    • Un servidor puede excluir el acceso a ciertos documentos.

    Como conseguir que nos encuentren:

    • Registrar la ubicación en los 5 ó 6 buscadores más importantes.

    • Utilizar de forma juiciosa el título del encabezamiento.

    • Colocar información significativa en el título.

    • Redactar con cuidado la primera página: palabras clave.

    • Los gráficos no indizan: no colocarlos en la primera página.

    • No usar trucos: repetir una misma palabra 200 veces (no es ético y puede detectarse).

    • Utilizar el elemento META dentro del encabezamiento.

    • Incluir enlaces a otras páginas similares.

    Trabajo: Elegir un centro real o ficticio, con una marco descrito, hay que pergeñar unas páginas web y su contenido. (Ej. Una biblioteca de un instituto de enseñaza. Acceso al propio catálogo de la biblioteca. Recursos de bases de datos. Acceso a isbn y acceso a la base de datos en CD ROM de la biblioteca nacional que la ha comprado o creo que la tiene que comprar.... diferenciar dentro de un IE los servicios dirigidos a los alumnos de los profesores (alumnos por edades, materias) = para los profesores. Podemos jugar con las descripciones del centro, horarios, y una selección de recursos para los usuarios que la biblioteca va a seleccionar y los va a ofrecer a los usuarios.

    Organizar el servicio de la información, préstamo, sugerencias, prestamo interbibliotecario, desideratas, en definitiva todo lo debe formar parte de una biblioteca digital.

    Ayudas: ver páginas web de sitios parecidos en la web.

    27/03/01

    Si ponemos la sentencia de búsqueda con mayúsculas o acentos diacríticos, solo nos van aparecer las páginas en las que las palabras aparezcan escritas de esa forma. En cambio si lo ponemos todo en minúscula nos busca todas las páginas que contengan las palabras escritas de cualquier forma.

    El web invisible: bases de datos, bases de datos de referencias y catálogos.

    Directorios temáticos

    Definición:

    • Son servicios que ofrecen colecciones de enlaces a recursos web proporcionados por los propios creadores o evaluadores y organizados mediante clasificaciones temáticas.

    • Los directorios tienen políticas para incluir los recursos, aunque los criterios de selectividad varían.

    • La mayoría cuentan con un motor para interrogar la base de datos.

    Tipos de directorios temáticos:

    • Existen dos tipos de directorios: academicos y/o profesionales creados y mantenidos por expertos para apoyar a los investigadores de carácter comercial o portales.

    • Académicos:

    • creados por bibliotecarios o expertos en las respectivas materias. Ubicados en bibliotecas o Universidades. Recogen sitios de gran interés para el apoyo a la investigación. Selección cuidadosa y normalmente comentados. No contienen publicidad y no generan ingresos económicos.

    • Informine: http://infomine.ucr.edu de la Universidad de California

    • Comerciales o portales;

    • Creados para generar beneficios y servir al público en general. Contien enlaces a múltiples temas pero hacen hincapié en el entretenimiento, comercio, aficiones, deportes, viajes y temas no cubiertos por los profesionales.

    • Buscan atraer mucho tráfico para financiarse con la publicidad.

    • Ofrecen servicios a los usuarios; e-mail, etc.

    • Snap: http://www.nbi.com es un ejemplo de portal comercial

    Trucos para los directorios temáticos:

    • Los directorios se diferencia por el grado de selección de los recursos que incluyen. Se requiere conocer la política que emplean.

    • No todos los directorios dan a conocer sus criterios o lo nombres y cualificaciones de los evaluadores.

    • Algunos directorios incluyen enlaces seguidos de anotaciones que describen o evalúan el servicio. Un enlace revisado siempre es mejor que un simple enlace.

    • Las diferencias entre los directorios y los motores de búsqueda se están desdibujando. El acceso por clasificaciones temáticas también se encuentran en algunos motores. Altavista tiene Looksmart,; Infoseek comparte el directorio con Go Network; Excite tiene su propio directorio a partir del Open Directory Poject de Netscape-American Online.

    • El motor más potente en cuanto a lenguaje de interrogación es altavista, pero los motores de segunda generacion como nothernligth y google ofrecen también muchas posibilidades.

    Bñúsquedas en contexto. (directorios temáticos)

    • Al igual que en la bibliotecas los directorios están organizados por materias y el browsing ofrece posibilidad de encontrar materias afines.

    Recursos seleccionados (directorios temáticos)

    • La selectividad de las páginas recogidas compensa la falta de exhaustividad. excelentes para localizar

    Yahoo

    Definición:

    Acceso: Existen Yahoo's con información de diferentes paises.

    Alcance: Cada resultado consisten en un título o una breve descripción. Tiene enlaces específicos para reservas de hoteles, información de fútbol, novedades, predicciones del tiempo, directorios de empresas, búsquedas sobre personas, valores de bolsa, noticias del día, comparas, fotografías, etc.

    Uso:

    • Búsquedas: En cualquier pantalla hay una ventana desde la que se puede hacer una búsqueda general en la sección o nivel en el que te encuentras. Como las jerarquías son muy amplias es una función indispensable.

    • Los resultados de una búsqueda sencilla se presetan en las grandes categorías y con enlaces a las páginas acertadas.

    • Si no hay resultados genera un búsqueda en Altavista.

    • En todo caso se ofrece un enlace para consultar en Altavista, DirectHit, Infoseek, HotBot, Deja.com, Lycos.

    Uso desde la pantalla principal:

    • Operador booleano por defecto: OR. Lógica booleana implícita: + para AND y - para NOT.

    • Ignora mayúsculas y minúsculas.

    • Campos: Título t:automóviles. URL: u:adobe

    • Frases: Términos entrecomillados: Pe. “electronic publishing”.

    • Truncamiento: Signo . Pe. Electr* publishing.

    Uso avanzado:

    • Al seleccionar: Advanced Search se pueden utilizar las opciones avanzadas.

    • Que contenga todas las palabras. Matches on all words (AND), Que contenga cualquier palabra Matches on any word (OR).

    • Sólo admite un operador booleano por búsqueda.

    • Limita la búsqueda por días, meses, años o tres años.

    • Busca en Yahoo y en Usenet.

    • Búsqueda inteligente (¿Lenguaje natural?)

    VENTAJAS

    • Una de las mayores bases de datos.

    • Amplia cobertura temática.

    • Fácil hojeo por la clasificación temática.

    • Su motor de búsqueda trabaja contra otros motores.

    INCONVENIENTES:

    • Acepta cualquier información para incluir. No evalúa su exactitud ni actualidad.

    • No cubre bien especialidades científicos, ni de investigación.

    • El sistema de clasificación no es util en todos los casos.

    • Sólo admite un operador en las busquedas avanzadas.

    • Parece que solo indiza la página principal, las páginas subsiguientes no se indizan.

    ¿Cuándo usarlo?

    • Cuando se quiera conocer de forma genérica qué sitios existen en internet, pero sin evaluación previa.

    Ejercicio: Busca sitios sobre campos de futbol españoles pero que no sean madrileños.

    Sintáxis: +estadio* +futbol +españa -madrid

    Recursos en castellano sobre genética en yahoo haciendo browsing.

    Inicio > Ciencia y tecnología > Biología >

    Argus Clearinghouse. www.clearinghouse.net

    Definición: Permite localizar información sobre recursos de internet clasifacados por materias y evaluados por bibliotecarios.

    Acceso: mediante browsing y búsquedas.

    Alcance: Cada registro tiene palabras clave y diversas puntuaciones obtenidas por contenidos, diseño del contenido, información meta incluye fecha de puntuación y la última fecha de evaluación.

    Uso:

    • Mediante browsing a partir de 13 categorías.

    • Mediante búsquedas:

    • la búsqueda por palabras clave usa por defecto AND, a menos que uno de los términos se trunque en cuyo caso el operador por defecto es OR.

    • Pueden usarse paréntesis: behavior and (cats or felines)

    • El signo de truncamiento es *.

    • No se puede utilizar el operador NOT.

    • Hay que volver a una parrilla inicial cada vez que se quiera iniciar una nueva búsqueda.

    Ventajas:

    • El directorio es muy selectivo.

    • Cubren muy bien la información académica.

    • Los recursos recomendados están bien clasificados y están revisados por personas.

    • Los autores de las guías son especialistas en la materia.

    • La mayoría de las guías estás descritas y evaluadas.

    • Existen explicaciones de los criterios de evaluación.

    Inconvenientes:

    • La cobertura temática está limitada por las guías que ser revisan.

    • Las guías con puntuaciones bajas no se excluyen.

    • Las guías no están necesariamente actualizadas.

    • Algunas guías están en ASCII y no contienen enlaces hipertextuales.

    • La búsqueda tiene una sintaxis inusual .

    • Es recomendable leer la sección de trucos “tips”

    ¿cuándo usarlo?

    -

    Vamos a hacer un viaje a un país africano, investigar sobre las enfermedades infecciosas, mediante browsing.

    03/04/01

    Diferencia entre directorio y motor:

    directorio: 90% del trabajo se hace manualmente

    motor: la inf. es automática. Software que busca en la red

    magellan.excite.com

    Agrupa en 18 entradas. El interfaz se parece a los vistos (browsing + búsqueda). Apenas tiene publicidad

    Se desciende por categorías, cada enlace tiene una descripción del recurso

    Ej.: reference -> libraries -> archives

    Excite realiza la búsqueda en los recursos clasificados y en los que están por clasificar. Los resultados los ordena por relevancia. Permite realizar la búsqueda en Excite y Webcrawler. Permite búsqueda por ideas y conceptos, no sólo por palabras-clave => búsqueda inteligente

    Las búsquedas se pueden realizar por: “frase exacta”, AND, OR, NOT. Se pueden sustituir por el signo + y por el signo -. También permite la búsqueda anidada (por paréntesis).

    Ventajas: orientado al gran público, sin ser tan “chabacano” como Yahoo

    Inconv.: Los enlaces no están tan actualizados

    Ejerc.: buscar 2 enlaces a sitios y publicaciones con vehículos (coches y/o camiones) con tracción a las 4 ruedas

    autos -> trucks ->

    Ejerc.: buscar un sitio donde te expliquen las reglas del juego backgammon

    games -> board -> backgammon

    Ejerc.: buscar empresas que comercialicen, distribuyan, etc. fibra óptica

    En www.esrc.bris.ac.uk [SOSIG] se describen sobre todo recursos del Reino Unido, aunque también del resto de Europa y del mundo.

    Son +/- 50.000 social sciences web pages, incluye +/- 12.000 recursos

    Los resultados están limitados por el país de publicación

    Ej.: education -> elementary education

    La inf. Está organizada por tipo de recursos (BD, artículos, libros, etc.)

    Permite búsquedas booleanas: AND, OR, NOT

    Ejerc.: un sindicato necesita el nº de trabajadores en EE.UU. para compararlos con España

    statistics -> oficial statistics ->

    Ejerc.: empresa española con conflicto legal con otra británica busca a alguien que medie en conflictos internacionales

    law -> international law -> international arbitration -> arbitration -> consensus mediation (británica)

    Búsqueda avanzada en SOSIG: Busca en SOSIG o en máquina de búsqueda de CC.SS. Puede buscar en todos los campos o en uno concreto. Permite truncar y ranking de relevancia. Permite errores de tipografía y/o mecanografía. Muestra descripción completa o sólo títulos. Permite búsqueda avanzada , Social Science. Engine, Thasaurus

    Ej.: arbitration

    Ejerc.: El Instituto de la Mujer necesita una relación lo más exhaustiva posible de obras de referencia o depósitos de inf. (repositouring-almacenes) sobre la mujer.

    Debemos anotar la estrategia de búsqueda, centros, los consultados. En doc. de Word con los resultados obtenidos ordenadamente entregar a v.repiso@uah.es

    El número máximo lo ponemos nosotros.

    Ejerc.: un profesor de ESO demanda a sus alumnos pág. web de 10 países con datos estadísticos sobre población. En búsqueda avanzada

    Demography AND statistics; Geography; Keywords; Any; Errors: 2; Titles only ==> resultado: 103

    Ejerc.: títulos de revistas electrónicas especializadas sobre psicología cognitiva

    Search engine: Motor de búsqueda. SW que recorre la red, buscando URL de sitios de la material que indiquemos. Búsqueda similar pero en BD, las descripciones se indizan automáticamente, no por especialistas. Conjuga directorio con motor de búsqueda.

    [PROYECTO]

    Si no se puede entregar en web, se puede hacer en papel.

    Centro: biblioteca, CD de cualquier tipo, servicio de cualquier tipo (real o imaginario), entorno (tipo de usuario al que va a servir (descripción), págs. web y su contenido.

    Ej.: biblioteca de instituto de enseñanza

    Acceso al catálogo de la biblioteca

    Recursos BD (ISBN, BD en CD-ROM, etc.)

    Inf. y serv. a profesores (cursos, materias, etc.)

    Inf. y serv. a alumnos (por edades, cursos, materias, etc)

    Recursos seleccionados en la red y con acceso directo

    Organizar servicios de orientación

    Buzón de sugerencias

    Desideratas

    Etc.

    Como ayuda para el proyecto podemos ver sitios similares en la red

    Exige más labor de pensar y organizar

    La puntuación máxima es de 2 puntos

    La fecha tope para entregarlo es el día del examen (29 mayo 2001), puede ser antes mejor.

    Robots, arañas (spider), hormigas, web, etc:

    Definición: Agentes que atraviesan de forma automática la Web, con fines:

    1.- Mantener la estructura hipertextual web

    2.- Duplicar directorios ftp (mirros)

    3.- Analizar el crecimiento estadístico de la red

    4.- A través de las fechas, descubrir lo nuevo en la red

    5.- Crear automáticamente BD textuales por los distintos servidores de la red

    Objetivo:

    1.- Indizar la red constantemente para permitir búsqueda de inf.

    2.- Encontrar docs. que contengan palabras-clave, introducidas en las búsquedas

    3.- Arquitectura estructura cliente/servidor

    La red la forman o consta de 3 componentes:

    1) Robots: Explora la red para localizar docs. periódicamente dentro de sedes web, news, gopher, ftp, dependiendo de lass características de SW. La función de los robots es localizar y recopilar.

    Se parte de una lista inicial de URL, dada por los stores del motor de búsqueda, accede a los docs. y mantiene la lista de direcciones. Se puede incluir tu pág. web en el motor, puede copiar toda la pág. o parte del texto con lo que se nutrirá (indizar) la BD

    El robot puede estar diseñado hasta un cierto nivel de enlace: cuanto más descienda, más págs. indizará.

    2) Bases de datos: Sistema de indización e interrogación.

    Indiz.: Automáticamente los docs. indizados

    Interrog.: Consultar los docs. indiz. (operadores)

    Las págs. iniciales de URL se indizan de modo que las empresas que hacen el trabajo no lo explican, lo guardan en secreto.

    Entrada: recibe texto por el robot

    Salida: índice del doc.

    A veces almacena la raíz de la palabra (steamming). Suelen excluirse palabras vacías o de alto uso en la red (Internet, artículos, preposiciones, etc.). Contiene las direcciones docs., de ahí necesaria la actualización.

    La bondad o maldad depende de la cantidad de inf. almacenada en fichero (URL: no buscar por tít.), tb guardar inf. donde está situado en pág., orden de palabras (para posteriores búsquedas)

    Lenguaje de consulta: Parte del programa que recoge la consulta del usuario, recorre fichero inverso (índice) para localizar docs. más relevantes. Parte + importante y la menos desarrollada

    3) Interfaz: Diálogo, interacción del hombre con la máquina o BD. Cómo está diseñada la pág. de consulta y presentación de resultados, cómo preguntamos y la facilidad de lectura, interpretación de resultados.

    Calidad:

    1.- Depende de la eficacia para descubris nuevos docs. y actualizar listas de direcciones.

    2.- Cantidad de inf. guardada en fichero invertido de la inf. que guarda.

    3.- Lenguaje de consulta: A sitios web que indizan bien, pero tienen mal lenguaje de consulta; otros es al revés: Lycos indiza +, pero tiene peor lenguaje de consulta; WebCrawler es al contrario.

    Criterios de evaluación:

    - Tamaño de la BD: Para establecerlo (URL, pág. web, docs. indizados, etc.), no hay criterios fijos, distinta unidad de medida. Quizá la unidad de medida + clara es URL, aunque tampoco está claro.

    - Otro criterio para evaluar es el alcance: área temática y geográfica. Algunos están limitados al tipo de publicación y protocolos (los menos).

    - También debemos tener en cuenta la actualización: debe ser constante, pero no es así, éste es el inconveniente, aunque no todos son así.

    - Indización: Texto completo (la mejor) o por partes.

    - Recuperación: La mayoría no soportan búsqueda anidad. Soportan booleanas, adyacentes, etc. Cuantas + opciones, mejor.

    - Cálculo de relevancia: Hay que ver como ordena los docs. (ranking de relevancia). La mayoría sólo tiene en cuenta el nº de veces que aparece en el doc.; esto es falso. También hay que tener en cuenta la homonimia. Son + aproximados los que utilizan etiquetas html (tít., final doc., etc.)

    Problemas generales de los robots:

    - Técnicos:

    - Sobrecarga en tráfico de red, relentiza la velocidad.

    - Indizar el propio texto: difícil definir la limitación del doc.: buscan por

    tipo de fichero, extensión del fichero, etc.

    - Dificultad de pág. html o usuarios de html: mala utilización de etiquetas html (tít. de pág. que no reflejan el tema de la pág, etc.)

    - Indización, recuperación e interfaz: Idénticos problemas de los OPAC's de bibliotecas. Se intenta una indización distribuida: los propios servidores web indizan los docs., mejorando la calidad de indización de esas máquinas.

    03/04/01

    ROBOTS O MOTORES DE 1ª GENERACIÓN:

    WebCrawler recoge sólo motores, tb conocidos como robots o spiders.

    Los más utilizados son: Altavista, Lycos, Hotbot, Ask Jevees. Veremos el mismo esquema en todos (caracterísicas generales, búsqueda, presentación, etc.)

    ALTAVISTA

    Su dirección es www.altavista.com. Es mejor el de Estados Unidos que el español, pq tiene continuo mantenimiento. ¿Cuándo utilizar? Cuando queremos usar una gran BD, ya que Altavista es la q más indiza. Permite búsquedas con frases, palabras clave, booleanas complejas, etc. Está realizada con Digital, al igual q la BD de Dialog.

    Indiza: Págs. Web, págs. de noticias, noticias de última hora, indiza por tipo de archivos (imágenes, sonido, etc.).

    Cuando conecta con .com,lanza la posibilidad de conectar con España. La BD se actualiza diariamente con material nuevo, esto no quiere decir q se indice.

    Se renueva periódicamente, pero no indica con q periodic. Las págs. se pueden traducir a través de Babel Fish (babelfish.altavista.com; translator.go.com). Cada año aproximadamente -menos del año- cambia las opciones de búsqueda. Permite búsqueda simple, búsqueda avanzada y media/topic search.

    Media/topic search: Permite buscar en medios totalmente comerciales. El cuadro de diálogo es de búsqueda simple, permite lanzar la búsqueda a un medio determinado. Cuando el resultado de la búsqueda es muy amplio, da opciones relacionadas con el término. Permite buscar dentro del resultado q hemos obtenido.

    Ej.: water: 11.000.000 matches; water+pollution: 221.000 (search within these results); water+pollution in imagen: 398 matches; water+pollution in audio: 13 matches.

    Altavista es “case sensitive”: con minúsculas y sin tildes, busca todo; con mayúsculas y con tildes, busca tal cual está escrito. Búsqueda por defecto es OR, con frases q están en su diccionario (introducidas por usuarios en sus búsquedas). Si no encuentra búsqueda en diccionario, utiliza OR. Para AND el equivalente es signo +, para OR es signo -, “” para frase exacta. Permite búsqueda por campos específicos.

    Ej.: White House: 294.000; WHITE-HOUSE: 48.000; White-House: 1.100.000; anchor: “White House” (178.000); title: White House (25.000).

    anchor significa ancla, por lo que aquí se puede traducir por enlace.

    Ej.: tintin: 53.000; URL: tintin (5.000); URL: tintin.htm (216); URL: tintin.html (204).

    Ej.: image: marylin.jpg (2.500); image: marylin.gif (1.100); marylin.gif in Images (122).

    Ej.: “digital library” in images (216).

    Truncamientos con *, etc.

    Búsqueda avanzada: booleana y anidada. En la boleana permite uso de MAY. (mejor ésta) o min. Con NEAR, máx. de 10 palabras entre los términos.

    Se puede acotar por fecha. La búsqueda avanzada tiene help, customize settings, family filter is off/on (lo que queremos que excluya).

    Customiza settings: Podemos definir resultados, fecha última de modificación, idioma doc., URL, etc.

    Cálculo pertinencia: Por nº ocurrencia, lugar donde aparece dentro de la pág., proximidad geográfica en la pág.

    Donde falla Altavista es en relevancia, no siempre el + relevante está el 1º.

    Ventajas:

    - Ofrece mayores posibilidades de búsqueda.

    - Ofrece bastante actualidad teniendo en cuenta el tamaño de la BD.

    - Revisan todo +/- cada 28 días.

    - Indizan continuamente páginas nuevas.

    Inconvenientes:

    - Va ligado a la propia naturaleza de la inf. en la red: mayor BD, + difícil y compleja la búsqueda.

    - Relevancia.

    - Operador por defecto: se convierte en AND cuando busca en + de un campo.

    - Inconsistencia en la búsqueda: a veces no busca en la BD completa, busca en parte cuando está muy ocupada.

    Ejercicio: Búsqueda avanzada.

    1) Un abogado dispone poco tiempo, busca inf. sobre legislación sobre derechos de autor aplicada a contenidos de Internet creados en España.

    “derecho* de autor” AND (legislación OR ley*) AND (Internet NEAR España) AND (dominio:.es); language: spanish; sort by: legislación OR ley

    2) Empresa hortifrutícola de Lepe solicita inf. al Centro de Documentación de la Fresa para localizar importadores de fresa en Argentina con lo que contactar.

    fruta* NEAR (importador* OR importación*) AND domain:.ar

    LYCOS

    Se puede controlar la relevancia de los docs. España y EE.UU. varía poco, no como Altavista. El dominio .com te saca directamente a .es. Es una de las BD + pequeña, no indiza a texto completo, se puede buscar por imagen y sonido.

    La búsqueda simple y avanzada se hace con formulario. En la búsqueda avanzada podemos acotar búsquedas a tipo de docs. En búsqueda simple busca en español y en Internet. En la avanzada se puede buscar por palabras (todas, en cualquier orden, en orden, hasta 25, frase exacta, etc.). En la simple Lycos trunca de forma automática, para no truncar debemos acabar con punto (.). No es case sensitive. Los signos q usa son: NOT: -; AND: +; OR: por defecto. La búsqueda no puede empezar por nº Para frase exacta usamos “”. Todas las palabras: AND; cualquier orden: OR; todas en orden: NEAR. Permite buscar con lenguaje natural y frase exacta.

    Relevancia: busca en qué catálogo y en qué parte del doc. Podemos definir qué es lo importante: frecuencia de palabras, aparezcan juntas, a propio texto en el mismo orden, etc.

    Cómo encuentra los resultados. Muestra por resultados y ordena por dominios o relevancia.

    Ventajas: Es un buen motor de búsqueda, muy actualizado, ofrece operadores boléanos y adyacencia de todos los motores.

    Inconvenientes: Indiza pocas págs., no al completo. Precisión en los resultados, no sale tan claro después de definirlo nosostros (relevancia).

    EJERCICIOS

    Ejercicio: Facultad de Física de Canarias necesita un tesauro de Astronomía en español en Internet.

    Tesauro NEAR Astronomía; todas las palabras hasta 25; cualquier orden; en págs. españolas; en título; alta, media, alta, alta, alta, alta; 10 por pág.; relevancia: 4 matches.

    Igual pero con tesauro AND Astronomía: 32 matches.

    Igual pero en todo el doc.: 4 matches

    Igual pero todas las palabras: 4 matches.

    Ejercicio: Necesitamos el reglamento por el que se otorgan cada año los Premios “Príncipe de Asturias”

    Reglamento AND “premio Príncipe de Asturias”

    Reglamento de los premios Príncipe de Asturias (frase exacta)

    HOTBOT

    BD más grande que Lycos, tiene + opciones de búsqueda por formulario. Buscamos en Hotbot cuando queremos buscar en BD grandes con opciones de búsquedas complejas, utilizando un formulario sencillo. Las opciones nos vienen dadas, permiten asociaciones.

    Ejercicio:

    Dónde podemos aprender a utilizar boomerang. Sitio que nos enseñen, no tiendas, etc. y, a ser posible, con imágenes.

    Boomerang manual; AND; Images: 1.000 aciertos

    Ejercicio: Centro especializado en cine. Debes encontrar al compositor de la banda sonora de la película “La máscara del demonio” de Mario Bava.

    En búsqueda rápida: La maschera del demonio; AND. Result.: Roberto Nicolosi

    Ejercicio: Estudio de Historia de la Medicina, investiga el papel de la fiebre amarilla en la Guerra Hispanoamericana, buscas en concreto bibliografías a cerca de este tema, elaboradas por universidades norteamericanas, ya que sabes que están investigando sobre ello.

    Búsqueda avanzada: Yellow fever; AND: Yellow fever and the Reed Comisión; the war and the yellow scourge, bibliography. La dirección es med.virginia.edu.

    Ejercicio: Salidas nocturnas para amigos que vienen a Huesca, les gusta el jazz, pero no sabes que locales hay.

    Búsqueda rápida: jazz Huesca; AND: jazz in Spain-Clubs; Huesca; Contrabajo Jazz Huesca.

    8 Mayo 2001

    METABUSCADORES

    ¿Qué son?

    • Máquinas que permiten formular búsquedas simultaneas en un determinado número de motores de búsqueda.

    • Se les denomina también motores de búsqueda en paralelo, megamotores, o metabuscadores.

    ¿Cómo funcionan?

    • Cuando un usuario lanza la búsqueda, el metabuscador las dirige a sus motores asociados componiendo una lista de aciertos, que representan, en teoría, las mejores respuestas a la pregunta.

    • Posteriormente pueden llevar a cabo otras tareas, como asgnar u ordenar por relevancia, formatear los resultados de forma consistente, verificar la accesibilidad o eliminar enlaces muertos.

    • La lista final indica le motor que ha generado la respuesta y pueden agruparse los resultados por ese criterio.

    Tipos.

    • Los que no agrupan los resultados. Se debe revisar un listado enviado como resultado de cada motor. Pueden exitir duplicados. Puede producir resultados inmanejables. Alguno motores obligan a conectarse con ellos para ver los resultados.

    Un ejemplo: Dogpile: www.dogpile.com

    • Los que agrupan los resultados. Son los más comunes. Eliminan los duplicados. Pueden daro cierto control sobre el nº de resultados que se quieren obtener. Dos consecuencias.

    • Recuperan sólo un porcentaje de resultados de los motores.

    • Los resultados pueden ser muy relevantes.

    Un ejemplo: www.metacrawler.com

    Ventajas:

    • En principio, dada la multiplicidad de motores parecen la solución óptima.

    • Útiles cuando se pretenden recuperar un número pequeño de resultados.

    • Excelentes para materias difíciles.

    • Excelente para tener una panorámica de la materia en el web.

    • Buena opción si no han obtenido resultados previamente.

    Inconvenientes:

    • En principio las búsquedas están limitadas a preguntas simples, porque al lanzar las preguntas simultáneamente, y no todos tienen las mismas prestaciones (operadores, adyacencia, etc.) hay que lanzar la búsqueda a la “baja”

    • Por tanto no se puede buscar por campos.

    • Resultados limitados.

    • Los resultados obtenidos de servicios que no los agrupan pueden ser redundantes o inmanejables.

    Alcance.

    • Los mejores trabajan para poder presentar los resultados manejables, por eso no es sorprendente que las listas de resultados sean breves.

    Calidad.

    • Depende extremadamente de las posibilidades de indización de los motores con los que trabaja.

    • Si el motor genera basura degrada la calidad del metabuscador.

    Control.

    • Los motores usan distintos procedimientos de búsqueda, por lo que una petición genérica contra varios, no ofrece las misas posibilidades que los resultados obtenidos con las funciones avanzadas de cada motor.

    Velocidad:

    • Si un motor es lento, impone retrasos en la presentación de resultados.

    ¿Cuándo usarlos?

    • Cuando se busque sobre una materia poco comun.

    • Cuando no se ha tenido suerte con otros servicios.

    • Cuando no se quiran formular búsquedas complejas.

    • Cuando se quieran recuperar tantos documentos como sea posible con una sola pregunta.

    Direcciones de los 4 metabuscadores que más se utilizan:

    • Metacrawler: www.metacrawler.com (ver descripción)

    METACRAWLER:

    ¿cuándo se utliza MetaCrawler?

    • Cuando se quieran resultados rápidos sin duplicados y ordenados por relevancia.

    Alcance:

    • Búsquedas simultáneas en los motores y directorios más importantes.

    • Puede buscar en Web, ficheros o en News.

    Búsqueda: Estamos haciendo una base de datos sonora de documentos más imporantes de este siglo; queremos los comentarios de Neil Amstrong cuando puso el pie en la luna en formato Real Audio.

    Búsqueda simple:

    • Formulario que permite los operadores any (OR), all (AND) y frase + y -.

    • Se puede utilizar también las comillas para buscar por frases y combinar con any o all.

    • Ignora mayúsculas y minúsculas.

    • No se puede buscar por campos.

    • Se puede buscar por paises.

    Búsqueda: Buscar el nobel de física de 1999

    Busca; Alzheimer (primer pantallazo)

    Búsqueda: Trabajas en del dpo de refencia de la escuela de ingenieria y telecomunicaciones, necesitas listas de correo que discutan sobre informática

    Búsqueda avanzada:

    • Permite seleccionar los motores contra los que lanzar la pregunta.

    • Limitar las búsquedas por país, dominio, origen.

    • Indicar la duración de la búsqueda.

    • La cantidad de resultados por página y por máquina de búsqueda a la que se conceta.

    • Y ver los resultados ordenados por relevancia, sede web o fuente.

    Localizar información pertinente sobre:

    Mapas del tiempo “weather maps”

    Manuscritos medievales “medieval manuscript”

    Sistema solar “solar sistem”

    Programa Apollo de la Nasa “Apollo Nasa Project”

    Ventajas:

    • Elimina duplicados, agrupa los resultados y verifica la relevancia.

    • Ordena mediante la suma de las puntuaciones otorgadas or las bases de origen y presentan los resultados de mayor a menor

    • Indica el motor del que procede la respuesta

    • Procesamiento de las preguntas muy rápido.

    Inconveniente:

    • No se puede buscar por campos excepto por lugar de procedencia.

    • Recupera un máximo de 10 sitios por buscador en el interfaz básico y 30 por buscador en el Interfaz avanzado (Power Search).

    MOTORES Y METABUSCADORES DE SEGUNDA GENERACIÓN.

    Son servicios que permiten agrupar los resultados de una búsqueda de forma organizada, por concepto (notherlight con las carpetas), dominio (educativo .edu, comercial .com), popularidad y número de enlaces. Contrastan con aquellos que los organizan de acuerdo con cálculos automáticos de relevancia.

    Tratan de ordenar los resultados con información no existente en las páginas.

    Ejemplos de motores:

    • gogle: Ordena por el número de enlaces existentes en las páginas. www.google.com

    • Direc Hit: ordena a partir de los resultados de otros motores. www.directhit.com

    • Northern Light. Ordena por “conceptos y tipos de sitios”.

    Tendencias:

    • Elemento humano.

    • Procesamiento de conceptos.

    • Aplican mecanismos diferentes para definir las intenciones de las búsquedas. Se acompañan de índices generados por personas. Estos servicios mediante diversas técnicas persgiuen procesar conceptos y no sólo “palabras clave”.

    • Juicios colectivos.

    • Servicios como Goggle o Direct Hit presentan como resultados aquellos que ya han sido presentados a millones de usuarios.

    • Directorios

    • Los motores de primera generación han reaccionado incluyendo o añadiendo como resultados de las búsquedas contenidos extraídos de los directorios recopilados por especialistas.

    GOOGLE www.google.com

    Características:

    • Ordena los resultados por el número de enlaces que tiene esa página, el número de citas a esa página.

    • Al determinar la relevancia, el motor busca pistas en diferentes partes del texto incluidos las palabras del ancla

    • No requiere sintaxis. Usa por defecto el operador AND con términos de proximidad

    • Para búsquedas refinadas pueden usarse las dobles comillas para frases “El niño” o el signo - para el operador booleano NOT.

    • Busca palabras vacías con la siguiente sintáxis: “reglas +del juego”

    • La opción “me siento afortunado” direcciona al primer acierto de la búsqueda.

    • Muestra coincidencias (caché). Acceso a la página tal y como fue indizada.

    • Páginas similares: solicitud de páginas similares.


    Inconvenientes:

    • Las novedades no aparecen en los resultados ya que tien que ser citados previamente por otros web's.

    • No tiene el operador OR.

    Busca: Un estudiante de ciencias de la información necesita documentos documentos de calidad sobre Humphrey Bogart.

    15-05-2001

    NOTHERN LINGHT www.nlsearch.com

    Alcance:

    • Es un motor de búsqueda de segunda generación.

    • Busca e indiza el contenido completo de páginas Web. Es una de las mayores bases de datos (una de las que más páginas indiza).

    ¿Cuándo utilizar Nothern Light?

    • Cuando se quiere buscar en texto completo y ver los resultados organizados en carpetas que representan conceptos y/o tipos de sedes web. Da también un porcentaje de valoración de las direcciones.

    Definición:

    • Se crea en 1995. Además de indizar páginas web, indiza el texto completo de revistas, críticas de libros, libros, bases de datos y noticias de agencias American Banker, Lancet (revista de medicina). , PR NewsWire, ABC, en su “colección especial”. Nos ofrece este servicio con un precio bastante reducido y nos envía los resultados a nuestra dirección de email. Ninguna materia está tratada con mayor exhaustividad que otras, es generalista.

    Características:

    • Se puede buscar en toda la web, en noticias de agencias (opción: new search), información de empresas (informes, análisis de mercado en su opción “bussines search”), informes de inversión, cotizaciones de bolsa, datos financieros (opción: stock quotes). Localización de empresas e instituciones de EE.UU y Canadá (opción geo search) y en dossieres elaborados por bibliotecarios y especialistas en información sobre temas de actualidad (special editios)

    • Búsqueda en colecciones especiales a través de las búsquedas avanzadas o en nlrsearch.nthernlight.com, con la opción adicional de búsqueda en la base de datos WEFA de predicciones econométricas.

    Búsquedas simples:

    • En lenguaje natural.

    • Por palabras clave, operador por defecto AND.

    • Operadores booleanos AND (+) OR NOT(-). Ejemplo: +”el niño” +hurricanes.

    • Ignora mayúsculas y minúsculas.

    • Truncamientos de una cadena *, un carácter %.

    • Búsqueda por frases “...”

    • Búsqueda anidada ( )

    • Búsqueda con combinación de diferentes operadores booleanos

    • Búsqueda por campos: url, title, text, company (colección especial), pub (título, colección, especial) RECID (identificación colección especial) SORT:date, ordena los resultados por fecha de más nuevos a más antiguos.

    Búsqueda avanzada:

    • Con formularios

    • Campos: en todo el documento, en título, URL o nombre de la publicación.

    • Se pueden limitar los resultados por materias, por sedes, por lengua, países y fechas.

    Estamos buscando “discrimination”

    Cuestiones de ergonomía para ratones y teclados en power search

    Descomponemos la pregunta en conceptos clave:

    Ergonomic

    Mouse

    Keyboard

    Workstation

    Computer

    (mouse OR mice OR keyboard% ) AND (ergonomic) AND (computer OR workstation)

    Problemas de la dislexia en adultos en la colección especial de nothernlight.

    Adult%

    Obras de referencia o recursos generales sobre el tema de la mujer.

    Presentación de los resultados:- Presenta los resultados en carpetas dividas por materias, tipo (mapas, versiones, etc.) fuente e idioma. Las carpetas cuentas con subdivisiones.

    Se proporciona rango de relevancia en cada resultado visible junto con las carpetas.

    Los resultados de un mismo sitio se presentan agrupados.

    Se puede elegir la opción de ver los resultados sólo de la colección especial (más de 4500 revistas y libros).

    http://vivisimo.com

    Motor de segunda generación parecido a nothernlight

    www.surfwax.com

    TEORÍA

    FASES EN UN PROYECTO DE AUTOMATIZACIÓN DE BIBLIOTECAS

  • LA FASE DE ESTUDIO

  • La biblioteca como sistema.

  • Organización y Gestión del proyecto.

  • Diseño de los puestos de trabajo.

  • LA FASE DE SELECCIÓN.

  • Definición de los requisitos del sistema.

  • Formular la RFP (Request for propousal) Informe de solicitud de propuestas.

  • Comparar y evaluar los sistemas del mercado.

  • LA FASE DE REALIZACIÓN.

  • Planificación del espacio.

  • Documentación de los puestos de trabajo.

  • Conversión de las bd's

  • Mantenimiento.

  • Instalación, aceptación y evaluación.

  • La biblioteca como sistema.

    • Etienne bonnot de Condillac (1715-1780)

    • Un sistema es una totalidad organizada, compuesta de elementos unidos por un conjunto de relaciones. Un sistema es 1 todo y no es reducible a la suma de sus partes.

    • Ludwing von Bertalanffy.

    • General System theory (1942) Que recoge ya en el siglo XX las ideas de Bonnot de Condillac.

    • Forrester, del MIT la aplica al análisis informático para el desarrollo del proyecto.

    Definición de un sistema de automatización de una biblioteca:

    Una biblioteca es un sistema que comprende un número de partes separadas pero interrelacionadas que se denominan subsistemas. Éstos a su vez, están oranizados en un conjunto de ctividades, tareas y operaciones que representan información, materiales bibligráficos, etc. Y que se crean para alcanzar un resultado o propósito específico.

    Ejemplos de grandes subsistemas en una biblioteca son adquisiciones, catalogación, circulación y referencia.

    Elementos de un Sistema Automatizado.

    Efectos causados por la utilización de un sistema automatizado.

    • En un proyecto de automatización se ponen de manifiesto las complejas interrelaciones de los componentes de una organización:

    • Tareas: trabajos diarios.

    • Tecnología: no sólo el hardware y el software, sino aprendizaje y modificación de principios.

    • Estructura: distribución de la responsabilidad, coordinación de las funciones y difusión de la información en la organización.

    • Personal: el componente más importante y complejo ya que constituye la “cultura de la organización”

    La automatización de un sistema de información lleva intrínseca la idea de reorganizción. No se trata de hacer las cosas de mejor forma, sino hacer las cosas de forma diferente y con una perspectiva diferente. Las funciones que dsarrolla el centro deben revisarse como si fuera la primera vez que se llevan a cabo.

  • ORGANIZACIÓN Y CONTROL DEL PROYECTO.

    • Definir los objetivos que se quieren alcanzar.

    • Estudio de la viabilidad.

    • Ir definiendo las actividades que se van a llevar a cabo.

    • Personal involucrado: comité de dirección, el director del proyecto, personal del área de usuario y personal del área de explotación (informáticos).

    • El presupuesto (con cuánto contamos y que podemos hacer con eso)

    • Evolución del proyecto: documentación y calendarios.

    Cuantas más cosas se prevean en la fase de estudio menos se deja a la improvisación y facilita más que se lleve a su fin.