Motores de búsqueda

Informática. Computación. Crawler. Directorios. URL (Uniform Resource Locator). Metamotores. Multibuscadores. Crawling. Características. Clasificación

  • Enviado por: Javier Martinez
  • Idioma: castellano
  • País: Venezuela Venezuela
  • 6 páginas
publicidad
cursos destacados
Juegos Móviles con HTML5 - Veggies vs Zombies
Juegos Móviles con HTML5 - Veggies vs Zombies
Aprende a crear juegos móviles similares al famoso y galardonado Plants vs Zombies, desde cero y con las...
Ver más información

Laravel: Framework PHP rápido, potente y divertido
Laravel: Framework PHP rápido, potente y divertido
La tecnología avanza cada vez más rápido y cada vez contamos con menos tiempo para hacer las...
Ver más información

publicidad

Motores de Búsqueda

Los motores de búsqueda son la forma principal que permite a los usuarios de Internet encontrar sitios con información. Esa es la razón por la cual los sitios publicados en los listados de los motores de búsqueda incrementan dramáticamente su tráfico. Todos quieren aparecer en los listados, desafortunadamente muchos no lo logran por desconocer el modo en el cual trabajan los motores de búsqueda. Existen tres tipos de motores de búsqueda, los basados en crawlers, los basados en índices o directorios, y los meta motores de búsqueda. Estos se diferencian por la forma como organizan la información y los enlaces a las páginas que se encuentran en Internet. La elección del tipo de motor de búsqueda depende, principalmente, de la necesidad de información, el número de páginas que tienen indexadas, el nivel de actualización y un tanto de la experiencia y gusto que se tenga sobre alguna herramienta de búsqueda en especial. Las capacidades de búsqueda pueden construir o dividir la usabilidad de un sitio. Las herramientas de búsqueda efectivas destacan el poder de un sitio para transportar información.

Motores de Búsqueda basados en crawelr

Los motores de búsqueda basados en crawlers consisten en bases de datos muy voluminosas generadas como resultado de la indexación de partes significativas de los documentos que han sido analizados previamente en Internet. Los motores de búsqueda suelen recoger documentos en formato HTML y otros tipos de recursos, como noticias. La tarea es realizada por un programa denominado crawler (robot o spider) que recorre la red de forma automática explorando los servidores a nivel mundial, o en el ámbito de especialización del buscador (geográfico, idiomático o temático). La recuperación se realiza gracias a un sistema de gestión de base de datos que permite distintos tipos de consulta y a la ordenación de los resultados por relevancia, en función a la estrategia de consulta. Los motores de búsqueda son más exhaustivos que los índices en cuanto al volumen de páginas referenciadas, pero son mucho menos precisos que los índices, al no ser su contenido objeto de indexación humana.

Motores de búsqueda basados en directorios

Listan sitios en categorías, significando esto que solamente indexan la página principal de su sitio (o secciones de su sitio), y no todas las páginas. Normalmente ignoran toda la pre-promoción y usted debe proveer el título, la descripción y las palabras clave de su sitio al sugerir la URL al motor de búsqueda. Estos motores de búsqueda por lo general son operados por humanos quienes hechan una mirada a su sitio y se reservan el derecho de cambiar el título, descripción y palabras claves si lo consideran apropiado. Los sitios en una categoría usualmente se listan en orden alfabético.

Meta Motores de Búsqueda

La red de Internet es muy amplia y cambia constantemente, un solo motor de búsqueda no puede cubrirla y mantenerse actualizado al mismo tiempo. Al usar muchos motores, el poder en la búsqueda de la información es más grande. Los meta motores de búsqueda no contienen URL y descripciones en su base de datos, en lugar de eso contienen registros de motores de búsqueda e información sobre ellos. Envían la petición del usuario a todos los motores de búsqueda (basados en directorios y crawlers) que tienen registrados y obtienen los resultados que les devuelven. Algunos más sofisticados detectan las URL duplicadas provenientes de varios motores de búsqueda y eliminan la redundancia, es decir solo presentan una al usuario. En base a esa característica algunas personas los llegan a clasificar en dos tipos, los multi buscadores y los meta buscadores:

Los multi buscadores: ejecutan la consulta contra varios motores de forma simultánea y presentan los resultados sin más organización que la derivada de la velocidad de respuesta de cada motor de búsqueda. Un ejemplo es All4one.com, el cual busca en una gran cantidad de motores de búsqueda y directorios.

Los meta buscadores: funcionan de manera similar a los multi buscadores pero, a diferencia de éstos, eliminan las referencias duplicadas, agrupan los resultados y generan nuevos valores de pertinencia para ordenarlos. Algunos ejemplos son MetaCrawle.com, Cyber411.com, digisearch, y search.com.

Los motores de búsqueda se reservan el derecho de indexar su sitio o rechazarlo. El motor de búsqueda más estricto posiblemente sea el Open Directory Project cuyos editores de categoría rechazan sitios que caen en alguna de las siguientes categorías:

  • Sitios en construcción
    - Sitios con enlaces rotos
    - Sitios sin suficiente material para ser considerados valiosos para
    el visitante, o con material copiado de otros sitios
    - Sitios con contenidos ilegales o engañosos
    - Sitios que consisten solamente o principalmente de enlaces a otros sitios
    - Sitios cuya página principal tiene un tag <BASE> o un meta-tag
    REFRESH
    - Sitios que se ven bien con un navegador determinado y muy pobremente con otros navegadores
    - Sitios que se ven mejor en una determinada resolución y muy
    pobremente en otras resoluciones
    - Sitios que intentan "engañar" al motor de búsqueda de alguna forma (por ejemplo con palabras clave no relacionadas con sus contenidos).

Características del funcionamiento de los motores de búsqueda

CARACTERÍSTICAS DE RASTREO (CRAWLING)
Es importante conocer la forma como los crawlers actuarán sobre las páginas que rastrean, ya que de ello depende el éxito del registro completo del sitio y alcanzar una buena clasificación.

  • Rastreo profundo: el motor de búsqueda lista muchas páginas de un sitio, aún si no están explícitamente registradas en él.

  • Soporte de marcos: es una característica que permite a los motores de búsqueda seguir los enlaces a través de los marcos (frames).

  • Mapas de imágenes: son enlaces a otras páginas a través de imágenes.

  • Robots.txt: es un archivo de texto que permite indicar que páginas no deben ser indexadas en el sitio.

  • Meta índice robot: tiene el mismo objetivo que el robots.txt, pero este es una instrucción del código HTML de la página.

  • Rastreo por enlaces de popularidad: la popularidad de una página se detecta analizando cuantos enlaces existen hacia otra página. Los motores de búsqueda usan esa característica para determinar que páginas deben incluir en el índice de su base de datos, aunque esto no necesariamente indica que obtendrán una buena clasificación.

  • Aprende por frecuencia: el motor de búsqueda aprende con que frecuencia se modifican las páginas, para estimar el tiempo en el que volverá a visitarlas el crawler.

  • Inclusión pagada: muestra si el motor de búsqueda ofrece un programa donde se pueda pagar para garantizar que las páginas de un sitio se incluyan en el índice. Esto no es lo mismo que colocación pagada, la cual además de la inclusión en el índice, garantiza una posición en particular en relación a un término de búsqueda.

CARACTERÍSTICAS DE INDEXACIÓN
Las características de indexación indican lo que se indexa cuando el motor de búsqueda rastrea la página.

  • Texto completo: indexan todo el texto visible en el cuerpo de la página, aunque algunos no indexan algunas palabras (stop words) o las excluyen por parecer spam.

  • Stop words: algunos motores de búsqueda omiten palabras cuando indexan la página o al menos no las consideran durante la consulta. Estas palabras son excluidas para ahorrar espacio o aumentar la rapidez de búsqueda, ya que son palabras que aparentan ser spam.

  • Meta descripción y meta palabras claves: son meta índices que describen el contenido de la página y los términos con los que se le asocia para la búsqueda.

  • Texto alternativo y comentarios: el texto alternativo es aquel que se asocia con una imagen para describirla brevemente, el texto alternativo es parte del lenguaje HTML. Los comentarios suelen ser una anotación sobre la página y son un tipo de meta índice.

CARACTERÍSTICAS DE CLASIFICACIÓN
La mayoría de los motores de búsqueda usan la ubicación y la frecuencia de las palabras claves en las páginas como la base de clasificación en respuesta a una consulta. Además pueden ser relevantes algunos factores que estimulan la clasificación, tales como:

  • Estímulo de clasificación por meta índices: algunos motores de búsqueda suelen dar un estímulo a las páginas que contienen meta índices si coinciden con los términos de búsqueda.

  • Estímulo de clasificación por enlaces de popularidad: los motores de búsqueda pueden determinar la popularidad de una página por el número de enlaces que existen a ella desde otras páginas.

  • Estímulo de clasificación por aciertos directos: es un sistema que mide las preferencias de los usuarios sobre la lista de resultados que le presentan para refinar la relevancia de la clasificación.

CARACTERÍSTICAS DE SPAM
El spam es el uso de técnicas para obtener una mejor clasificación, estas técnicas están prohibidas por la mayoría de los motores de búsqueda, ya que atentan contra la eficiencia de sus algoritmos.

  • Meta refrescante: algunos propietarios de sitios crean páginas objetivo (target pages) que automáticamente conducen a los visitantes a diferentes páginas dentro del sitio. El índice meta refrescante es una de las formas de hacerlo. Algunos motores de búsqueda no indexarán páginas con un rango de meta refrescantes alto, o redireccionadas.

  • Texto Invisible: es la técnica de colocar texto en una página del mismo color que el fondo, haciéndolo invisible a la vista humana.

  • Texto pequeño: es una técnica que coloca texto sobre una página en un tamaño de fuente muy pequeño. Las páginas donde predomina el texto pequeño se confunden con spam, o en su defecto no se indexa el texto pequeño.

Tipos de Motores de Búsqueda Especializados

Los motores de búsqueda especializados se enfocan en un tipo de información y producen resultados mucho mejores que los buscadores generales. Son muy parecidos a los índices o directorios, aunque sólo abordan algún área concreta. Suelen ser grandes recopilaciones del conjunto de recursos sobre un tema específico. A continuación se presentan algunos de sus temas de especialización.

BUSCADORES DE PROGRAMAS Y DATOS
Buscadores como shareware.com, filez.com y aminet.org permiten la búsqueda de programas y datos, donde cada archivo que se encuentra en el sitio contiene una breve descripción de su función y algunas palabras claves, con lo cual la búsqueda se hace más simple.

BUSCADORES DE MP3
Existen sitios con motores de búsqueda exclusivos para mp3 (formato de archivos de música, cuya principal característica es su alta compresión, su tamaño varia entre los 2 y 5mb por canción), algunos de los más populares son napster, audiogalaxy y lycos. La forma como operan es la siguiente: los usuarios se registran y comparten un directorio dentro de su computadora, al cual se puede conectar cualquier otro usuario para extraer una canción, y es el mismo donde el usuario hace sus propias descargas de música. Funciona como un intercambio de mp3 en tiempo real de computadora a computadora, algo similar a los mensajeros instantáneos (como ICQ o IRC ) pero de uso exclusivo al mp3. Como característica destacada, estos buscadores contienen programas que permiten hacer descargas parciales, es decir, si la canción no se ha terminado de bajar se puede reanudar la descarga posteriormente, a partir de donde se quedo.

Napster, a partir de la versión 7, permite crear canales de charla, por ejemplo rock nacional, tropical e intercambiar solo en ese genero musical. Además de los distintos salones de charla e intercambio que ya tiene por defecto.

BUSCADORES DE GENTE
Encontrar direcciones postales, números telefónicos y direcciones de correo electrónico se ha vuelto muy simple para los motores de búsqueda especializados. Los buscadores genéricos sólo encontraran la información si está contenida dentro de una página HTML, pero muchas de las bases de datos usan creación dinámica de páginas, lo cual evita que sean encontradas por los crawlers.

Para buscar el correo electrónico de personas se puede utilizar Whowhere, four11 y Bigfoot. Además del correo electrónico presentan otros datos de interés. Por su parte Switchboard tiene números de teléfono de más de 90 millones de personas. TeleAuskunft.de permite realizar búsquedas de números telefónicos y direcciones postales en Alemania. Infospace.com permite consultar información como números telefónicos, direcciones postales, datos financieros (como el límite de la tarjeta de crédito), conocer si alguna persona ha estado en la corte, licencia de manejo y nombres de los vecinos, sin embargo el servicio no está libre de cargos. El rastreo de personas se ha vuelto más sencillo con las nuevas tecnologías, el número de seguro es muy útil para las búsquedas en Estados Unidos, ya que permite llegar a bases de datos restringidas para las personas que lo poseen. El sitio DigDirt busca detalles como visitas al doctor y facturas de la tarjeta de crédito. Se puede obtener información adicional de los periódicos que ofrecen sitios en línea, donde se puede accesar a toda la base de datos del periódico. La información que proporcionan puede ser usada para definir si un candidato es apto para algún empleo, los comerciantes pueden verificar información del cliente antes de enviarle los productos, etc.

BUSCADORES DE NOTICIAS Y LISTAS DE DISTRIBUCIÓN
Los sitios tile.net y dejanews son fáciles de usar y están bien organizados. InReference permite buscar en los archivos de más de 16,000 grupos de noticias y en más de 1,000 listas de distribución. Liszt tiene registradas más de 65,000 listas de distribución.

BUSCADORES DE LUGARES
City.Net ahora parte de excite (en la categoría de viajes) es un buen directorios para encontrar ciudades y mapas de cualquier parte del mundo. MetroScope también ofrece información sobre ciudades. AltaVista ofrece mapas sobre los Estados Unidos. Supermapa.com es un sitio bastante bueno para localización de calles en México, proporciona un croquis de la sección donde se ubica esa calle, el cual puede hacerse más general (ampliar el croquis) o enfocarse a una sección de la calle en particular.

BUSCADORES DE EDUCACIÓN
En el área de la educación se pueden visitar los sitios: Buscador del Programa de Nuevas Tecnologías (http://www.search.pntic.mec.es/buscador/) y Education World (http://www.education-world.com/)

BUSCADORES DE SOFTWARE
Uno de los más populares es download.com, el cual presenta buenas características de clasificación hechas por los propios usuarios, para determinar la relevancia o popularidad del software que ofrece y lo clasifica como freeware (gratuito), shareware (lo ofrece de forma gratuita por un periodo de tiempo limitado para evaluación) o demo (ofrece solo algunas de las características del programa). Además del software para PC (computadora personal), ofrece para MAC y para Linux

Existen muchos más tipos de motores de búsqueda especializados, de hecho casi para cualquier tema.