Portada Teoría Ejercicios Herramientas Transparencias

Menú de la sección:

1. Problemas de los documentos digitales
2. Variabilidad de los documentos en el Web
3. Aproximaciones a la recuperación de información
4. El proceso de recuperación de información
5. Los directorios
6. Los motores de búsqueda
7. Los agentes personales
8. Internet invisible/web profundo
9. Tutoriales

3. Aproximaciones a la recuperación de información

Los fundamentos sobre los que construir una técnica exitosa de recuperación de información en Internet son el conocimiento de las características propias de los documentos existentes en Internet, y de la teoría de la recuperación de información. Las herramientas de búsqueda aplican sobre el texto los principios que se han explicado sobre recuperación de información textual, y los usuarios disponen de las mismas prestaciones para la recuperación: operadores booleanos, de posición, vectorización… Al tratarse de un entorno abierto y cambiante, las herramientas de búsqueda ofrecen listados de resultados, que dirigen al usuario hacia el documento original. Los cambios que se producen, por la propia dinámica del web, hacen que en ocasiones esa redirección no ofrezca los resultados esperados, y que en numerosas ocasiones haya que completar la búsqueda mediante procesos de exploración basados en la navegación. El usuario siempre debe pensar que no es suficiente, en recuperación de información en Internet, con seguir los resultados obtenidos de un motor de búsqueda: hay que explorarlos, analizarlos, valorarlos, y seleccionarlos como adecuados, o desecharlos como no pertinentes. Las herramientas de recuperación de información en el web son un medio más, una fase intermedia, no un fin.

Las aproximaciones a la RI en Internet pueden establecerse según la creación de recursos, o según al herramienta utilizada. Ambos enfoques, al igual que en casos anteriores, no son excluyentes:

Según la creación del recurso:

  • La creación de listados, índices y catálogos ordenados por áreas o materias, de forma que el usuario dispusiese de un conjunto de fuentes seleccionadas en las que empezar a buscar. El ejemplo más conocido es el norteamericano Yahoo!. Han ido añadiendo motores internos a sus prestaciones, de forma que permiten consultar mediante ecuaciones sus bases de datos
  • La creación automática de bases de datos basadas en índices o ficheros inversos, mediante unas aplicaciones que rastrean o exploran todo el ámbito Web, llamados robots, spiders o wanderers. Estos robots rastrean el web a la búsqueda de documentos, obtienen una copia, la indizan según los métodos vistos en el capítulo anterior, y usan los enlaces presentes en los mismos para localizar nuevos documentos

Según la herramienta utilizada:

  1. Directa: El navegador se conecta al servidor web que actúa como interfaz del motor de búsqueda correspondiente a la base de datos que desea consultar. El servidor le envía una página web que actúa como interfaz de interrogación, a través de la cual formula la consulta. El servidor la recibe, procesa y envía como respuesta una nueva página web, generada de forma dinámica, que contiene las respuestas más pertinentes a la cuestión formulada por el usuario.
  2. Por intermediario: El navegador se conecta a un servidor web que le ofrece una interfaz de interrogación propia. Esta interfaz le permite interrogar una base de datos correspondiente a un motor de búsqueda situado en un servidor web diferente al que ofrece la interfaz. La interfaz actúa como intermediario entre el motor de búsqueda de destino y el usuario. El interés de estos intermediarios (metabuscadores) se da cuando consultan a múltiples motores de búsqueda.
  3. Por agente: El usuario instala en su máquina una aplicación que permite formular las ecuaciones de búsqueda y remitirlas a uno o varios motores de búsqueda. La aplicación lanza conexiones simultáneas al conjunto de motores que se trate, recibe las respuestas, y las entrega al usuario en una presentación única, que puede ofrecer diferentes formas. Dependiendo de las prestaciones del agente, las respuestas pueden ser filtradas, aplicando criterios propios de eliminación de duplicados, reordenación de resultados, etc.
  4. Por robot personal: Se trata de aplicaciones que se instalan en el ordenador del usuario, y que son capaces de acceder a un servidor web, construir un mapa de índices de sus contenidos, y utilizar los mismos para acceder a la información que sea interesante para el usuario, obteniendo copias de las páginas o documentos web contenidos en el mismo.
2. Variabilidad de los documentos...

© Un curso de Jesús Tramullas para el Instituto de Ciencias de la Educación de la Universidad de Zaragoza
Versión 1.4. 21 de Junio de 2002.