Los fundamentos sobre los que construir una técnica
exitosa de recuperación de información
en Internet son el conocimiento de las características
propias de los documentos existentes en Internet, y
de la teoría de la recuperación de información.
Las herramientas de búsqueda aplican sobre el
texto los principios que se han explicado sobre recuperación
de información textual, y los usuarios disponen
de las mismas prestaciones para la recuperación:
operadores booleanos, de posición, vectorización
Al tratarse de un entorno abierto y cambiante, las herramientas
de búsqueda ofrecen listados de resultados, que
dirigen al usuario hacia el documento original. Los
cambios que se producen, por la propia dinámica
del web, hacen que en ocasiones esa redirección
no ofrezca los resultados esperados, y que en numerosas
ocasiones haya que completar la búsqueda mediante
procesos de exploración basados en la navegación.
El usuario siempre debe pensar que no es suficiente,
en recuperación de información en Internet,
con seguir los resultados obtenidos de un motor de búsqueda:
hay que explorarlos, analizarlos, valorarlos, y seleccionarlos
como adecuados, o desecharlos como no pertinentes. Las
herramientas de recuperación de información
en el web son un medio más, una fase intermedia,
no un fin.
Las aproximaciones a la RI en Internet pueden establecerse
según la creación de recursos, o según
al herramienta utilizada. Ambos enfoques, al igual que
en casos anteriores, no son excluyentes:
Según la creación del recurso:
- La creación de listados, índices y
catálogos ordenados por áreas o materias,
de forma que el usuario dispusiese de un conjunto
de fuentes seleccionadas en las que empezar a buscar.
El ejemplo más conocido es el norteamericano
Yahoo!. Han ido añadiendo motores internos
a sus prestaciones, de forma que permiten consultar
mediante ecuaciones sus bases de datos
- La creación automática de bases de
datos basadas en índices o ficheros inversos,
mediante unas aplicaciones que rastrean o exploran
todo el ámbito Web, llamados robots, spiders
o wanderers. Estos robots rastrean el web a la búsqueda
de documentos, obtienen una copia, la indizan según
los métodos vistos en el capítulo anterior,
y usan los enlaces presentes en los mismos para localizar
nuevos documentos
Según la herramienta utilizada:
- Directa: El navegador se conecta al servidor web
que actúa como interfaz del motor de búsqueda
correspondiente a la base de datos que desea consultar.
El servidor le envía una página web
que actúa como interfaz de interrogación,
a través de la cual formula la consulta. El
servidor la recibe, procesa y envía como respuesta
una nueva página web, generada de forma dinámica,
que contiene las respuestas más pertinentes
a la cuestión formulada por el usuario.
- Por intermediario: El navegador se conecta a un
servidor web que le ofrece una interfaz de interrogación
propia. Esta interfaz le permite interrogar una base
de datos correspondiente a un motor de búsqueda
situado en un servidor web diferente al que ofrece
la interfaz. La interfaz actúa como intermediario
entre el motor de búsqueda de destino y el
usuario. El interés de estos intermediarios
(metabuscadores) se da cuando consultan a múltiples
motores de búsqueda.
- Por agente: El usuario instala en su máquina
una aplicación que permite formular las ecuaciones
de búsqueda y remitirlas a uno o varios motores
de búsqueda. La aplicación lanza conexiones
simultáneas al conjunto de motores que se trate,
recibe las respuestas, y las entrega al usuario en
una presentación única, que puede ofrecer
diferentes formas. Dependiendo de las prestaciones
del agente, las respuestas pueden ser filtradas, aplicando
criterios propios de eliminación de duplicados,
reordenación de resultados, etc.
- Por robot personal: Se trata de aplicaciones que
se instalan en el ordenador del usuario, y que son
capaces de acceder a un servidor web, construir un
mapa de índices de sus contenidos, y utilizar
los mismos para acceder a la información que
sea interesante para el usuario, obteniendo copias
de las páginas o documentos web contenidos
en el mismo.
|