Índice General

Pautas de lectura


Sección Anterior: 3.
La recuperación de información

Sección Siguiente: 5. Hipertexto e Hipermedia

 

Estructura sección 4:
4.1. La gestión informática de documentos
4.2. Tipos de sistemas de tratamiento y recuperación de información documental
4.3. Especificidad de los STRID
4.4. Tratamiento del texto
4.5. Las funciones técnicas de un STRID
4.6. Consultas al STRID: las ecuaciones de búsqueda


4.3. Especificidad de los STRID

Evidentemente, algún tipo de características debe diferenciar a los sistemas de tratamiento y recuperación de información, como tales, de los sistemas de gestión de bases de datos, en el sentido más tradicional del término, vistos en el capítulo anterior. Como Codina y Abadal han señalado, en primer lugar los SGBD se centrarían en almacenar información correspondiente a procesos de gestión, fácilmente predecibles (aunque sería necesario matizar esta afirmación). Por oposición, los STRID se harían cargo de datos e informaciones poco estructuradas, con un fuerte componente textual, y de más difícil predicción, a causa de su contenido (MEADOW, 1992; ASHFORD y WILLET, 1988; SAFFADY, 1989). Las tres características que permiten identificar a un STRID son:

1. Utilización de la técnica del fichero inverso.
2. Aplicación de la lógica booleana como método de recuperación de información.
3. Manipulación de registros de extensión variable o indefinida.

4.3.1. La utilización del fichero inverso.

En primer lugar, la utilización de la técnica del fichero inverso (o fichero invertido) es un elemento clásico de los STRID. Dada la gran cantidad de información textual contenida en las bases de datos documentales, los procedimientos clásicos de búsqueda secuencial o de ficheros indexados no son capaces de responder de manera adecuada a los requerimientos de velocidad y exactitud en la respuesta necesarios para satisfacer al usuario. Por esta razón, los STRID utilizan una especialización de los ficheros indexados, creando un nuevo tipo de fichero, al que se conoce como "fichero inverso".

El fichero inverso contiene, ordenadas alfabéticamente, todas y cada una de las palabras o términos con significado semántico, contenidos en los documentos presentes en la base de datos documental. Valdría la imagen de una larga lista de palabras ordenadas, acompañada por una indicación del documento en el que aparece cada una de ellas. En el momento de realizar una búsqueda o consulta, el STRID no procedería a leer todos y cada uno de los documentos: simplemente, buscaría en el fichero inverso correspondiente todas y cada una de las ocurrencias de los términos buscados, ofreciendo como resultado el número de documentos en el cual aparecen. Dependiendo del sistema utilizado, acto seguido pueden mostrar, o no, los documentos pertinentes. En la mayor parte de las situaciones, el sistema queda a la espera de nuevas órdenes del usuario, sean de ejecutar nuevas búsquedas, sean de visualización de los documentos.

Fig.4.1. Tratamiento del documento en un STRID

En la técnica del fichero inverso se ha introducido progresivamente mejoras y especializaciones. Así, los ficheros inversos no suelen limitar su contenido al término y el documento o documentos en los que aparece. Se han incorporado también los datos referidos al campo y parágrafo, dentro del documento en el que aparece, así como la línea y la posición absoluta dentro de la línea, en el modo "documento 3, campo título, línea 2, palabra 4".

4.3.2. La lógica booleana.

El álgebra booleana es el resultado de la obra de Boole, que estableció las bases de las operaciones a través de operadores lógicos. La combinación de los términos mediante operadores lógicos crea una ecuación, la cual puede ser transformada por medios informáticos, como se ha visto en un capítulo anterior. El STRID selecciona y compara, mediante la aplicación de la teoría de conjuntos, los resultados de la consulta al fichero inverso, y selecciona, de acuerdo a los operadores establecidos por el usuario, aquellos que responden a la lógica de la ecuación de búsqueda.

4.3.3. Manipulación de registros de estructura y extensión variable.

Por último, la capacidad para representar y manipular registros de estructura y longitud variable es otra de las características propias de los STRID. Como es previsible, no todos los documentos poseen la misma estructura, ni ofrecen la misma longitud. En los SGBD tradicionales se ha considerado necesario que la estructura y contenido de todos los registros fuese similar. Sin embargo, las características propias de los documentos obligan a que el sistema de bases de datos documentales sea capaz de aceptar, almacenar y manipular registros de forma flexible.

 

 

Jesús Tramullas y Kronos © 1997, 2000.