Web semántico en bibliotecas: Del material del que están hechos los sueños (del blok de bid)

«La teoría es cuando se sabe todo y nada funciona. La práctica es cuando todo funciona y nadie sabe por qué. En este caso hemos combinado la teoría y la práctica: nada funciona… y nadie sabe por qué.» (Albert Einstein).

Reproduzco a continuación el texto que me han invitado a publicar en el blok de bid, y que corresponde a una reseña sobre el informe del  W3C Library Linked Data Incubator Group (september 2011). Draft report with transclusion.

El web semántico, el paraíso soñado de Tim Berners-Lee, está tardando en llegar más de lo previsto. Las promesas del acceso a la información interrelacionada semántica y significativamente en tiempo real, mediante cualquier dispositivo, siguen siendo una meta anhelada. Lo cierto es que, tras veinte años de World Wide Web, y diez años después del escrito seminal de Berners-Lee, Hendler y Lassila en Scientific American, resulta sorprendente que las tecnologías semánticas no hayan alcanzado las expectativas previstas. En 1988, Berners-Lee y el W3C ya habían publicado un roadmap del web semántico. Las herramientas software necesarias para crear y explotar conjuntos semánticos de información ya existen, tanto en productos comerciales, como en numerosas herramientas resultantes de proyectos de investigación. Se dispone de un amplio conjunto de lenguajes y esquemas de etiquetado de información, que permiten hacer interoperables grandes volúmenes de información… con todo esto disponible, en algún lugar debe encontrarse el motivo o motivos del retraso.

El web se ha visto como un sistema de publicación textual rápida, sin especiales complicaciones técnicas, al alcance de cualquier ciudadano. La facilidad para crear documentos en HTML, unido a la popularización de editores orientados a la edición, que no al etiquetado significativo de información, trajo como consecuencia que durante una década se creara y publicara gran cantidad de información textual y gráfica, pero sin apenas procesado semántico útil para otros usos ¿Durante cuánto tiempo se ha discutido sobre el interés que tenían los metadatos para usos avanzados, mientras se comprobaba que los creadores de información hacía caso omiso de su utilización? El problema era que etiquetar semánticamente los documentos generados requería un esfuerzo (y un coste) suplementario, que muchos creadores de contenidos no estaban dispuesto a asumir. Y cuando decidían acudir a una referencia para sus metadatos, se encontraban con esquemas de clasificación de origen bibliotecario, de imposible aplicación a su contexto y necesidades, que además no ofrecían versiones etiquetadas reutilizables.

Este panorama cambia a comienzos de la década de 2001, no de la mano del web semántico, sino de la popularización de servicios y herramientas del web 2.0. Los gestores de contenidos más básicos, los blogs, requieren de sus usuarios que organicen la información en categorías, que la etiqueten… y los usuarios empiezan a querer y a enlazar información relacionada con sus propios contenidos. Se establecen pautas intuitivas de enlazado semántico selectivo por parte de los usuarios finales, que aprovechan las funcionalidades a su alcance. Una mayor comprensión de la arquitectura y funcionamiento de los sistemas de gestión de contenidos y de la importancia de almacenar la información de manera estructurada en bases de datos trae una sensibilidad notable hacia la importancia de desarrollar esfuerzos que hagan posible etiquetar , enlazar y reutilizar la información automáticamente, en virtud de su contenido semántico. La aparición en los sistemas de gestión de contenidos más extendidos de funcionalidades capaces de crear e integrar información etiquetada en RDF, junto al número creciente de recursos etiquetados en tripletas RDF, como muestra el desarrollo de Linked Data y los cada vez más numerosos SparqlEndpoints están permitiendo que se llegue a un punto clave para la expansión del web semántico en servicios y aplicaciones web.

En este punto, es necesario volver a las bibliotecas. Las bases de datos que sostienen los OPACs contienen una de las principales fuentes de información estructurada disponible en el mundo. Sin embargo, y a pesar de la importancia que los estándares tienen en la informatización bibliotecaria, lo cierto es que no son estándares pensados para la reutilización de información, sino orientados a la gestión bibliotecaria. El W3C es bien consciente de ello y del importantísimo papel que los datos bibliotecarios pueden jugar en el marco de Linked Data, y ha mantenido entre 2010 y 211 el W3C Library Linked Data Incubator Group, cuya actividad, recomendaciones y resultados ha ido publicando y actualizando en la wiki correspondiente. El borrador del informe final se publicó el 25 de agosto de 2011, y contiene claras y contundentes afirmaciones sobre las acciones que deben desarrollar las bibliotecas si quieren integrar sus conjunto de datos en el web semántico a través de Linked Data. No se trata de un informe largo, y su lectura completa no es recomendable: es obligada. El 31 de agosto, Library Journal se hizo eco de su publicación, dedicándole un comentario de M. Kelley titulado «How the W3C Has Come To Love Library Linked Data«.

El informe se estructura en ocho secciones, de las cuales son de relevancia las secciones 4 a 6, y los dos Apéndices. La sección 4 expone los beneficios que tendría para los datos bibliotecarios la integración con y como Linked Data, en especial con referencia el enriquecimiento de la información, y a los procesos de descubrimiento de información por parte de los usuarios, mediante la navegación y la recomendación. La sección 5 aborda la situación actual de los datos bibliotecarios y sus silos, y no resulta muy halagüeña. Los datos bibliotecarios no se integran con otros silos, sus estándares son muy rígidos, pensados en y para comunidades cerradas, los identificadores están diseñados para un uso local en la mayoría de las ocasiones y no pueden enlazarse con otros contenidos, la calidad de los datos es muy variada… La sección 6 es la sección nuclear, y contiene un conjunto de recomendaciones relevantes. La clave estaría en hacer los datos bibliotecarios disponibles para su uso como Linked Data, al mismo tiempo que se usan Linked Data externos para enriquecer los servicios bibliotecarios. Es necesario identificar conjuntos de datos de valor que puedan publicarse dentro de proyectos asumibles, y adecuadamente dimensionados (no todo vale). De especial importancia es cambiar el enfoque en el desarrollo de estándares, atendiendo a la participación con otras comunidades de expertos en web semántico. Técnicamente, la creación, gestión y preservación de URIs, así como el desarrollo y gestión de vocabularios en RDF son imprescindibles. La experiencia bibliotecaria en preservación digital es un factor a favor para la necesaria gestión de vocabularios en los próximos años. Finalmente, los Apéndices contienen un conjunto de referencias breves a diferentes recursos y herramientas. No deben pasar desapercibidos los enlaces a los entregables dedicados a Casos de uso y a Conjuntos de datos, vocabularios y conjuntos de elementos de metadatos, que ofrecen un rico panorama de propuestas, proyectos y recursos sobre el desarrollo de Linked Data en servicios bibliotecarios.

Dado lo interesante de las afirmaciones contenidas en el Final Draft, me voy a permitir extraer unas cuantas citas, en especial de títulos de apartados, que resultan significativas por sí mismas: “Los datos bibliotecarios no están integrados con recursos web”; “La comunidad bibliotecaria y la comunidad semántica usan diferentes terminologías para conceptos similares de metadatos.”; “Los estándares bibliotecarios se diseñan sólo para la comunidad bibliotecaria”; “Desarrollar estándares de datos bibliotecarios que sean compatibles con linked data”; “Diseñar historias de usuarios y modelos para interfaces de usuario”; “Conectar los estándares de datos bibliotecarios con el espacio de linked data”…sin olvidar que “Los cambios en la tecnología bibliotecaria dependen de los desarrollos de los vendedores de sistemas”…de nuevo, hay que pensar en las soluciones de software libre.

El Linked Data y su evolución debería traer a la palestra una reflexión sobre la viabilidad de un modelo bibliotecario que se sigue desarrollando a expensas de avances y propuestas tecnológicos provenientes de otros contextos y comunidades. Si bien es cierto que existen notables y punteros proyectos y servicios bibliotecarios en el web, no es menos cierto que las bibliotecas, en muchas ocasiones, adoptan un papel de adaptador de segunda o tercera ola. En un contexto científico, social y económico en el que se valora la innovación, esto no parece una estrategia inteligente. Realmente, este drat report no dice nada que no sepamos o pueda considerarse novedoso; lo que puede preocupar es que todavía sea necesario decírselo a las bibliotecas. Para ilustrar las posibilidades del Linked Data en bibliotecas, es mejor terminar con el podcast de Dan Brickley para The Harvard Library Innovation Laboratory at Harvard Law School.

Texto originalmente publicado en blok de bid, Web semántico en bibliotecas: Del material del que están hechos los sueños.