Estas semanas he estado entretenido trabajando diferentes aspectos de la publicación en internet de colecciones de documentos de archivo. Como señalé en mi participación en el curso sobre Archivos y gestión de documentos ante la web semántica, los archiveros suelen esperar disponer de una solución de software que sea completa y directa: que les permita llegar y engranar, como se dice coloquialmente. La vida real es mucho más complicada.
Revisando bibliografía sobre el tema, he recordado este trabajo sobre la construcción de un portal para permitir el acceso a las colecciones de documentos de archivo, preparado por las Columbia University Libraries. Un ejemplo de proyecto de alcance medio, bien ideado y ejecutado. Y que debe destacarse porque se plantea esencialmente los objetivos básicos, las tecnologías de bajo coste disponibles para llevarlo a cabo, y la solución más adecuada. El correcto planteamiento y dimensionamiento de un proyecto de este tipo es fundamental para que llegue a tener éxito: no es el presupuesto, es la inteligencia.
Tienen los registros de documentos en MARC, y trabajan en MARC… pues sin problemas, se transforman en MARCXML para, a su vez, pasarlos a EAD usando XSLT. Como ya están etiquetados «semánticamente», se les aplica un motor de búsqueda capaz de explotar todo el potencial disponible, como es Lucene/Solr. Se obtiene una respuesta en JSON, así que se puede tratar y transformar en una página HTML. Y, ya puestos, se reprograma en PHP, se le añade RDF y se incorpora código para que Google sea capaz de identificar todos y cada uno de los registros. Y de paso le ponen OAI.
Todo esto y más en Catapano, T., DiPasquale, J., Marquis, S. Building an Archival Collections Portal. Code4Lib, 3, 2008.