En Code4Lib, Building an Archival Collections Portal

Estas semanas he estado entretenido trabajando diferentes aspectos de la publicación en internet de colecciones de documentos de archivo. Como señalé en mi participación en el curso sobre Archivos y gestión de documentos ante la web semántica, los archiveros suelen esperar disponer de una solución de software que sea completa y directa: que les permita llegar y engranar, como se dice coloquialmente. La vida real es mucho más complicada.

Revisando bibliografía sobre el tema, he recordado este trabajo sobre la construcción de un portal para permitir el acceso a las colecciones de documentos de archivo, preparado por las Columbia University Libraries. Un ejemplo de proyecto de alcance medio, bien ideado y ejecutado. Y que debe destacarse porque se plantea esencialmente los objetivos básicos,  las tecnologías de bajo coste disponibles para llevarlo a cabo, y la solución más adecuada. El correcto planteamiento y dimensionamiento de un proyecto de este tipo es fundamental para que llegue a tener éxito: no es el presupuesto, es la inteligencia.

Tienen los registros de documentos en MARC, y trabajan en MARC… pues sin problemas, se transforman en MARCXML para, a su vez, pasarlos a EAD usando XSLT. Como ya están etiquetados «semánticamente», se les aplica un motor de búsqueda capaz de explotar todo el potencial disponible, como es Lucene/Solr. Se obtiene una respuesta en JSON, así que se puede tratar y transformar en una página HTML. Y, ya puestos, se reprograma en PHP, se le añade RDF y se incorpora código para que Google sea capaz de identificar todos y cada uno de los registros. Y de paso le ponen OAI.

Todo esto y más en Catapano, T., DiPasquale, J., Marquis, S. Building an Archival Collections Portal. Code4Lib, 3, 2008.