Nota para ThinkEPI, Grupo de Estrategia y Prospectiva de la Información
En un momento tecnológico en el cual los usuarios tienden a identificar la interfaz que utilizan con el sistema o aplicación que está por debajo de la misma, en el cual las aplicaciones se simplifican hasta extremos insospechados hace pocos años, existe una peligrosa tendencia a olvidar un principio básico y fundamental, aceptado y aplicado en el diseño de aplicaciones informáticas desde hace más de treinta años, y que de una cuestión técnica se está transformando en una cuestión social, política y económica.
1. El principio de independencia de los datos.
El principio de independencia de los datos establece que los datos deben ser independientes de las aplicaciones que los manejan. Este principio viene del campo del diseño de bases de datos relacionales, y ya fue incluido por Codd en su famosas doce reglas. De una manera más cercana y coloquial, es la independencia entre las aplicaciones y los ficheros que contienen los datos, la información, la que hace posible acciones tan sencillas como hacer copias de seguridad, intercambiar ficheros, o exportar e importar entre diferentes formatos, y permite acciones mas complejas, como reutilizar información entre aplicaciones y servicios web de diferentes proveedores. Estas tareas tan necesarias y comunes han fortalecido, además, el papel de los estándares para el tratamiento de información, ya que el acceso libre a la información almacenada demanda la existencia de estándares que establezcan las características lógicos y físicas de los ficheros que almacenan la información, como es el caso de OpenDocument o Acrobat PDF.
2. Internet y los silos de datos.
Un silo de datos es un gran depósito de información estructurada o semi-estructurada. Hasta el advenimiento de internet, la mayoría de los silos de datos eran privados y de difícil acceso. Con la popularización de la red, cada vez una mayor cantidad de información de los silos comenzó a estar disponible para los usuarios, mucha de ella gratuitamente, otra mediante pago. La proliferación de las tecnologías y aplicaciones del web social a comienzos de la década de 2000 hizo que comenzaran a crearse nuevos silos, cuyo contenido se ha ido formando con información proveniente de dos fuentes principales:
- La que se ha captado de los comportamientos y acciones que los usuarios llevan a cabo en la red.
- La proveniente de los contenidos e información que los usuarios han aportado a la propia red.
Puede imaginarse la gran cantidad de información de ambos tipos que atesoran servicios como Facebook, Twitter, Slideshare o Flickr, por citar unos pocos. El interés de servicios como los citados no radica en las funcionalidades que ofrecen, sino en la base de datos a la que dan acceso. Facebook vale lo que vale no por su funcionalidades de comunicación, que realmente son básicas, comunes y conocidas de antes, sino por la red de datos de usuarios a la que se puede tener acceso. En realidad, por los datos y la información de otros usuarios a los que ofrece acceso con la metáfora de red social.
3. El que tiene los datos, tiene el poder.
En un contexto como el actual, en el cual el desarrollo de aplicaciones se ha abaratado y acelerado, la riqueza no está en las propias aplicaciones. Quien tiene el poder es quien tiene el silo de datos, que es el que puede imponer políticas de usos permisibles y no permisibles de los datos contenidos en el mismo. Muchas de las aplicaciones innovadoras que alcanzan la cima del efímero éxito “2.0” se fundamentan en una capa de funcionalidad que aprovecha o explota los silos de datos que ofrecen otros. Google, siempre tan avizor, se ha posicionado antes que la competencia en el campo de la explotación de los silos de datos comprando Metaweb y su producto estrella Freebase. En el campo de la gestión de información un modelo parecido ya se vivió durante las décadas de 1980 y 1990, cuando los host de bases de datos campaban a sus anchas con sus tarifas y servicios. Esos tiempos pasaron, evidentemente, pero no hay que descartar que, a medio plazo, muchos silos de datos gratuitos vayan pasando a modelos mixtos para rentabilizar sus costes de mantenimiento y explotación.
No son muchos los usuarios que se toman la molestia, necesaria molestia, de leer los términos de uso de los servicios que contratan. Deberían hacerlo. Es necesario aclarar que cuando se habla de “propiedad de los datos”, los usuarios tienden a pensar que los datos son suyos, y pueden hacer con ellos lo que quieran, y es cierto… hasta cierto punto. Por ejemplo, las condiciones de uso de Facebook establecen en su Declaración de derechos y responsabilidades, punto 2 “Eres el propietario de todo el contenido y la información que publicas en Facebook, y puedes controlar cómo se comparte…” hasta que se llega al punto 2.1. “…nos concedes una licencia no exclusiva, transferible, con posibilidad de ser sub-otorgada, sin royalties, aplicable globalmente, para utilizar cualquier contenido de PI que publiques en Facebook o en conexión con Facebook.” La propiedad es del usuario, pero se cede el uso sin control y la obtención de beneficios a Facebook sin contraprestación. Twitter también muerde la manzana envenenada, parece que incluso con más ahínco: “El usuario se reserva los derechos de cualquier contenido enviado, publicado o presentado a través de los Servicios…. el usuario otorga a Twitter licencia mundial, no exclusiva, libre de regalías (con derecho a la concesión de la licencia a terceros) para utilizar, copiar, reproducir, procesar, adaptar, modificar, publicar, transmitir, mostrar y distribuir dicho Contenido cualquier medio de comunicación o método de distribución (actual o desarrollado en un futuro) … Twitter, otras compañías, organizaciones o personas asociadas con Twitter podrán llevar a cabo tales usos adicionales sin compensar de ninguna manera al usuario que ha enviado, publicado, transmitido o puesto a disposición Contenido a través de los Servicios.”
4. El “señor” de los datos
Esta avaricia de datos no es exclusiva de los servicios del web 2.0. En los dos últimos años hemos visto como el uso de los silos de datos se ha vuelto motivo de fricción entre proveedores y usuarios de mundo de la información. En 2009, Zotero fue amenazada judicialmente por Thomson Reuters, que intentaba evitar que los usuarios exportasen e importasen información entre las diferentes aplicaciones, llegando incluso a intentar arrogarse la propiedad intelectual de los ficheros de estilos que creaban los usuarios. A mi juicio, se trataba de un movimiento para intentar controlar los silos personales de datos bibliográficos, dado que su gestor bibliográfico de referencia estaba siendo superada por otros más avanzadas, en un movimiento defensivo evidentemente condenado al fracaso, como han demostrado posteriormente CiteuLike, 2collab o Mendeley.
Las bibliotecas tampoco han quedado al margen de estas tensiones. OCLC intentó evitar que Skyriver, que le estaba ganando contratos de servicios, utilizase los datos contenidos en WordlCat. Para ello cambió unilateralmente los términos de uso de su producto sin avisar, y llegó a enfrentarse incluso a sus propios socios. El asunto llegó a los tribunales en julio de 2010. Los problemas del catálogo colectivo C17, cuyo acceso es financiado todavía por el Instituto de Salud Carlos III, son un indicador de la inocencia con la que se han ido firmando contratos en los cuales no se había previsto la propiedad y explotación de los silos de datos creados con las aplicaciones. La web del Catálogo colectivo de Rebiun no contiene ni una mención de la propiedad de los datos del catálogo, y de cuales son los usos permitidos de los mismos a terceras partes. En el caso de REBECA, se establece la necesidad de solicitar una cuenta de usuario, al parecer restringida a bibliotecas públicas, pero tampoco se ofrece mayor información. Más curioso es el caso de Dialnet, que específicamente indica, al pie de su interfaz “Todos los derechos reservados”, sin mayor aclaración, pero en que en sus páginas de ayuda publica su política de Acceso Abierto.
Todas estas cuestiones no deberían llevar a una reflexión sobre cuales deberían ser las políticas de propiedad y uso de los datos generados por las unidades de información en el marco de su trabajo diario. Para mí, evidentemente, mis datos son míos, y la compra de licencias de uso de una aplicación dada no debe suponer que los datos sean cedidos al proveedor, ni que tenga derechos sobre los mismos, y menos cuando son fruto de mi trabajo y, además, puedan ser resultado de actividades financiadas con fondos públicos. La Ley de Propiedad Intelectual contempla en su articulo 12.2. una definición “amplia” de lo que se considera base de datos, y añade en el 12.3 “La protección reconocida a las bases de datos en virtud del presente artículo no se aplicará a los programas de ordenador utilizados en la fabricación o en el funcionamiento de bases de datos accesibles por medios electrónicos.”, reconociendo que no es lo mismo la base de datos que la aplicación usada para gestionarla. El artículo 133.3a establece como “fabricante” de la base de datos, y poseedor de sus derechos a “la persona natural o jurídica que toma la iniciativa y asume el riesgo de efectuar las inversiones sustanciales orientadas a la obtención, verificación o presentación de su contenido.” El dueño de los datos de un blog o de un web dinámico es su autor o creador de contenidos, no la empresa que instaló un CMS y cobra por su mantenimiento. Por si acaso, que no se olvide hacerlo constar de manera expresa en el contrato correspondiente.
En realidad, las administraciones públicas españolas ya están entendiendo la importancia de los silos de datos abiertos en cuanto han empezado a dar acceso a datos a través de iniciativas de apertura de datos (Open Data), para que puedan ser usados por terceros. Será interesante ver cómo se van conjugando las iniciativas privadas en busca de rentabilidad con la utilización sensata de los datos de las administraciones públicas que, no debe olvidarse, se sufragan con el dinero de los ciudadanos.