Bibliotecario de datos… pero, ¿sabes Python?

Con estos afanes que les dan a los bibliochupimodernos de encontrar molones y chachis trabajos y perfiles profesionales, en los últimos meses estamos asistiendo al auge de los data librarians, los bibliotecarios de datos. Ya no mola la content curation, ahora lo más es cambiar los libros por conjuntos de datos, y gestionarlos para los investigadores…

Acaba siendo realmente agotadora esta búsqueda de la novedad. Novedad que además no es tal, ya que este perfil lleva rondando la profesión desde hace una década. Ay, si es que hay mucho moderno que necesita menos autoayuda y más leer y documentarse. Ya he completado el fustigamiento, ahora a lo interesante. Y es que para ser bibliotecario de datos es evidente que hay que saber sobre preparación y procesamiento de datos en investigación. Data Science es una disciplina en pleno auge, y ya se habla de databrarians. No basta con saber los fundamentos de metadatos y demás. Si un bibliotecario debe conocer lo básico sobre lectura o sobre comportamiento informacional, es lógico y cabal que un bibliotecario de datos sepa sobre datos. Dando un paso más, un científico de datos requiere todo un conjunto de competencias especializadas.

El procesamiento de datos se está llevando a cabo generalmente usando R, el paquete estadístico libre (también puedes gastar dinero con opciones propietarias innecesarias si es tu deseo), o con el lenguaje Python mediante librerías y aplicaciones derivadas. Los amantes de las infografías pueden disfrutar de una comparativa entre ambas. Pero, en primer lugar, hay que aprender lo básico sobre gestión de datos de investigación. Dos buena opciones gratuitas son MANTRA, para la gestión de datos, y DataCamp, con interesantes cursos introductorios para la preparación y análisis de datos. También hay que leer: Jeffrey Stanton, de la School of Information de Syracuse University, ha liberado su libro Introduction to Data Science (2012).

Si se prefiere acudir al manual tradicional, buenas opciones son (aunque ya sabéis que yo recomiendo acubir a la biblioteca):

Janert, Phillip K. (2010). Data Analysis with Open Source Tools. A hands-on guide for programmers and data scientists. O’Reilly.

Kinney, West (2012). Python for Data Analysis. Data Wrangling with Pandas, NumPy, and IPython. O’Reilly.

Phuong Vo, Phuong;  Martin Czygan, T.H. (2015). Getting Started with Python Data Analysis. Packt.

Como decía al comienzo, acaba siendo necesario practicar los fundamentos del lenguaje Python si se quiere trabajar con datos. Las herramientas más extendidas y utilizadas son:

  • pandas, Python Data Analysis Library: librerías para la preparación y análisis de datos.
  • ScyPy: es un conjunto de aplicaciones, desarrolladas sobre Python, para el estudio y análisis matemático de conjuntos de datos.
  • IPython: entorno interactivo para análisis de datos, que se ejecuta sobre Jupyter.
  • NumPy: paquete para procesamiento científico de datos en Python.

Hay que estar atentos al desarrollo de Jupyter. Sobre el núcleo de procesamiento se instala un cuaderno de trabajo, el Jupyter notebook en el cual se desarrolla de forma interactiva un proceso de investigación, incluyendo la integración y análisis de datos en tiempo real, el código de programación empleado, así como visualizaciones, etc. Un cambio impresionante, frente al paper estático al que estamos acostumbrados. Podrá integrar fuentes Big Data, y trabajará no sólo sobre Python, sino que incluirá otros lenguaje de programación. Y tampoco hay que olvidar que hay opciones para la programación científica como Julia y Scala. El panorama para los próximos años se presenta dinámico.