Si eres periodista de datos, las búsquedas tradicionales se te pueden quedar cortas. Un buen trabajo de investigación requiere una herramienta que se adapte a tu tema. Así que, ¿por qué no crearla tú mismo?. Los alumnos del Master en Periodismo de datos de Villanueva han asistido al encuentro Journocoders Madrid meets BBC API organizado por Medialab Prado. El objetivo: aprender a crear búsquedas a medida usando la base de datos de la BBC, que contiene artículos de más de 400 medios de todo el mundo.

“Cuando empezamos a trabajar en el ‘Prometómetro’, necesitábamos una forma de localizar todas las noticias publicadas sobre cada candidado”, ha explicado Adrián Blanco, de la unidad de datos de El Confidencial y uno de los organizadores del evento. El “Prometómetro” es una herramienta creada para las elecciones Generales de 2015 y que recopila las promesas electorales de cada partido. Así, cuando llegan al gobierno, es fácil ver el rastro de compromisos incumplidos.

“Para recopilar todos los datos”, según Blanco, “usamos The Juicer, la API desarrollada por la BBC”. A continuación, el periodista ha enlazado un tutorial para meter a los asistentes en faena: Se trataba de crear un documento HTML con un script de JQuery que permitiera extraer búsquedas concretas a través de la API. Con unas modificaciones en el código, las búsquedas quedaban presentadas como un listado web.

En el ámbito de internet, cuando hablamos de API nos referimos a un conjunto de reglas que se usan para interactuar con un proveedor de contenidos (por ejemplo, cuando leemos tweets en páginas que no pertenecen a Twitter). Trabajar con APIs de medios de comunicación es una buena forma de agilizar el día a día del periodista. Ya no se trata sólo de crear herramientas útiles para el lector, sino para el propio profesional.

En las horas previas al taller de The Juicer, los alumnos del máster han continuado su aprendizaje de web scraping con Adolfo Antón, profesor del máster de Villanueva, y coordinador del grupo de periodismo de datos de Medialab Prado. En clases anteriores ya habían usado las funciones ImportHTML e ImportXML, que permiten extraer tablas y otro tipo de información estructurada de una página web. En esta ocasión han contado con la ayuda de Javier Galán, que ha explicado el funcionamiento de Kimono e Import.io, dos herramientas para scrapear sin necesidad de usar código.

El grupo de Periodismo de Datos de Medialab Prado organiza estos encuentros para poner en contacto a trabajadores de la comunicación con programadores, diseñadores, y cualquier otro perfil que pueda aportar sus conocimientos al trabajo con Big Data. A este Journocoders han acudido periodistas destacados por su trabajo con datos, como Mar Cabra (del Consorcio Internacional de Periodistas de Investigación) y miembros de las secciones de datos de varios medios, como El Mundo y El Confidencial.

(Pie de foto adrianblanco_medialab.jpg: “Adrián Blanco, de El Confidencial, explica cómo realizar búsquedas en la base de datos de la BBC”.