El periodismo basado en datos , a menudo abreviado como "ddj", un término en uso desde 2009, es un proceso periodístico que se basa en analizar y filtrar grandes conjuntos de datos con el propósito de crear o mejorar una noticia. Muchas historias basadas en datos comienzan con recursos recientemente disponibles, como software de código abierto , publicación de acceso abierto y datos abiertos , mientras que otros son productos de solicitudes de registros públicos o materiales filtrados. Este enfoque del periodismo se basa en prácticas más antiguas, sobre todo en los informes asistidos por computadora (CAR), una etiqueta utilizada principalmente en los EE. UU. Durante décadas. Otras etiquetas para enfoques parcialmente similares son "periodismo de precisión", basado en un libro de Philipp Meyer, [1] publicado en 1972, donde abogó por el uso de técnicas de las ciencias sociales en la investigación de historias.
El periodismo basado en datos tiene un enfoque más amplio. En esencia, el proceso se basa en la creciente disponibilidad de datos abiertos que están disponibles gratuitamente en línea y se analizan con herramientas de código abierto . [2] El periodismo basado en datos se esfuerza por alcanzar nuevos niveles de servicio para el público, ayudando al público en general o grupos o individuos específicos a comprender patrones y tomar decisiones basadas en los hallazgos. Como tal, el periodismo basado en datos podría ayudar a colocar a los periodistas en un papel relevante para la sociedad de una nueva manera.
Desde la introducción del concepto, varias empresas de medios han creado "equipos de datos" que desarrollan visualizaciones para las salas de redacción. Los más notables son los equipos de Reuters, [3] Pro Publica, [4] y La Nacion (Argentina). [5] En Europa, The Guardian [6] y Berliner Morgenpost [7] tienen equipos muy productivos, así como emisoras públicas.
Como demuestran proyectos como el escándalo de gastos de MP (2009) y la publicación en 2013 de las "filtraciones en alta mar", el periodismo basado en datos puede asumir un papel de investigación, lidiando con datos "no tan abiertos" también conocidos como datos secretos en ocasiones.
Los premios anuales de periodismo de datos [8] reconocen los reportajes sobresalientes en el campo del periodismo de datos, y en los últimos años se han otorgado numerosos premios Pulitzer a la narración basada en datos, incluido el premio Pulitzer 2018 en reportajes internacionales [9] y el premio Pulitzer 2017. en la función pública [10]
Definiciones
Según el arquitecto y periodista multimedia Mirko Lorenz, el periodismo basado en datos es principalmente un flujo de trabajo que consta de los siguientes elementos: profundizar en los datos raspándolos, limpiándolos y estructurándolos, filtrando por minería específica, visualizando y creando una historia . [11] Este proceso puede ampliarse para proporcionar resultados que se adapten a los intereses individuales y al público en general.
El entrenador y escritor de periodismo de datos Paul Bradshaw describe el proceso del periodismo basado en datos de una manera similar: los datos deben encontrarse , lo que puede requerir habilidades especializadas como MySQL o Python , luego interrogarse , para lo cual es necesaria la comprensión de la jerga y las estadísticas, y finalmente visualizados y triturados con la ayuda de herramientas de código abierto . [12]
Una definición más orientada a los resultados proviene del reportero de datos y estratega web Henk van Ess (2012). [13] "El periodismo basado en datos permite a los reporteros contar historias no contadas, encontrar nuevos ángulos o historias completas a través de un flujo de trabajo de búsqueda, procesamiento y presentación de cantidades significativas de datos (en cualquier forma) con o sin herramientas abiertas". Van Ess afirma que parte del flujo de trabajo basado en datos conduce a productos que "no están en órbita con las leyes de la buena narración de historias" porque el resultado enfatiza en mostrar el problema, no en explicar el problema. "Una buena producción basada en datos tiene diferentes capas. Le permite encontrar personalizaciones que solo son importantes para usted, al profundizar en lo relevante, pero también le permite alejarse para obtener el panorama general".
En 2013, Van Ess llegó con una definición más corta en [14] que no implica visualización per se:
"El periodismo de datos es un periodismo basado en datos que deben procesarse primero con herramientas antes de que sea posible una historia relevante".
Informes basados en datos
Contar historias basadas en los datos es el objetivo principal. Los hallazgos de los datos se pueden transformar en cualquier forma de escritura periodística . Las visualizaciones se pueden utilizar para crear una comprensión clara de una situación compleja. Además, los elementos de la narración pueden usarse para ilustrar lo que realmente significan los hallazgos, desde la perspectiva de alguien que se ve afectado por un desarrollo. Esta conexión entre los datos y la historia puede verse como un "nuevo arco" que intenta cubrir la brecha entre los desarrollos que son relevantes, pero que no se comprenden bien, y una historia que es verificable, confiable, relevante y fácil de recordar.
Calidad de los datos
En muchas investigaciones, los datos que se pueden encontrar pueden tener omisiones o ser engañosos. Como una capa del periodismo basado en datos, es importante un examen crítico de la calidad de los datos. En otros casos, es posible que los datos no sean públicos o no estén en el formato correcto para un análisis posterior, por ejemplo, solo están disponibles en PDF . Aquí, el proceso de periodismo basado en datos puede convertirse en historias sobre la calidad de los datos o en la negativa de las instituciones a proporcionarlos. Como la práctica en su conjunto se encuentra en los primeros pasos de desarrollo, el examen de las fuentes de datos, los conjuntos de datos, la calidad de los datos y el formato de los datos son, por lo tanto, una parte igualmente importante de este trabajo.
El periodismo basado en datos y el valor de la confianza
Con base en la perspectiva de profundizar en los hechos y los impulsores de los eventos, se sugiere un cambio en las estrategias de los medios: en esta perspectiva, la idea es pasar "de la atención a la confianza". La creación de atención, que ha sido un pilar de los modelos de negocio de los medios, ha perdido su relevancia porque los informes de nuevos eventos a menudo se distribuyen más rápidamente a través de nuevas plataformas como Twitter que a través de los canales de medios tradicionales. Por otro lado, la confianza puede entenderse como un recurso escaso. Si bien distribuir información es mucho más fácil y rápido a través de la web, la abundancia de ofertas genera costos para verificar y comprobar el contenido de cualquier historia que crea una oportunidad. La idea de transformar las empresas de medios en centros de datos fiables se ha descrito en un artículo publicado de forma cruzada en febrero de 2011 en Owni.eu [15] y Nieman Lab. [dieciséis]
Proceso de periodismo basado en datos
El proceso para transformar datos sin procesar en historias es similar a un refinamiento y transformación. El objetivo principal es extraer información sobre la que los destinatarios puedan actuar. La tarea de un periodista de datos es extraer lo que está oculto. Este enfoque se puede aplicar a casi cualquier contexto, como finanzas, salud, medio ambiente u otras áreas de interés público.
Pirámide invertida del periodismo de datos
En 2011, Paul Bradshaw presentó un modelo, que llamó "La pirámide invertida del periodismo de datos" .
Pasos del proceso
Para lograr esto, el proceso debe dividirse en varios pasos. Si bien los pasos que conducen a los resultados pueden diferir, se puede hacer una distinción básica observando seis fases:
- Buscar: búsqueda de datos en la web
- Limpio: proceso para filtrar y transformar datos, preparación para visualización
- Visualizar: mostrar el patrón, ya sea como un objeto visual estático o animado.
- Publicar: Integrar las imágenes, adjuntar datos a las historias.
- Distribuir: habilitar el acceso en una variedad de dispositivos, como la web, tabletas y dispositivos móviles
- Medir: Seguimiento del uso de historias de datos a lo largo del tiempo y en todo el espectro de usos.
Descripción de los pasos
Encontrar datos
Los datos pueden obtenerse directamente de bases de datos gubernamentales como data.gov , data.gov.uk y la API de datos del Banco Mundial [17], pero también mediante la presentación de solicitudes de Libertad de Información a las agencias gubernamentales; algunas solicitudes se realizan y agregan en sitios web como What Do They Know del Reino Unido. Si bien existe una tendencia mundial hacia la apertura de datos, existen diferencias nacionales en cuanto a la medida en que la información está disponible gratuitamente en formatos utilizables. Si los datos están en una página web, se utilizan raspadores para generar una hoja de cálculo. Ejemplos de raspadores son: Import.io, ScraperWiki , OutWit Hub y Needlebase (retirado en 2012 [18] ). En otros casos, el software OCR se puede utilizar para obtener datos de archivos PDF.
Los datos también pueden ser creados por el público a través del crowdsourcing, como se mostró en marzo de 2012 en la Conferencia de Periodismo de Datos en Hamburgo por Henk van Ess. [19]
Limpieza de datos
Por lo general, los datos no están en un formato que sea fácil de visualizar. Algunos ejemplos son que hay demasiados puntos de datos o que las filas y columnas deben ordenarse de manera diferente. Otro problema es que, una vez investigados, muchos conjuntos de datos deben limpiarse, estructurarse y transformarse. Varias herramientas como Google Refine ( código abierto ), Data Wrangler y Google Spreadsheets [20] permiten cargar, extraer o formatear datos.
Visualización de datos
Para visualizar datos en forma de gráficos y tablas, se encuentran disponibles aplicaciones como Many Eyes o Tableau Public . Yahoo! Pipes y Open Heat Map [21] son ejemplos de herramientas que permiten la creación de mapas basados en hojas de cálculo de datos. La cantidad de opciones y plataformas se está expandiendo. Algunas ofertas nuevas brindan opciones para buscar, mostrar e incrustar datos, por ejemplo, Timetric . [22]
Para crear visualizaciones significativas y relevantes, los periodistas utilizan un número creciente de herramientas. Por ahora, hay varias descripciones de qué buscar y cómo hacerlo. Los artículos publicados más notables son:
- Joel Gunter: "# ijf11: lecciones de periodismo de datos del New York Times" [23]
- Steve Myers: "El uso de la visualización de datos como herramienta de informes puede revelar la forma de la historia", incluido un enlace a un tutorial de Sarah Cohen [24]
A partir de 2011, el uso de bibliotecas HTML 5 que utilizan la etiqueta canvas está ganando popularidad. Existen numerosas bibliotecas que permiten graficar datos en una variedad creciente de formas. Un ejemplo es RGraph . [25] A partir de 2011, existe una lista creciente de bibliotecas JavaScript que permiten visualizar datos. [26]
Publicando historia de datos
Existen diferentes opciones para publicar datos y visualizaciones. Un enfoque básico es adjuntar los datos a historias individuales, similar a incrustar videos web. Los conceptos más avanzados permiten crear dosieres únicos, por ejemplo, para mostrar una serie de visualizaciones, artículos y enlaces a los datos en una página. A menudo, estos especiales deben codificarse individualmente, ya que muchos sistemas de gestión de contenido están diseñados para mostrar publicaciones individuales en función de la fecha de publicación.
Distribuir datos
Brindar acceso a los datos existentes es otra fase que está ganando importancia. Piense en los sitios como "mercados" (comerciales o no), donde otros pueden encontrar fácilmente conjuntos de datos. Especialmente de los conocimientos para un artículo que se obtuvieron de Open Data, los periodistas deben proporcionar un enlace a los datos que usaron para que otros investiguen (potencialmente iniciando otro ciclo de interrogatorio, lo que conducirá a nuevos conocimientos).
Brindar acceso a los datos y permitir que los grupos discutan qué información podría extraerse es la idea principal detrás de Buzzdata, [27] un sitio que utiliza los conceptos de las redes sociales como compartir y seguir para crear una comunidad para la investigación de datos.
Otras plataformas (que se pueden utilizar tanto para recopilar como para distribuir datos):
- Ayúdame a investigar (creado por Paul Bradshaw) [28]
- Timetric [29]
- ScraperWiki [30]
Medir el impacto de las historias de datos
Un paso final del proceso es medir la frecuencia con la que se visualiza un conjunto de datos o una visualización.
En el contexto del periodismo basado en datos, el alcance de dicho seguimiento, como la recopilación de datos del usuario o cualquier otra información que pueda utilizarse con fines de marketing u otros usos fuera del control del usuario, debe considerarse problemático. [ según quién? ] Una opción más nueva y no intrusiva para medir el uso es un rastreador liviano llamado PixelPing. El rastreador es el resultado de un proyecto de ProPublica y DocumentCloud . [31] Existe un servicio correspondiente para recopilar los datos. El software es de código abierto y se puede descargar a través de GitHub. [32]
Ejemplos de
Existe una lista cada vez mayor de ejemplos de cómo se puede aplicar el periodismo basado en datos:
- The Guardian , una de las empresas de medios pioneras en este espacio (consulte "Periodismo de datos en The Guardian: ¿qué es y cómo lo hacemos?" [33] ), ha compilado una extensa lista de historias de datos, consulte: "Todos de nuestro periodismo de datos en una hoja de cálculo ". [34]
Otros usos destacados del periodismo basado en datos están relacionados con la publicación por la organización denunciante WikiLeaks del diario de la guerra afgana , un compendio de 91.000 informes militares secretos que cubren la guerra en Afganistán de 2004 a 2010. [35] Tres periódicos mundiales, a saber The Guardian , The New York Times y Der Spiegel , dedicaron secciones extensas [36] [37] [38] a los documentos; El informe de The Guardian incluyó un mapa interactivo que indica el tipo, la ubicación y las víctimas causadas por 16.000 ataques con IED , [39] The New York Times publicó una selección de informes que permite pasar el texto subrayado para revelar explicaciones de términos militares, [40 ] mientras que Der Spiegel proporcionó visualizaciones híbridas (que contienen gráficos y mapas) sobre temas como el número de muertes relacionadas con los ataques con bombas de los insurgentes. [41] Para la publicación de los registros de la Guerra de Irak , The Guardian usó Google Fusion Tables para crear un mapa interactivo de cada incidente en el que alguien murió, [42] una técnica que usó nuevamente en los disturbios de Inglaterra de 2011. [43]
Ver también
- Periodismo de bases de datos
- Periodismo de datos
- Periodismo computacional
- Geoperiodismo
- Datos científicos abiertos
- Fuente abierta
- Conocimiento abierto
- Legislación sobre libertad de información
- Visualización de información
Referencias
- ^ "Philipp Meyer" . festivaldelgiornalismo.com . Archivado desde el original el 4 de marzo de 2016 . Consultado el 31 de enero de 2019 .
- ^ Lorenz, Mirko (2010) Periodismo basado en datos: ¿Qué hay que aprender? Documentación editada de la conferencia, basada en las presentaciones de los participantes, 24 de agosto de 2010, Ámsterdam, Países Bajos.
- ^ "Informes especiales de periodistas de Reuters de todo el mundo" . Reuters . Consultado el 31 de enero de 2019 .
- ^ "Aplicaciones de noticias" . ProPublica . Consultado el 31 de enero de 2019 .
- ^ "Cómo el diario argentino La Nación se convirtió en una potencia del periodismo de datos en América Latina" . niemanlab.org . Consultado el 31 de enero de 2019 .
- ^ "Datos" . The Guardian . Consultado el 31 de enero de 2019 .
- ^ Berlín, Berliner Morgenpost-. "Portfolio Interaktiv-Team" . morgenpost . Consultado el 31 de enero de 2019 .
- ^ "Premios de Periodismo de Datos" . datajournalismawards.org . Archivado desde el original el 21 de julio de 2018 . Consultado el 31 de enero de 2019 .
- ^ "Los premios Pulitzer" . www.Pulitzer.org . Consultado el 31 de enero de 2019 .
- ^ "Los premios Pulitzer" . www.Pulitzer.org . Consultado el 31 de enero de 2019 .
- ^ Lorenz, Mirko. (2010). Periodismo basado en datos: ¿Qué hay que aprender? Presentado en IJ-7 Innovation Journalism Conference, 7 a 9 de junio de 2010, Stanford, CA
- ^ Bradshaw, Paul (1 de octubre de 2010). "Cómo ser periodista de datos" . El guardián
- ^ van Ess, Henk. (2012). Sangriento del periodismo basado en datos
- ^ van Ess, Henk. (2013). Handboek Datajournalistiek Archivado el 21 de octubre de 2013 en la Wayback Machine.
- ^ Las empresas de medios deben convertirse en centros de datos de confianza »OWNI.eu, Noticias, aumentado. Archivado el 24 de agosto de 2011 en Wayback Machine . Owni.eu (28 de febrero de 2011). Consultado el 16 de agosto de 2013.
- ^ Voces: Las organizaciones de noticias deben convertirse en centros de datos confiables en un mercado que busca (y valora) la confianza »Nieman Journalism Lab . Niemanlab.org (9 de agosto de 2013). Consultado el 16 de agosto de 2013.
- ^ "Información para desarrolladores - Mesa de ayuda de datos del Banco Mundial" . datahelpdesk.worldbank.org . Consultado el 31 de enero de 2019 .
- ^ "Renovando viejos propósitos para el nuevo año" . googleblog.blogspot.com . Consultado el 31 de enero de 2019 .
- ^ Crowdsourcing: cómo encontrar una multitud (Presentado en ARD / ZDF Academy en . Slideshare.net (2010-09-17). Recuperado el 2013-08-16.
- ^ Hirst, autor Tony (14 de octubre de 2008). "Raspado de datos de Wikipedia con hojas de cálculo de Google" . ouseful.info . Consultado el 31 de enero de 2019 .
- ^ "OpenHeatMap" . www.openheatmap.com . Consultado el 31 de enero de 2019 .
- ^ "Inicio - Timetric" . www.timetric.com . Consultado el 31 de enero de 2019 .
- ^ Gunter, Joel (16 de abril de 2011). "# ijf11: lecciones de periodismo de datos del New York Times" . journalism.co.uk . Consultado el 31 de enero de 2019 .
- ^ "El uso de visualización de datos como herramienta de informes puede revelar la forma de la historia" . Poynter.org . Consultado el 31 de enero de 2019 .
- ^ "RGraph es una biblioteca de gráficos JavaScript gratuita y de código abierto para la web" . www.rgraph.net . Consultado el 31 de enero de 2019 .
- ^ Bibliotecas JavaScript
- ^ "BuzzData. BuzzData. Consultado el 16 de agosto de 2013" . Archivado desde el original el 12 de agosto de 2011 . Consultado el 17 de agosto de 2011 .
- ^ "Ayúdame a investigar: una red que ayuda a las personas a investigar cuestiones de interés público" . helpmeinvestigate.com . Consultado el 31 de enero de 2019 .
- ^ "Inicio - Timetric" . www.timetric.com . Consultado el 31 de enero de 2019 .
- ^ "ScraperWiki" . Consultado el 31 de enero de 2019 .
- ^ Larson, Jeff. (2010-09-08) Pixel ping: Un Node.JS Estadísticas del perseguidor . ProPublica. Consultado el 16 de agosto de 2013.
- ^ documentcloud / pixel-ping ¡ GitHub . Consultado el 16 de agosto de 2013.
- ^ Rogers, Simon (28 de julio de 2011). "Periodismo de datos en The Guardian: ¿qué es y cómo lo hacemos?" . Consultado el 31 de enero de 2019 , a través de www.theguardian.com.
- ^ Evans, Lisa (27 de enero de 2011). "Todo nuestro periodismo de datos en una hoja de cálculo" . The Guardian . Consultado el 31 de enero de 2019 .
- ^ Diario de guerra de Kabul, 26 de julio de 2010, WikiLeaks
- ^ Afganistán The War Logs , 26 de julio de 2010, The Guardian
- ^ The War Logs , 26 de julio de 2010 The New York Times
- ^ El Protocolo de Afganistán: las fugas explosivas proporcionan una imagen de la guerra de quienes la combaten , 26 de julio de 2010, Der Spiegel
- ^ Registros de guerra de Afganistán: ataques con IED contra civiles, tropas de la coalición y afganas , 26 de julio de 2010, The Guardian
- ^ Texto de una selección de los despachos secretos , 26 de julio de 2010, The New York Times
- ^ Número de muertos: muerte como resultado de los ataques con bombas de los insurgentes , 26 de julio de 2010, Der Spiegel
- ^ Registros de guerra de Wikileaks Irak: cada muerte mapeada , 22 de octubre de 2010, Guardian Datablog
- ^ Disturbios del Reino Unido: cada incidente verificado - mapa interactivo , 11 de agosto de 2011, Guardian Datablog
enlaces externos
- DataDrivenJournalism.net
- El manual de periodismo de datos
- MOOC de Periodismo de Datos
- Lista de cursos y programas universitarios de periodismo de datos de todo el mundo