Ciencia de los datos


La ciencia de datos es un campo interdisciplinario que utiliza métodos, procesos, algoritmos y sistemas científicos para extraer conocimiento e información de datos ruidosos, estructurados y no estructurados , [1] [2] y aplicar conocimiento e información útil de los datos en una amplia gama de dominios de aplicación. . La ciencia de datos está relacionada con la minería de datos , el aprendizaje automático y el big data .

La ciencia de datos es un "concepto para unificar estadísticas , análisis de datos , informática y sus métodos relacionados" con el fin de "comprender y analizar fenómenos reales" con datos. [3] Se utiliza técnicas y teorías procedentes de muchos campos dentro del contexto de las matemáticas , estadísticas , informática , ciencias de la información y el conocimiento del dominio . Sin embargo, la ciencia de datos es diferente de la informática y la ciencia de la información. El ganador del premio Turing, Jim Gray, imaginó la ciencia de datos como un "cuarto paradigma" de la ciencia ( empírico ,teórico , computacional y ahora basado en datos) y afirmó que "todo lo relacionado con la ciencia está cambiando debido al impacto de la tecnología de la información " y la avalancha de datos . [4] [5]

Un científico de datos es alguien que crea código de programación y lo combina con conocimientos estadísticos para crear conocimientos a partir de los datos. [6]

La ciencia de datos es un campo interdisciplinario enfocado en extraer conocimiento de conjuntos de datos, que generalmente son grandes (ver big data ), y aplicar el conocimiento y la información procesable de los datos para resolver problemas en una amplia gama de dominios de aplicación. [7] El campo abarca la preparación de datos para el análisis, la formulación de problemas de ciencia de datos, el análisis de datos, el desarrollo de soluciones basadas en datos y la presentación de hallazgos para informar decisiones de alto nivel en una amplia gama de dominios de aplicación. Como tal, incorpora habilidades de informática, estadística, ciencias de la información, matemáticas, visualización de información , sonificación de datos, integración de datos, diseño gráfico, sistemas complejos , comunicación.y negocios. [8] [9] El estadístico Nathan Yau , basándose en Ben Fry , también vincula la ciencia de datos con la interacción entre humanos y computadoras : los usuarios deben poder controlar y explorar los datos de manera intuitiva. [10] [11] En 2015, la Asociación Estadounidense de Estadística identificó la gestión de bases de datos , las estadísticas y el aprendizaje automático , y los sistemas distribuidos y paralelos como las tres comunidades profesionales fundamentales emergentes. [12]

Muchos estadísticos, incluido Nate Silver , han argumentado que la ciencia de datos no es un campo nuevo, sino otro nombre para la estadística. [13] Otros argumentan que la ciencia de datos es distinta de las estadísticas porque se centra en problemas y técnicas exclusivas de los datos digitales. [14] Vasant Dhar escribe que las estadísticas enfatizan los datos cuantitativos y la descripción. Por el contrario, la ciencia de datos se ocupa de datos cuantitativos y cualitativos (por ejemplo, imágenes) y enfatiza la predicción y la acción. [15] Andrew Gelman de la Universidad de Columbia ha descrito la estadística como una parte no esencial de la ciencia de datos. [16] Profesor de Stanford David Donohoescribe que la ciencia de datos no se distingue de las estadísticas por el tamaño de los conjuntos de datos o el uso de la computación, y que muchos programas de posgrado anuncian engañosamente su capacitación en análisis y estadísticas como la esencia de un programa de ciencia de datos. Describe la ciencia de datos como un campo aplicado que surge de las estadísticas tradicionales. [17] En resumen, la ciencia de datos puede, por tanto, describirse como una rama aplicada de la estadística.

En 1962, John Tukey describió un campo que llamó "análisis de datos", que se asemeja a la ciencia de datos moderna. [17] En 1985, en una conferencia dada a la Academia China de Ciencias en Beijing, CF Jeff Wu utilizó el término Ciencia de Datos por primera vez como un nombre alternativo para las estadísticas. [18] Más tarde, los asistentes a un simposio de estadística de 1992 en la Universidad de Montpellier II reconocieron el surgimiento de una nueva disciplina centrada en datos de diversos orígenes y formas, combinando conceptos y principios establecidos de estadística y análisis de datos con computación. [19] [20]


La existencia del cometa NEOWISE (aquí representado como una serie de puntos rojos) se descubrió mediante el análisis de datos de levantamientos astronómicos adquiridos por un telescopio espacial , el Wide-field Infrared Survey Explorer .