La ciencia de datos es un campo interdisciplinario que utiliza métodos, procesos, algoritmos y sistemas científicos para extraer conocimientos y perspectivas de datos estructurados y no estructurados , [1] [2] y aplicar conocimientos e ideas prácticas de datos en una amplia gama de dominios de aplicación. La ciencia de datos está relacionada con la minería de datos , el aprendizaje automático y el big data .
La ciencia de datos es un "concepto para unificar estadísticas , análisis de datos , informática y sus métodos relacionados" con el fin de "comprender y analizar fenómenos reales" con datos. [3] Se utiliza técnicas y teorías procedentes de muchos campos dentro del contexto de las matemáticas , estadísticas , informática , ciencias de la información y el conocimiento del dominio . Sin embargo, la ciencia de datos es diferente de la informática y la ciencia de la información. El ganador del premio Turing, Jim Gray, imaginó la ciencia de datos como un "cuarto paradigma" de la ciencia ( empírico , teórico , computacional y ahora basado en datos) y afirmó que "todo lo relacionado con la ciencia está cambiando debido al impacto de la tecnología de la información " y la avalancha de datos . [4] [5]
Cimientos
La ciencia de datos es un campo interdisciplinario centrado en extraer conocimiento de conjuntos de datos, que suelen ser grandes (ver big data ), y aplicar el conocimiento y la información procesable de los datos para resolver problemas en una amplia gama de dominios de aplicación. [6] El campo abarca la preparación de datos para el análisis, la formulación de problemas de ciencia de datos, el análisis de datos, el desarrollo de soluciones basadas en datos y la presentación de hallazgos para informar decisiones de alto nivel en una amplia gama de dominios de aplicación. Como tal, incorpora habilidades de informática, estadística, ciencias de la información, matemáticas, visualización de información , integración de datos, diseño gráfico, sistemas complejos , comunicación y negocios. [7] [8] El estadístico Nathan Yau , basándose en Ben Fry , también vincula la ciencia de datos con la interacción entre humanos y computadoras : los usuarios deben poder controlar y explorar los datos de manera intuitiva. [9] [10] En 2015, la Asociación Estadounidense de Estadística identificó la gestión de bases de datos , las estadísticas y el aprendizaje automático , y los sistemas distribuidos y paralelos como las tres comunidades profesionales fundamentales emergentes. [11]
Relación con las estadísticas
Muchos estadísticos, incluido Nate Silver , han argumentado que la ciencia de datos no es un campo nuevo, sino otro nombre para la estadística. [12] Otros argumentan que la ciencia de datos es distinta de las estadísticas porque se centra en problemas y técnicas exclusivas de los datos digitales. [13] Vasant Dhar escribe que las estadísticas enfatizan los datos cuantitativos y la descripción. Por el contrario, la ciencia de datos se ocupa de datos cuantitativos y cualitativos (por ejemplo, imágenes) y enfatiza la predicción y la acción. [14] Andrew Gelman de la Universidad de Columbia y el científico de datos Vincent Granville han descrito las estadísticas como una parte no esencial de la ciencia de datos. [15] [16] El profesor de Stanford David Donoho escribe que la ciencia de datos no se distingue de las estadísticas por el tamaño de los conjuntos de datos o el uso de la computación, y que muchos programas de posgrado anuncian engañosamente su capacitación en análisis y estadística como la esencia de un programa de ciencia de datos. Describe la ciencia de datos como un campo aplicado que surge de las estadísticas tradicionales. [17] En resumen, la ciencia de datos puede, por tanto, describirse como una rama aplicada de la estadística.
Etimología
Uso temprano
En 1962, John Tukey describió un campo que llamó "análisis de datos", que se asemeja a la ciencia de datos moderna. [17] En 1985, en una conferencia dada a la Academia de Ciencias de China en Beijing, CF Jeff Wu utilizó el término Ciencia de Datos por primera vez como un nombre alternativo para las estadísticas. [18] Más tarde, los asistentes a un simposio de estadística de 1992 en la Universidad de Montpellier II reconocieron el surgimiento de una nueva disciplina centrada en datos de diversos orígenes y formas, combinando conceptos y principios establecidos de estadística y análisis de datos con computación. [19] [20]
El término "ciencia de datos" se remonta a 1974, cuando Peter Naur lo propuso como un nombre alternativo para la informática. [21] En 1996, la Federación Internacional de Sociedades de Clasificación se convirtió en la primera conferencia en presentar específicamente la ciencia de datos como tema. [21] Sin embargo, la definición todavía estaba cambiando. Después de la conferencia de 1985 en la Academia China de Ciencias en Beijing, en 1997 CF Jeff Wu sugirió nuevamente que las estadísticas deberían ser renombradas como ciencia de datos. Razonó que un nuevo nombre ayudaría a las estadísticas a deshacerse de estereotipos inexactos, como ser sinónimo de contabilidad o limitarse a describir datos. [22] En 1998, Hayashi Chikio defendió la ciencia de datos como un concepto nuevo e interdisciplinario, con tres aspectos: diseño, recopilación y análisis de datos. [20]
Durante la década de 1990, los términos populares para el proceso de encontrar patrones en conjuntos de datos (que eran cada vez más grandes) incluían "descubrimiento de conocimiento" y "minería de datos". [23] [21]
Uso moderno
La concepción moderna de la ciencia de datos como una disciplina independiente a veces se atribuye a William S. Cleveland . [24] En un artículo de 2001, abogó por una expansión de las estadísticas más allá de la teoría en áreas técnicas; debido a que esto cambiaría significativamente el campo, merecía un nuevo nombre. [23] La "ciencia de datos" se hizo más utilizada en los años siguientes: en 2002, el Comité de Datos para la Ciencia y la Tecnología lanzó Data Science Journal. En 2003, la Universidad de Columbia lanzó The Journal of Data Science . [23] En 2014, la Sección de Aprendizaje Estadístico y Minería de Datos de la Asociación Estadounidense de Estadística cambió su nombre a Sección de Aprendizaje Estadístico y Ciencia de Datos, reflejando la creciente popularidad de la ciencia de datos. [25]
El título profesional de "científico de datos" se ha atribuido a DJ Patil y Jeff Hammerbacher en 2008. [26] Aunque fue utilizado por la Junta Nacional de Ciencia en su informe de 2005, "Colecciones de datos digitales de larga duración: habilitación de la investigación y la educación en el siglo XXI ", se refirió ampliamente a cualquier papel clave en la gestión de una recopilación de datos digitales. [27]
Todavía no hay consenso sobre la definición de ciencia de datos y algunos la consideran una palabra de moda. [28]
Impacto
El big data se está convirtiendo muy rápidamente en una herramienta vital para empresas y empresas de todos los tamaños. [29] La disponibilidad e interpretación de macrodatos ha modificado los modelos comerciales de industrias antiguas y ha permitido la creación de otras nuevas. [29] Las empresas basadas en datos tienen un valor colectivo de $ 1.2 billones en 2020, un aumento de $ 333 mil millones en el año 2015. [30] Los científicos de datos son responsables de descomponer los macrodatos en información utilizable y crear software y algoritmos que ayuden a las empresas y organizaciones determinar las operaciones óptimas. [30] Dado que los macrodatos siguen teniendo un gran impacto en el mundo, la ciencia de datos también lo hace debido a la estrecha relación entre los dos. [30]
Tecnologías y técnicas
Existe una variedad de tecnologías y técnicas diferentes que se utilizan para la ciencia de datos que dependen de la aplicación. Más recientemente, se han desarrollado plataformas integrales con todas las funciones y se han utilizado mucho para la ciencia de datos y el aprendizaje automático.
Técnicas
- Regresión lineal
- Regresión logística
- El árbol de decisiones se utiliza como modelos de predicción para la clasificación y el ajuste de datos. La estructura del árbol de decisiones se puede utilizar para generar reglas capaces de clasificar o predecir la variable objetivo / clase / etiqueta en función de los atributos de observación.
- Máquina de vectores de soporte (SVM)
- La agrupación en clústeres es una técnica que se utiliza para agrupar datos.
- La reducción de dimensionalidad se utiliza para reducir la complejidad del cálculo de datos para que se pueda realizar más rápidamente.
- El aprendizaje automático es una técnica que se utiliza para realizar tareas mediante la inferencia de patrones a partir de datos.
Referencias
- ^ Dhar, V. (2013). "Ciencia de datos y predicción" . Comunicaciones de la ACM . 56 (12): 64–73. doi : 10.1145 / 2500499 . S2CID 6107147 . Archivado desde el original el 9 de noviembre de 2014 . Consultado el 2 de septiembre de 2015 .
- ^ Jeff Leek (12 de diciembre de 2013). "La palabra clave en" Ciencia de datos "no es Datos, es ciencia" . Simplemente estadísticas. Archivado desde el original el 2 de enero de 2014 . Consultado el 1 de enero de 2014 .
- ^ Hayashi, Chikio (1 de enero de 1998). "¿Qué es la ciencia de datos? Conceptos fundamentales y un ejemplo heurístico" . En Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa (eds.). Ciencia de datos, clasificación y métodos relacionados . Estudios en Clasificación, Análisis de Datos y Organización del Conocimiento. Springer Japón. págs. 40–51. doi : 10.1007 / 978-4-431-65950-1_3 . ISBN 9784431702085.
- ^ Tony Hey; Stewart Tansley; Kristin Michele Tolle (2009). El cuarto paradigma: descubrimiento científico intensivo en datos . Investigación de Microsoft. ISBN 978-0-9825442-0-4. Archivado desde el original el 20 de marzo de 2017 . Consultado el 16 de diciembre de 2016 .
- ^ Bell, G .; Oye, T .; Szalay, A. (2009). "CIENCIA DE LA COMPUTADORA: más allá del diluvio de datos". Ciencia . 323 (5919): 1297–1298. doi : 10.1126 / science.1170411 . ISSN 0036-8075 . PMID 19265007 . S2CID 9743327 .
- ^ "Acerca de la ciencia de datos | Asociación de ciencia de datos" . www.datascienceassn.org . Consultado el 3 de abril de 2020 .
- ^ "1. Introducción: ¿Qué es la ciencia de datos? - Haciendo ciencia de datos [libro]" . www.oreilly.com . Consultado el 3 de abril de 2020 .
- ^ "las tres habilidades sexys de los geeks de datos" . medriscoll: datos utópicos . Consultado el 3 de abril de 2020 .
- ^ Yau, Nathan (4 de junio de 2009). "Rise of the Data Scientist" . FlowingData . Consultado el 3 de abril de 2020 .
- ^ "Ejemplo básico" . benfry.com . Consultado el 3 de abril de 2020 .
- ^ "Declaración de la ASA sobre el papel de las estadísticas en la ciencia de datos" . AMSTATNEWS . Asociación Estadounidense de Estadística . 1 de octubre de 2015. Archivado desde el original el 20 de junio de 2019 . Consultado el 29 de mayo de 2019 .
- ^ "Nate Silver: lo que necesito de los estadísticos - Vistas de estadísticas" . www.statisticsviews.com . Consultado el 3 de abril de 2020 .
- ^ "¿Cuál es la diferencia entre ciencia de datos y estadística?" . Priceonomics . Consultado el 3 de abril de 2020 .
- ^ DharVasant (1 de diciembre de 2013). "Ciencia de datos y predicción". Comunicaciones de la ACM . 56 (12): 64–73. doi : 10.1145 / 2500499 . S2CID 6107147 .
- ^ "La estadística es la parte menos importante de la ciencia de datos« Modelado estadístico, inferencia causal y ciencias sociales " . statmodeling.stat.columbia.edu . Consultado el 3 de abril de 2020 .
- ^ Publicado por Vincent Granville el 8 de diciembre de 2014 a las 5:00 pm; Blog, Ver. "La ciencia de datos sin estadísticas es posible, incluso deseable" . www.datasciencecentral.com . Consultado el 3 de abril de 2020 .
- ^ a b Donoho, David (18 de septiembre de 2015). "50 años de ciencia de datos" (PDF) . Consultado el 2 de abril de 2020 .
- ^ Wu, CF Jeff (1986). "Direcciones futuras de la investigación estadística en China: una perspectiva histórica" (PDF) . Aplicación de Estadística y Gestión . 1 : 1–7 . Consultado el 29 de noviembre de 2020 .
- ^ La ciencia de datos y sus aplicaciones = La @science des données et ses applications . Escoufier, Yves., Hayashi, Chikio (1918 -....)., Fichet, Bernard. Tokio: Prensa académica / Harcourt Brace. 1995. ISBN 0-12-241770-4. OCLC 489990740 .CS1 maint: otros ( enlace )
- ^ a b Murtagh, Fionn; Devlin, Keith (2018). "El desarrollo de la ciencia de datos: implicaciones para la educación, el empleo, la investigación y la revolución de los datos para el desarrollo sostenible" . Big Data y Computación Cognitiva . 2 (2): 14. doi : 10.3390 / bdcc2020014 .
- ^ a b c CaoLongbing (29 de junio de 2017). "Ciencia de datos" . Encuestas de computación ACM . 50 (3): 1–42. doi : 10.1145 / 3076253 .
- ^ Wu, CF Jeff. "¿Estadísticas = ciencia de datos?" (PDF) . Consultado el 2 de abril de 2020 .
- ^ a b c Prensa, Gil. "Una historia muy corta de la ciencia de datos" . Forbes . Consultado el 3 de abril de 2020 .
- ^ Gupta, Shanti (11 de diciembre de 2015). "William S Cleveland" . Consultado el 2 de abril de 2020 .
- ^ Talley, Jill (1 de junio de 2016). "ASA amplía alcance, alcance para fomentar el crecimiento, colaboración en ciencia de datos" . Noticias de Amstat . Asociación Estadounidense de Estadística.
- ^ Davenport, Thomas H .; Patil, DJ (1 de octubre de 2012). "Data Scientist: el trabajo más sexy del siglo XXI" . Harvard Business Review (octubre de 2012). ISSN 0017-8012 . Consultado el 3 de abril de 2020 .
- ^ "US NSF - NSB-05-40, recopilaciones de datos digitales de larga duración que permiten la investigación y la educación en el siglo XXI" . www.nsf.gov . Consultado el 3 de abril de 2020 .
- ^ Prensa, Gil. "Ciencia de datos: ¿Cuál es la vida media de una palabra de moda?" . Forbes . Consultado el 3 de abril de 2020 .
- ^ a b Pham, Peter. "Los impactos de Big Data de los que quizás no hayas oído hablar" . Forbes . Consultado el 3 de abril de 2020 .
- ^ a b c Martin, Sophia (20 de septiembre de 2019). "¿Cómo afectará la ciencia de datos al futuro de las empresas?" . Medio . Consultado el 3 de abril de 2020 .