Culturomics es una forma de lexicología computacional que estudia el comportamiento humano y las tendencias culturales a través del análisis cuantitativo de textos digitalizados. [1] [2] Los datos de los investigadores extraen grandes archivos digitales para investigar los fenómenos culturales reflejados en el uso del lenguaje y las palabras. [3] El término es un neologismo estadounidense descrito por primera vez en un artículo de Science de 2010 llamado Análisis cuantitativo de la cultura utilizando millones de libros digitalizados , coautor de los investigadores de Harvard Jean-Baptiste Michel y Erez Lieberman Aiden.. [4]
Michel y Aiden ayudaron a crear el proyecto Google Labs , Google Ngram Viewer, que utiliza n-gramas para analizar la biblioteca digital de Google Books en busca de patrones culturales en el uso del lenguaje a lo largo del tiempo.
Debido a que el conjunto de datos de Google Ngram no es una muestra imparcial, [5] y no incluye metadatos, [6] existen varias trampas cuando se usa para estudiar el lenguaje o la popularidad de los términos. [7] La literatura médica representa una gran parte del corpus, pero cambiante, [8] que no tiene en cuenta la frecuencia con la que se imprime o se lee la literatura.
Estudios
En un estudio llamado Culturomics 2.0 , Kalev H. Leetaru examinó los archivos de noticias, incluidos los medios impresos y de radiodifusión (transcripciones de radio y televisión), en busca de palabras que transmitieran tono o "estado de ánimo", así como datos geográficos. [10] [11] La investigación predijo retroactivamente la Primavera Árabe de 2011 y estimó con éxito la ubicación final de Osama Bin Laden dentro de 124 millas (200 km). [10] [11]
En un artículo de 2012 de Alexander M. Petersen y sus coautores, [12] encontraron un "cambio dramático en la tasa de natalidad y la tasa de mortalidad de las palabras": [13] Las muertes han aumentado y los nacimientos se han ralentizado. Los autores también identificaron un "punto de inflexión" universal en el ciclo de vida de las palabras nuevas entre 30 y 50 años después de su origen, ya sea que ingresan al léxico a largo plazo o caen en desuso. [13]
Se han adoptado enfoques culturales en el análisis del contenido de los periódicos en varios estudios de I. Flaounas y coautores. Estos estudios mostraron tendencias macroscópicas en diferentes medios de comunicación y países. En 2012, un estudio de 2,5 millones de artículos sugirió que el sesgo de género en la cobertura de noticias depende del tema y de cómo la legibilidad de los artículos de los periódicos se relaciona con el tema. [14] Un estudio separado realizado por los mismos investigadores, que cubrió 1,3 millones de artículos de 27 países, [15] mostró patrones macroscópicos en la elección de historias para cubrir. En particular, los países tomaron decisiones similares cuando estaban relacionados por vínculos económicos, geográficos y culturales. Los vínculos culturales fueron revelados por la similitud en la votación del concurso de canciones de Eurovisión . Este estudio se realizó a gran escala, utilizando técnicas de traducción automática estadística , categorización de texto y extracción de información .
La posibilidad de detectar cambios de humor en una gran población mediante el análisis del contenido de Twitter se demostró en un estudio de T. Lansdall-Welfare y sus coautores. [16] El estudio consideró 84 millones de tweets generados por más de 9,8 millones de usuarios del Reino Unido durante un período de 31 meses, lo que muestra cómo ha cambiado la opinión pública en el Reino Unido con el anuncio de recortes de gastos.
En un estudio de 2013 realizado por S Sudhahar y sus coautores, el análisis automático de corpus textuales ha permitido la extracción de actores y sus redes relacionales a gran escala, convirtiendo los datos textuales en datos de red. Las redes resultantes, que pueden contener miles de nodos, se analizan luego mediante el uso de herramientas de la teoría de redes para identificar los actores clave, las comunidades o partes clave, y propiedades generales como la robustez o estabilidad estructural de la red en general, o la centralidad de ciertos nodos. [17]
En un estudio de 2014 de T Lansdall-Welfare y sus coautores, se recopilaron 5 millones de artículos de noticias durante 5 años [18] y luego se analizaron para sugerir un cambio significativo en el sentimiento en relación con la cobertura de la energía nuclear, que se corresponde con el desastre de Fukushima . El estudio también extrajo conceptos que estaban asociados con la energía nuclear antes y después del desastre, explicando el cambio de sentimiento con un cambio en el marco narrativo.
En 2015, un estudio reveló el sesgo del conjunto de datos de libros de Google, que "adolece de una serie de limitaciones que lo convierten en una máscara oscura de popularidad cultural", [5] y cuestiona la importancia de muchos de los resultados anteriores.
Los enfoques culturales también pueden contribuir a la ciencia de la conservación a través de una mejor comprensión de las relaciones entre el hombre y la naturaleza. En 2016, una publicación de Richard Ladle y sus colegas doi : 10.1002 / fee.1260 destacó cinco áreas clave en las que la culturómica se puede utilizar para promover la práctica y la ciencia de la conservación, incluido el reconocimiento de distritos orientados a la conservación y la demostración del público interés en la naturaleza, identificando emblemas de conservación, proporcionando nuevas métricas y herramientas para el monitoreo ambiental casi en tiempo real y para apoyar la toma de decisiones de conservación, evaluando el impacto cultural de las intervenciones de conservación, y enmarcando los problemas de conservación y promoviendo el entendimiento público.
En 2017, un estudio correlacionó el dolor articular con la actividad de búsqueda de Google y la temperatura. [19] Si bien el estudio observó una mayor actividad de búsqueda para el dolor de cadera y rodilla (pero no artritis ) durante temperaturas más altas, no controla (ni puede) controlar otros factores relevantes como la actividad. Los medios de comunicación malinterpretaron esto como "mito roto: la lluvia no aumenta el dolor articular", [20] [21] mientras que los autores especulan que la correlación observada se debe a "cambios en los niveles de actividad física". [22]
Crítica
Lingüistas y lexicógrafos han expresado su escepticismo con respecto a los métodos y resultados de algunos de estos estudios, incluido uno de Petersen et al. [23] Otros han demostrado sesgo en el conjunto de datos de Ngram. Sus resultados "ponen en tela de juicio la gran mayoría de las afirmaciones existentes extraídas del corpus de Google Books": [5] "En lugar de hablar sobre el cambio lingüístico o cultural general, parece ser preferible restringir explícitamente los resultados al cambio lingüístico o cultural" como está representado en los datos de Google Ngram '" [6] porque no está claro qué causó el cambio observado en la muestra.
Ver también
- -ómica
Referencias
- ^ Cohen, Patricia (16 de diciembre de 2010). "En 500 mil millones de palabras, nueva ventana a la cultura" . New York Times .
- ^ Hayes, Brian (mayo-junio de 2011). "Poco iluminado" . Científico estadounidense . 99 (3): 190. doi : 10.1511 / 2011.90.190 . Archivado desde el original el 18 de octubre de 2016 . Consultado el 9 de septiembre de 2011 .
- ^ Letcher, David W. (6 de abril de 2011). "Cultoromics: una nueva forma de ver los cambios temporales en la prevalencia de palabras y frases" (PDF) . Actas de la Sexta Conferencia Internacional del Instituto Americano de Educación Superior . 4 (1): 228. Archivado desde el original (PDF) el 3 de marzo de 2016 . Consultado el 9 de septiembre de 2011 .
- ^ Michel, Jean-Baptiste; Liberman Aiden, Erez (16 de diciembre de 2010). "Análisis cuantitativo de la cultura utilizando millones de libros digitalizados" . Ciencia . 331 (6014): 176–82. doi : 10.1126 / science.1199644 . PMC 3279742 . PMID 21163965 .
- ^ a b c Pechenick, Eitan Adam; Danforth, Christopher M .; Dodds, Peter Sheridan (7 de octubre de 2015). "Caracterización del corpus de Google Books: fuertes límites a las inferencias de la evolución sociocultural y lingüística" . PLOS ONE . 10 (10): e0137041. arXiv : 1501.00960 . Código Bibliográfico : 2015PLoSO..1037041P . doi : 10.1371 / journal.pone.0137041 . ISSN 1932-6203 . PMC 4596490 . PMID 26445406 .
- ^ a b Koplenig, Alexander (abril de 2017). "El impacto de la falta de metadatos para la medición del cambio cultural y lingüístico utilizando los conjuntos de datos de Google Ngram: reconstrucción de la composición del corpus alemán en tiempos de la Segunda Guerra Mundial". Beca Digital en Humanidades . 32 (1): 169–188. doi : 10.1093 / llc / fqv037 . ISSN 2055-7671 .
- ^ Zhang, Sarah. "Las trampas de utilizar Google Ngram para estudiar el idioma" . CON CABLE . Consultado el 24 de mayo de 2017 .
- ^ Comparación de términos de ejemplo
- ^ Sudhahar, Saatviga; Veltri, Giuseppe A .; Cristianini, Nello (2015). "Análisis automatizado de las elecciones presidenciales de Estados Unidos utilizando Big Data y análisis de redes" . Big Data y Sociedad . 2 . doi : 10.1177 / 2053951715572916 . S2CID 62188746 .
- ^ a b Leetaru, Kalev H. (5 de septiembre de 2011). "Culturomics 2.0: pronosticar el comportamiento humano a gran escala utilizando el tono de los medios de comunicación globales en el tiempo y el espacio" . Primer lunes . 16 (9). doi : 10.5210 / fm.v16i9.3663 . Archivado desde el original el 4 de abril de 2012 . Consultado el 9 de septiembre de 2011 .
- ^ a b Quick, Darren (7 de septiembre de 2011). "La investigación de la culturomía utiliza un cuarto de siglo de cobertura de los medios para pronosticar el comportamiento humano" . Gizmag.com . Consultado el 9 de septiembre de 2011 .
- ^ Petersen, Alexander M. (15 de marzo de 2012). "Leyes estadísticas que gobiernan las fluctuaciones en el uso de palabras desde el nacimiento de la palabra hasta la muerte de la palabra" . Informes científicos . 2 : 313. arXiv : 1107.3707 . Código bibliográfico : 2012NatSR ... 2E.313P . doi : 10.1038 / srep00313 . PMC 3304511 . PMID 22423321 .
- ^ a b "La nueva ciencia del nacimiento y muerte de las palabras" , CHRISTOPHER SHEA, Wall Street Journal , 16 de marzo de 2012
- ^ Flaounas, Ilias; Ali, Omar; Lansdall-Welfare, Thomas; De Bie, Tijl; Mosdell, Nick; Lewis, Justin; Cristianini, Nello (2013). "Métodos de investigación en la era del periodismo digital". Periodismo digital . 1 : 102-116. doi : 10.1080 / 21670811.2012.714928 . S2CID 61080552 .
- ^ Flaounas, Ilias; Turchi, Marco; Ali, Omar; Fyson, Nick; De Bie, Tijl; Mosdell, Nick; Lewis, Justin; Cristianini, Nello (2010). "La estructura de la Mediasfera de la UE" . PLOS ONE . 5 (12): e14243. Código Bibliográfico : 2010PLoSO ... 514243F . doi : 10.1371 / journal.pone.0014243 . PMC 2999531 . PMID 21170383 .
- ^ Lansdall-Welfare, Thomas; Lampos, Vasileios; Cristianini, Nello (2012). "Efectos de la recesión en el estado de ánimo del público en el Reino Unido". Actas del compañero de la 21ª conferencia internacional en World Wide Web: WWW '12 Companion . pag. 1221. doi : 10.1145 / 2187980.2188264 . ISBN 9781450312301. S2CID 1825992 .
- ^ Sudhahar, Saatviga; De Fazio, Gianluca; Franzosi, Roberto; Cristianini, Nello (2015). "Análisis en red de contenidos narrativos en grandes corpora" . Ingeniería del lenguaje natural . 21 : 81-112. doi : 10.1017 / S1351324913000247 .
- ^ Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Veltri, Giuseppe A .; Cristianini, Nello (2014). "Sobre la cobertura de la ciencia en los medios: un gran estudio de datos sobre el impacto del desastre de Fukushima". 2014 IEEE International Conference on Big Data (Big Data) . págs. 60–66. doi : 10.1109 / BigData.2014.7004454 . hdl : 2381/31439 . ISBN 978-1-4799-5666-1. S2CID 7686818 .
- ^ Telfer, Scott; Obradovich, Nick (9 de agosto de 2017). "El clima local está asociado con las tasas de búsquedas en línea de síntomas de dolor musculoesquelético" . PLOS ONE . 12 (8): e0181266. Código bibliográfico : 2017PLoSO..1281266T . doi : 10.1371 / journal.pone.0181266 . ISSN 1932-6203 . PMC 5549896 . PMID 28792953 .
- ^ "¿Las articulaciones adoloridas están asociadas con la lluvia? Google sugiere lo contrario" . NBC News . Consultado el 10 de agosto de 2017 .
- ^ "Este mito sobre el dolor articular es una mierda total" . Salud de los hombres . 2017-08-10 . Consultado el 10 de agosto de 2017 .
- ^ "¿La lluvia aumenta el dolor en las articulaciones? Google sugiere lo contrario: los niveles de actividad de las personas, que aumentan a medida que aumentan las temperaturas, hasta cierto punto, son más propensos que el propio clima a causar dolor que motiva las búsquedas en línea, dicen los investigadores" . ScienceDaily . Consultado el 10 de agosto de 2017 .
- ^ "Cuando los físicos hacen lingüística" , BEN ZIMMER, Boston Globe , 10 de febrero de 2013
Otras lecturas
- Michel, Jean-Baptiste; Liberman Aiden, Erez ; Aiden, AP; Veres, A .; Gray, MK; Pickett, JP; Hoiberg, D .; Clancy, D .; Norvig, P .; Orwan, John; Nowak, Martin ; Pinker, Steven (16 de diciembre de 2010). "Análisis cuantitativo de la cultura utilizando millones de libros digitalizados" . Ciencia . 331 (6014): 176–82. doi : 10.1126 / science.1199644 . PMC 3279742 . PMID 21163965 .
- Leetaru, Kalev H. (5 de septiembre de 2011). "Culturomics 2.0: pronosticar el comportamiento humano a gran escala utilizando el tono de los medios de comunicación globales en el tiempo y el espacio" . Primer lunes . 16 (9). doi : 10.5210 / fm.v16i9.3663 . Archivado desde el original el 4 de abril de 2012 . Consultado el 9 de septiembre de 2011 .
- Bohannon, John (14 de enero de 2011). "Google Books, Wikipedia y el futuro de la culturomics". Ciencia . 331 (6014): 135. Bibcode : 2011Sci ... 331..135B . doi : 10.1126 / science.331.6014.135 . PMID 21233356 .
- Schwartz, Tim (1 de abril de 2011). "Culturomics: publicaciones periódicas calibre el pulso de la cultura". Ciencia . 332 (6025): 35–36. Código Bibliográfico : 2011Sci ... 332S..35S . doi : 10.1126 / science.332.6025.35-c . PMID 21454770 .
- Morse-Gagné, Elise E. (1 de abril de 2011). "Culturomics: trampas estadísticas enturbian los datos". Ciencia . 332 (6025): 35, respuesta del autor 36–7. Código bibliográfico : 2011Sci ... 332R..35S . doi : 10.1126 / science.332.6025.35-b . PMID 21454771 .
- Petersen, Alexander M .; Tenenbaum, Joel; Havlin, Shlomo ; Stanley, H. Eugene (15 de marzo de 2012). "Leyes estadísticas que gobiernan las fluctuaciones en el uso de palabras desde el nacimiento de la palabra hasta la muerte de la palabra" . Informes científicos . 2 : 313. arXiv : 1107.3707 . Código bibliográfico : 2012NatSR ... 2E.313P . doi : 10.1038 / srep00313 . PMC 3304511 . PMID 22423321 .
- Petersen, Alexander M .; Tenenbaum, Joel; Havlin, Shlomo ; Stanley, H. Eugene ; Perc, Matjaz (10 de diciembre de 2012). "Los idiomas se enfrían a medida que se expanden: escala alométrica y la necesidad cada vez menor de nuevas palabras" . Informes científicos . 2 : 943. arXiv : 1212.2616 . Código Bibliográfico : 2012NatSR ... 2E.943P . doi : 10.1038 / srep00943 . PMC 3517984 . PMID 23230508 .
- Shea, Christopher. "La nueva ciencia del nacimiento y muerte de las palabras" . Wall Street Journal . Consultado el 15 de enero de 2013 .
- Acerbi, Alberto; Lampos, Vasileios; Garnett, Philip; Bentley, Alexander (20 de marzo de 2013). "La expresión de las emociones en los libros del siglo XX" . PLoS ONE . 8 (3): e59030. Código bibliográfico : 2013PLoSO ... 859030A . doi : 10.1371 / journal.pone.0059030 . PMC 3604170 . PMID 23527080 .
- Bentley, Alexander; Acerbi, Alberto; Ormerod, Paul; Lampos, Vasileios (8 de enero de 2014). "Libros promedio de la década anterior de miseria económica" . PLoS ONE . 9 (1): e83147. Código Bibliográfico : 2014PLoSO ... 983147B . doi : 10.1371 / journal.pone.0083147 . PMC 3885402 . PMID 24416159 .
- Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Thompson, James; Lewis, Justin; Cristianini, Nello (2017). "Análisis de contenido de 150 años de publicaciones periódicas británicas" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 114 (4): E457 – E465. doi : 10.1073 / pnas.1606380114 . PMC 5278459 . PMID 28069962 .
enlaces externos
- Culturomics.org , sitio web del Observatorio Cultural de Harvard dirigido por Erez Lieberman Aiden y Jean-Baptiste Michel