Visor de Google Ngram

El Google Ngram Visor o Google Libros Ngram Visor es un motor de búsqueda en línea que traza las frecuencias de cualquier conjunto de cadenas de búsqueda usando un año a contar de n-gramas que se encuentra en fuentes impresas entre 1500 y 2019 ^[1]^[2]^[3]^{[ 4]}^[5] en los corpus de texto de Google en inglés, chino (simplificado), francés, alemán, hebreo, italiano, ruso o español. ^[2]^[6] También hay algunos corpus de inglés especializados, como inglés americano, inglés británico y ficción inglesa. ^[7]

El programa puede buscar una palabra o frase , incluidos errores ortográficos o galimatías . ^[6] Los n-gramas se comparan con el texto dentro del corpus seleccionado, opcionalmente usando una ortografía que distingue entre mayúsculas y minúsculas (que compara el uso exacto de letras mayúsculas), ^[8] y, si se encuentran en 40 o más libros, luego se muestran como un gráfico. ^[9]

El visor de Google Ngram admite búsquedas de partes gramaticales y comodines . ^[7] Se utiliza habitualmente en la investigación. ^[10]^[11]

Historia

El programa fue desarrollado por Jon Orwant y Will Brockman y lanzado a mediados de diciembre de 2010. ^[2]^[3] Se inspiró en un prototipo llamado "Bookworm" creado por Jean-Baptiste Michel y Erez Aiden del Observatorio Cultural de Harvard y Yuan Shen del MIT y Steven Pinker . ^[12]

El visor de Ngram se basó inicialmente en la edición de 2009 de Google Books Ngram Corpus. A julio de 2020^[actualizar], el programa admite corpus de 2009, 2012 y 2019.

Operación y restricciones

Las comas delimitan los términos de búsqueda introducidos por el usuario, indicando cada palabra o frase por separado para buscar. ^[9] El visor de Ngram devuelve un gráfico de líneas trazadas segundos después de que el usuario presione la tecla Intro o el botón "Buscar" en la pantalla.

Como ajuste por haber publicado más libros durante algunos años, los datos se normalizan , como nivel relativo, por el número de libros publicados en cada año. ^[9]

Debido a las limitaciones del tamaño de la base de datos de Ngram, solo las coincidencias encontradas en al menos 40 libros se indexan en la base de datos; de lo contrario, la base de datos no podría haber almacenado todas las combinaciones posibles. ^[9]

Por lo general, los términos de búsqueda no pueden terminar con puntuación, aunque se puede buscar un punto (un punto) por separado . ^[9] Además, un signo de interrogación final (como en "¿Por qué?") Provocará una segunda búsqueda del signo de interrogación por separado. ^[9]

Omitir los puntos en las abreviaturas permitirá una forma de comparación, como usar "R M S" para buscar "RMS" versus "RMS".

Corpora

Los corpus utilizados para la búsqueda se componen de archivos de recuentos totales, 1 gramo, 2 gramos, 3 gramos, 4 gramos y 5 gramos para cada idioma. El formato de archivo de cada uno de los archivos son datos separados por tabulaciones . Cada línea tiene el siguiente formato: ^[13]

archivo total_counts
año TAB match_count TAB page_count TAB volume_count NEWLINE
Archivo ngram versión 1 (generado en julio de 2009)
ngram TAB año TAB match_count TAB page_count TAB volume_count NEWLINE
Archivo ngram versión 2 (generado en julio de 2012)
ngram TAB año TAB match_count TAB volume_count NEWLINE

El visor de Google Ngram usa match_count para trazar el gráfico.

A modo de ejemplo, una palabra "Wikipedia" del archivo de la versión 2 del 1-gramos en inglés se almacena de la siguiente manera: ^[14]

ngram	año	match_count	volume_count
Wikipedia	1904	1	1
Wikipedia	1912	11	1
Wikipedia	1924	1	1
Wikipedia	1925	11	1
Wikipedia	1929	11	1
Wikipedia	1943	11	1
Wikipedia	1946	11	1
Wikipedia	1947	11	1
Wikipedia	1949	11	1
Wikipedia	1951	11	1
Wikipedia	1953	22	2
Wikipedia	1955	11	1
Wikipedia	1958	1	1
Wikipedia	1961	22	2
Wikipedia	1964	22	2
Wikipedia	1965	11	1
Wikipedia	1966	15	2
Wikipedia	1969	33	3
Wikipedia	1970	129	4
Wikipedia	1971	44	4
Wikipedia	1972	22	2
Wikipedia	1973	1	1
Wikipedia	1974	2	1
Wikipedia	1975	33	3
Wikipedia	1976	11	1
Wikipedia	1977	13	3
Wikipedia	1978	11	1
Wikipedia	1979	112	12
Wikipedia	1980	13	4
Wikipedia	mil novecientos ochenta y dos	11	1
Wikipedia	1983	3	2
Wikipedia	1984	48	3
Wikipedia	1985	37	3
Wikipedia	1986	6	4
Wikipedia	1987	13	2
Wikipedia	1988	14	3
Wikipedia	1990	12	2
Wikipedia	1991	8	5
Wikipedia	1992	1	1
Wikipedia	1993	1	1
Wikipedia	1994	23	3
Wikipedia	1995	4	1
Wikipedia	1996	23	3
Wikipedia	1997	6	1
Wikipedia	1998	32	10
Wikipedia	1999	39	11
Wikipedia	2000	43	12
Wikipedia	2001	59	14
Wikipedia	2002	105	19
Wikipedia	2003	149	53
Wikipedia	2004	803	285
Wikipedia	2005	2964	911
Wikipedia	2006	9818	2655
Wikipedia	2007	20017	5400
Wikipedia	2008	33722	6825

El gráfico trazado por Google Ngram Viewer utilizando los datos anteriores está aquí: ^[15]

Crítica

El conjunto de datos ha sido criticado por su dependencia de un OCR inexacto , una sobreabundancia de literatura científica y por incluir una gran cantidad de textos categorizados y fechados incorrectamente. ^[16]^[17] Debido a estos errores, y debido a que no se controla el sesgo ^[18] (como la creciente cantidad de literatura científica, que hace que otros términos parezcan perder popularidad), es arriesgado utilizar este corpus para estudiar lenguaje o probar teorías. ^[19] Dado que el conjunto de datos no incluye metadatos , es posible que no refleje el cambio lingüístico o cultural general ^[20] y solo puede insinuar tal efecto.

Se han propuesto pautas para realizar investigaciones con datos de Google Ngram que abordan muchos de los problemas discutidos anteriormente. ^[21]

Problemas de OCR

El reconocimiento óptico de caracteres, o OCR, no siempre es confiable y es posible que algunos caracteres no se escaneen correctamente. En particular, los errores sistémicos como la confusión de la "s" y la "f" en los textos anteriores al siglo XIX (debido al uso de la s larga que era similar en apariencia a la "f") pueden causar un sesgo sistémico. Aunque Google Ngram Viewer afirma que los resultados son confiables desde 1800 en adelante, un OCR deficiente y datos insuficientes significan que las frecuencias dadas para idiomas como el chino solo pueden ser precisas a partir de 1970, y las partes anteriores del corpus no muestran ningún resultado para los términos comunes. y datos de algunos años que contienen más del 50% de ruido. ^[22]^[23]

Ver también

Culturomics
Tendencias de Google
Análisis léxico

Referencias

^ "Análisis cuantitativo de la cultura utilizando millones de libros digitalizados" JB Michel et al, Science 2011, DOI: 10.1126 / science.1199644 [1]
^ a b c "La base de datos de Google Ngram rastrea la popularidad de 500 mil millones de palabras" Huffington Post , 17 de diciembre de 2010, página web: HP8150 .
^ a b "Visor de Ngram de Google: una máquina del tiempo para juegos de palabras", Cnet.com, 17 de diciembre de 2010, página web: CN93 .
^ "Una imagen vale 500 mil millones de palabras - por Rusty S. Thompson", HarrisburgMagazine.com, 20 de septiembre de 2011, página web: HBMag20 ^{[ enlace muerto permanente ]} .
^ Google SearchLiaison. "El visor de Google Books Ngram ahora se ha actualizado con datos nuevos hasta 2019" . Twitter . Consultado el 11 de agosto de 2020 .
^ a b "Google Books Ngram Viewer - University at Buffalo Libraries", Lib.Buffalo.edu, 22 de agosto de 2011, página web: Buf497 Archivado el 2 de julio de 2013 en Wayback Machine .
^ a b Página de información de Google Books Ngram Viewer: https://books.google.com/ngrams/info
^ "Google Ngram Viewer - Google Books", Books.Google.com, mayo de 2012, página web: G-Ngrams .
^ a b c d e f "Google Ngram Viewer - Google Books" (Información), Books.Google.com, 16 de diciembre de 2010, página web: G-Ngrams-info : notas bigramas y uso de comillas para palabras con apóstrofos.
^ Greenfield PM (2013). La psicología cambiante de la cultura desde 1800 hasta 2000. Psychological Science, 24 (9), 1722-1731. https://doi.org/10.1177/0956797613479387
^ Younes, N. y Reips, U.-D. (2018). La psicología cambiante de la cultura en Alemania: un estudio de Google Ngram. Revista Internacional de Psicología, 53 (S1), 53-62. https://doi.org/10.1002/ijop.12428
^ The RSA (4 de febrero de 2010). "Steven Pinker - La materia del pensamiento: el lenguaje como una ventana a la naturaleza humana" - vía YouTube.
^ "Visor de Ngram de Google Libros" .
^ googlebooks-eng-all-1gram-20120701-w.gz en http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
^ https://books.google.com/ngrams/graph?content=Wikipedia&year_start=1900&year_end=2020&corpus=15&smoothing=0&share=&direct_url=t1%3B%2CWikipedia%3B%2Cc0
^ Google Ngrams: OCR y metadatos archivados el 27 de abril de 2016 en Wayback Machine . ResourceShelf, 19 de diciembre de 2010
^ Nunberg, Geoff (16 de diciembre de 2010). "Investigación en Humanidades con el corpus de Google Books" . Archivado desde el original el 10 de marzo de 2016.
^ Pechenick, Eitan Adam; Danforth, Christopher M .; Dodds, Peter Sheridan; Barrat, Alain (7 de octubre de 2015). "Caracterización del corpus de Google Books: fuertes límites a las inferencias de la evolución sociocultural y lingüística" . PLOS ONE . 10 (10): e0137041. arXiv : 1501.00960 . Código Bibliográfico : 2015PLoSO..1037041P . doi : 10.1371 / journal.pone.0137041 . PMC 4596490 . PMID 26445406 .
^ Zhang, Sarah. "Las trampas de utilizar Google Ngram para estudiar el idioma" . CON CABLE . Consultado el 24 de mayo de 2017 .
^ Koplenig, Alexander (2 de septiembre de 2015). "El impacto de la falta de metadatos para la medición del cambio cultural y lingüístico utilizando los conjuntos de datos de Google Ngram: reconstrucción de la composición del corpus alemán en tiempos de la Segunda Guerra Mundial" . Beca digital en humanidades (publicado el 1 de abril de 2017). 32 (1): 169–188. doi : 10.1093 / llc / fqv037 . ISSN 2055-7671 .
^ Younes, N. y Reips, U.-D. (2019). Pautas para mejorar la confiabilidad de los estudios de Google Ngram: evidencia de términos religiosos. PLoS One, 14 (3): e0213554. https://doi.org/10.1371/journal.pone.0213554
^ N-gramas de Google y chino premoderno . digitalsinology.org.
^ Cuando los n-gramos se estropean . digitalsinology.org.

Bibliografía

Lin, Yuri; et al. (Julio de 2012). "Anotaciones sintácticas para Google Books Ngram Corpus" (PDF) . Actas de la 50ª Reunión Anual . Documentos de demostración. Jeju, República de Corea: Asociación de Lingüística Computacional. 2 : 169-174. 2390499. Documento técnico que presenta la edición de 2012 de Google Books Ngram Corpus

enlaces externos

Página web oficial

[Culturomics-1] "Análisis cuantitativo de la cultura utilizando millones de libros digitalizados" JB Michel et al, Science 2011, DOI: 10.1126 / science.1199644 [1]

[Huf-2] "La base de datos de Google Ngram rastrea la popularidad de 500 mil millones de palabras" Huffington Post , 17 de diciembre de 2010, página web: HP8150 .

[Cnet-3] "Visor de Ngram de Google: una máquina del tiempo para juegos de palabras", Cnet.com, 17 de diciembre de 2010, página web: CN93 .

[SThom-4] "Una imagen vale 500 mil millones de palabras - por Rusty S. Thompson", HarrisburgMagazine.com, 20 de septiembre de 2011, página web: HBMag20 ^{[ enlace muerto permanente ]} .

[5] Google SearchLiaison. "El visor de Google Books Ngram ahora se ha actualizado con datos nuevos hasta 2019" . Twitter . Consultado el 11 de agosto de 2020 .

[BufLib-6] "Google Books Ngram Viewer - University at Buffalo Libraries", Lib.Buffalo.edu, 22 de agosto de 2011, página web: Buf497 Archivado el 2 de julio de 2013 en Wayback Machine .

[Google_Books_Ngram_Viewer-7] Página de información de Google Books Ngram Viewer: https://books.google.com/ngrams/info

[Goog-8] "Google Ngram Viewer - Google Books", Books.Google.com, mayo de 2012, página web: G-Ngrams .

[GInf-9] "Google Ngram Viewer - Google Books" (Información), Books.Google.com, 16 de diciembre de 2010, página web: G-Ngrams-info : notas bigramas y uso de comillas para palabras con apóstrofos.

[10] Greenfield PM (2013). La psicología cambiante de la cultura desde 1800 hasta 2000. Psychological Science, 24 (9), 1722-1731. https://doi.org/10.1177/0956797613479387

[11] Younes, N. y Reips, U.-D. (2018). La psicología cambiante de la cultura en Alemania: un estudio de Google Ngram. Revista Internacional de Psicología, 53 (S1), 53-62. https://doi.org/10.1002/ijop.12428

[12] The RSA (4 de febrero de 2010). "Steven Pinker - La materia del pensamiento: el lenguaje como una ventana a la naturaleza humana" - vía YouTube.

[13] "Visor de Ngram de Google Libros" .

[14] s-eng-all-1gram-20120701-w.gz en http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

[15] ttps://books.google.com/ngrams/graph?content=Wikipedia&year_start=1900&year_end=2020&corpus=15&smoothing=0&share=&direct_url=t1%3B%2CWikipedia%3B%2Cc0

[16] Google Ngrams: OCR y metadatos archivados el 27 de abril de 2016 en Wayback Machine . ResourceShelf, 19 de diciembre de 2010

[17] Nunberg, Geoff (16 de diciembre de 2010). "Investigación en Humanidades con el corpus de Google Books" . Archivado desde el original el 10 de marzo de 2016.

[:0-18] Pechenick, Eitan Adam; Danforth, Christopher M .; Dodds, Peter Sheridan; Barrat, Alain (7 de octubre de 2015). "Caracterización del corpus de Google Books: fuertes límites a las inferencias de la evolución sociocultural y lingüística" . PLOS ONE . 10 (10): e0137041. arXiv : 1501.00960 . Código Bibliográfico : 2015PLoSO..1037041P . doi : 10.1371 / journal.pone.0137041 . PMC 4596490 . PMID 26445406 .

[19] Zhang, Sarah. "Las trampas de utilizar Google Ngram para estudiar el idioma" . CON CABLE . Consultado el 24 de mayo de 2017 .

[20] Koplenig, Alexander (2 de septiembre de 2015). "El impacto de la falta de metadatos para la medición del cambio cultural y lingüístico utilizando los conjuntos de datos de Google Ngram: reconstrucción de la composición del corpus alemán en tiempos de la Segunda Guerra Mundial" . Beca digital en humanidades (publicado el 1 de abril de 2017). 32 (1): 169–188. doi : 10.1093 / llc / fqv037 . ISSN 2055-7671 .

[21] Younes, N. y Reips, U.-D. (2019). Pautas para mejorar la confiabilidad de los estudios de Google Ngram: evidencia de términos religiosos. PLoS One, 14 (3): e0213554. https://doi.org/10.1371/journal.pone.0213554

[22] N-gramas de Google y chino premoderno . digitalsinology.org.

[23] Cuando los n-gramos se estropean . digitalsinology.org.

[1]