El Google Ngram Visor o Google Libros Ngram Visor es un motor de búsqueda en línea que traza las frecuencias de cualquier conjunto de cadenas de búsqueda usando un año a contar de n-gramas que se encuentra en fuentes impresas entre 1500 y 2019 [1] [2] [3] [ 4] [5] en los corpus de texto de Google en inglés, chino (simplificado), francés, alemán, hebreo, italiano, ruso o español. [2] [6] También hay algunos corpus de inglés especializados, como inglés americano, inglés británico y ficción inglesa. [7]
El programa puede buscar una palabra o frase , incluidos errores ortográficos o galimatías . [6] Los n-gramas se comparan con el texto dentro del corpus seleccionado, opcionalmente usando una ortografía que distingue entre mayúsculas y minúsculas (que compara el uso exacto de letras mayúsculas), [8] y, si se encuentran en 40 o más libros, luego se muestran como un gráfico. [9]
El visor de Google Ngram admite búsquedas de partes gramaticales y comodines . [7] Se utiliza habitualmente en la investigación. [10] [11]
Historia
El programa fue desarrollado por Jon Orwant y Will Brockman y lanzado a mediados de diciembre de 2010. [2] [3] Se inspiró en un prototipo llamado "Bookworm" creado por Jean-Baptiste Michel y Erez Aiden del Observatorio Cultural de Harvard y Yuan Shen del MIT y Steven Pinker . [12]
El visor de Ngram se basó inicialmente en la edición de 2009 de Google Books Ngram Corpus. A julio de 2020[actualizar], el programa admite corpus de 2009, 2012 y 2019.
Operación y restricciones
Las comas delimitan los términos de búsqueda introducidos por el usuario, indicando cada palabra o frase por separado para buscar. [9] El visor de Ngram devuelve un gráfico de líneas trazadas segundos después de que el usuario presione la tecla Intro o el botón "Buscar" en la pantalla.
Como ajuste por haber publicado más libros durante algunos años, los datos se normalizan , como nivel relativo, por el número de libros publicados en cada año. [9]
Debido a las limitaciones del tamaño de la base de datos de Ngram, solo las coincidencias encontradas en al menos 40 libros se indexan en la base de datos; de lo contrario, la base de datos no podría haber almacenado todas las combinaciones posibles. [9]
Por lo general, los términos de búsqueda no pueden terminar con puntuación, aunque se puede buscar un punto (un punto) por separado . [9] Además, un signo de interrogación final (como en "¿Por qué?") Provocará una segunda búsqueda del signo de interrogación por separado. [9]
Omitir los puntos en las abreviaturas permitirá una forma de comparación, como usar "R M S" para buscar "RMS" versus "RMS".
Corpora
Los corpus utilizados para la búsqueda se componen de archivos de recuentos totales, 1 gramo, 2 gramos, 3 gramos, 4 gramos y 5 gramos para cada idioma. El formato de archivo de cada uno de los archivos son datos separados por tabulaciones . Cada línea tiene el siguiente formato: [13]
- archivo total_counts
- año TAB match_count TAB page_count TAB volume_count NEWLINE
- Archivo ngram versión 1 (generado en julio de 2009)
- ngram TAB año TAB match_count TAB page_count TAB volume_count NEWLINE
- Archivo ngram versión 2 (generado en julio de 2012)
- ngram TAB año TAB match_count TAB volume_count NEWLINE
El visor de Google Ngram usa match_count para trazar el gráfico.
A modo de ejemplo, una palabra "Wikipedia" del archivo de la versión 2 del 1-gramos en inglés se almacena de la siguiente manera: [14]
ngram | año | match_count | volume_count |
---|---|---|---|
Wikipedia | 1904 | 1 | 1 |
Wikipedia | 1912 | 11 | 1 |
Wikipedia | 1924 | 1 | 1 |
Wikipedia | 1925 | 11 | 1 |
Wikipedia | 1929 | 11 | 1 |
Wikipedia | 1943 | 11 | 1 |
Wikipedia | 1946 | 11 | 1 |
Wikipedia | 1947 | 11 | 1 |
Wikipedia | 1949 | 11 | 1 |
Wikipedia | 1951 | 11 | 1 |
Wikipedia | 1953 | 22 | 2 |
Wikipedia | 1955 | 11 | 1 |
Wikipedia | 1958 | 1 | 1 |
Wikipedia | 1961 | 22 | 2 |
Wikipedia | 1964 | 22 | 2 |
Wikipedia | 1965 | 11 | 1 |
Wikipedia | 1966 | 15 | 2 |
Wikipedia | 1969 | 33 | 3 |
Wikipedia | 1970 | 129 | 4 |
Wikipedia | 1971 | 44 | 4 |
Wikipedia | 1972 | 22 | 2 |
Wikipedia | 1973 | 1 | 1 |
Wikipedia | 1974 | 2 | 1 |
Wikipedia | 1975 | 33 | 3 |
Wikipedia | 1976 | 11 | 1 |
Wikipedia | 1977 | 13 | 3 |
Wikipedia | 1978 | 11 | 1 |
Wikipedia | 1979 | 112 | 12 |
Wikipedia | 1980 | 13 | 4 |
Wikipedia | mil novecientos ochenta y dos | 11 | 1 |
Wikipedia | 1983 | 3 | 2 |
Wikipedia | 1984 | 48 | 3 |
Wikipedia | 1985 | 37 | 3 |
Wikipedia | 1986 | 6 | 4 |
Wikipedia | 1987 | 13 | 2 |
Wikipedia | 1988 | 14 | 3 |
Wikipedia | 1990 | 12 | 2 |
Wikipedia | 1991 | 8 | 5 |
Wikipedia | 1992 | 1 | 1 |
Wikipedia | 1993 | 1 | 1 |
Wikipedia | 1994 | 23 | 3 |
Wikipedia | 1995 | 4 | 1 |
Wikipedia | 1996 | 23 | 3 |
Wikipedia | 1997 | 6 | 1 |
Wikipedia | 1998 | 32 | 10 |
Wikipedia | 1999 | 39 | 11 |
Wikipedia | 2000 | 43 | 12 |
Wikipedia | 2001 | 59 | 14 |
Wikipedia | 2002 | 105 | 19 |
Wikipedia | 2003 | 149 | 53 |
Wikipedia | 2004 | 803 | 285 |
Wikipedia | 2005 | 2964 | 911 |
Wikipedia | 2006 | 9818 | 2655 |
Wikipedia | 2007 | 20017 | 5400 |
Wikipedia | 2008 | 33722 | 6825 |
El gráfico trazado por Google Ngram Viewer utilizando los datos anteriores está aquí: [15]
Crítica
El conjunto de datos ha sido criticado por su dependencia de un OCR inexacto , una sobreabundancia de literatura científica y por incluir una gran cantidad de textos categorizados y fechados incorrectamente. [16] [17] Debido a estos errores, y debido a que no se controla el sesgo [18] (como la creciente cantidad de literatura científica, que hace que otros términos parezcan perder popularidad), es arriesgado utilizar este corpus para estudiar lenguaje o probar teorías. [19] Dado que el conjunto de datos no incluye metadatos , es posible que no refleje el cambio lingüístico o cultural general [20] y solo puede insinuar tal efecto.
Se han propuesto pautas para realizar investigaciones con datos de Google Ngram que abordan muchos de los problemas discutidos anteriormente. [21]
Problemas de OCR
El reconocimiento óptico de caracteres, o OCR, no siempre es confiable y es posible que algunos caracteres no se escaneen correctamente. En particular, los errores sistémicos como la confusión de la "s" y la "f" en los textos anteriores al siglo XIX (debido al uso de la s larga que era similar en apariencia a la "f") pueden causar un sesgo sistémico. Aunque Google Ngram Viewer afirma que los resultados son confiables desde 1800 en adelante, un OCR deficiente y datos insuficientes significan que las frecuencias dadas para idiomas como el chino solo pueden ser precisas a partir de 1970, y las partes anteriores del corpus no muestran ningún resultado para los términos comunes. y datos de algunos años que contienen más del 50% de ruido. [22] [23]
Ver también
- Culturomics
- Tendencias de Google
- Análisis léxico
Referencias
- ^ "Análisis cuantitativo de la cultura utilizando millones de libros digitalizados" JB Michel et al, Science 2011, DOI: 10.1126 / science.1199644 [1]
- ^ a b c "La base de datos de Google Ngram rastrea la popularidad de 500 mil millones de palabras" Huffington Post , 17 de diciembre de 2010, página web: HP8150 .
- ^ a b "Visor de Ngram de Google: una máquina del tiempo para juegos de palabras", Cnet.com, 17 de diciembre de 2010, página web: CN93 .
- ^ "Una imagen vale 500 mil millones de palabras - por Rusty S. Thompson", HarrisburgMagazine.com, 20 de septiembre de 2011, página web: HBMag20 [ enlace muerto permanente ] .
- ^ Google SearchLiaison. "El visor de Google Books Ngram ahora se ha actualizado con datos nuevos hasta 2019" . Twitter . Consultado el 11 de agosto de 2020 .
- ^ a b "Google Books Ngram Viewer - University at Buffalo Libraries", Lib.Buffalo.edu, 22 de agosto de 2011, página web: Buf497 Archivado el 2 de julio de 2013 en Wayback Machine .
- ^ a b Página de información de Google Books Ngram Viewer: https://books.google.com/ngrams/info
- ^ "Google Ngram Viewer - Google Books", Books.Google.com, mayo de 2012, página web: G-Ngrams .
- ^ a b c d e f "Google Ngram Viewer - Google Books" (Información), Books.Google.com, 16 de diciembre de 2010, página web: G-Ngrams-info : notas bigramas y uso de comillas para palabras con apóstrofos.
- ^ Greenfield PM (2013). La psicología cambiante de la cultura desde 1800 hasta 2000. Psychological Science, 24 (9), 1722-1731. https://doi.org/10.1177/0956797613479387
- ^ Younes, N. y Reips, U.-D. (2018). La psicología cambiante de la cultura en Alemania: un estudio de Google Ngram. Revista Internacional de Psicología, 53 (S1), 53-62. https://doi.org/10.1002/ijop.12428
- ^ The RSA (4 de febrero de 2010). "Steven Pinker - La materia del pensamiento: el lenguaje como una ventana a la naturaleza humana" - vía YouTube.
- ^ "Visor de Ngram de Google Libros" .
- ^ googlebooks-eng-all-1gram-20120701-w.gz en http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
- ^ https://books.google.com/ngrams/graph?content=Wikipedia&year_start=1900&year_end=2020&corpus=15&smoothing=0&share=&direct_url=t1%3B%2CWikipedia%3B%2Cc0
- ^ Google Ngrams: OCR y metadatos archivados el 27 de abril de 2016 en Wayback Machine . ResourceShelf, 19 de diciembre de 2010
- ^ Nunberg, Geoff (16 de diciembre de 2010). "Investigación en Humanidades con el corpus de Google Books" . Archivado desde el original el 10 de marzo de 2016.
- ^ Pechenick, Eitan Adam; Danforth, Christopher M .; Dodds, Peter Sheridan; Barrat, Alain (7 de octubre de 2015). "Caracterización del corpus de Google Books: fuertes límites a las inferencias de la evolución sociocultural y lingüística" . PLOS ONE . 10 (10): e0137041. arXiv : 1501.00960 . Código Bibliográfico : 2015PLoSO..1037041P . doi : 10.1371 / journal.pone.0137041 . PMC 4596490 . PMID 26445406 .
- ^ Zhang, Sarah. "Las trampas de utilizar Google Ngram para estudiar el idioma" . CON CABLE . Consultado el 24 de mayo de 2017 .
- ^ Koplenig, Alexander (2 de septiembre de 2015). "El impacto de la falta de metadatos para la medición del cambio cultural y lingüístico utilizando los conjuntos de datos de Google Ngram: reconstrucción de la composición del corpus alemán en tiempos de la Segunda Guerra Mundial" . Beca digital en humanidades (publicado el 1 de abril de 2017). 32 (1): 169–188. doi : 10.1093 / llc / fqv037 . ISSN 2055-7671 .
- ^ Younes, N. y Reips, U.-D. (2019). Pautas para mejorar la confiabilidad de los estudios de Google Ngram: evidencia de términos religiosos. PLoS One, 14 (3): e0213554. https://doi.org/10.1371/journal.pone.0213554
- ^ N-gramas de Google y chino premoderno . digitalsinology.org.
- ^ Cuando los n-gramos se estropean . digitalsinology.org.
Bibliografía
- Lin, Yuri; et al. (Julio de 2012). "Anotaciones sintácticas para Google Books Ngram Corpus" (PDF) . Actas de la 50ª Reunión Anual . Documentos de demostración. Jeju, República de Corea: Asociación de Lingüística Computacional. 2 : 169-174. 2390499.
Documento técnico que presenta la edición de 2012 de Google Books Ngram Corpus
enlaces externos
- Página web oficial