De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

El Google Ngram Visor o Google Libros Ngram Visor es un motor de búsqueda en línea que traza las frecuencias de cualquier conjunto de cadenas de búsqueda usando un año a contar de n-gramas que se encuentra en fuentes impresas entre 1500 y 2019 [1] [2] [3] [ 4] [5] en los corpus de texto de Google en inglés, chino (simplificado), francés, alemán, hebreo, italiano, ruso o español. [2] [6] También hay algunos corpus de inglés especializados, como inglés americano, inglés británico y ficción inglesa. [7]

El programa puede buscar una palabra o frase , incluidos errores ortográficos o galimatías . [6] Los n-gramas se comparan con el texto dentro del corpus seleccionado, opcionalmente usando una ortografía que distingue entre mayúsculas y minúsculas (que compara el uso exacto de letras mayúsculas), [8] y, si se encuentran en 40 o más libros, luego se muestran como un gráfico. [9]

El visor de Google Ngram admite búsquedas de partes gramaticales y comodines . [7] Se utiliza habitualmente en la investigación. [10] [11]

Historia [ editar ]

El programa fue desarrollado por Jon Orwant y Will Brockman y lanzado a mediados de diciembre de 2010. [2] [3] Se inspiró en un prototipo llamado "Bookworm" creado por Jean-Baptiste Michel y Erez Aiden del Observatorio Cultural de Harvard y Yuan Shen del MIT y Steven Pinker . [12]

El visor de Ngram se basó inicialmente en la edición de 2009 de Google Books Ngram Corpus. A partir de julio de 2020 , el programa admite corpus de 2009, 2012 y 2019.

Operación y restricciones [ editar ]

Las comas delimitan los términos de búsqueda introducidos por el usuario, indicando cada palabra o frase por separado para buscar. [9] El visor de Ngram devuelve un gráfico de líneas trazadas segundos después de que el usuario presione la tecla Intro o el botón "Buscar" en la pantalla.

Como ajuste por haber publicado más libros durante algunos años, los datos se normalizan , como nivel relativo, por el número de libros publicados en cada año. [9]

Debido a las limitaciones en el tamaño de la base de datos de Ngram, solo las coincidencias encontradas en al menos 40 libros se indexan en la base de datos; de lo contrario, la base de datos no podría haber almacenado todas las combinaciones posibles. [9]

Por lo general, los términos de búsqueda no pueden terminar con puntuación, aunque se puede buscar un punto (un punto) por separado . [9] Además, un signo de interrogación final (como en "¿Por qué?") Provocará una segunda búsqueda del signo de interrogación por separado. [9]

Omitir los puntos en las abreviaturas permitirá una forma de comparación, como usar "R M S" para buscar "RMS" versus "RMS".

Corpora [ editar ]

Los corpus utilizados para la búsqueda se componen de archivos de total_counts, archivos de 1 gramo, 2 gramos, 3 gramos, 4 gramos y 5 gramos para cada idioma. El formato de archivo de cada uno de los archivos son datos separados por tabulaciones . Cada línea tiene el siguiente formato: [13]

  • archivo total_counts
    año TAB match_count TAB page_count TAB volume_count NEWLINE
  • Archivo ngram versión 1 (generado en julio de 2009)
    ngram TAB año TAB match_count TAB page_count TAB volume_count NEWLINE
  • Archivo ngram versión 2 (generado en julio de 2012)
    ngram TAB año TAB match_count TAB volume_count NEWLINE

El visor de Google Ngram usa match_count para trazar el gráfico.

A modo de ejemplo, una palabra "Wikipedia" del archivo de la versión 2 del 1-gramos en inglés se almacena de la siguiente manera: [14]

El gráfico trazado por Google Ngram Viewer utilizando los datos anteriores está aquí: [15]

Crítica [ editar ]

El conjunto de datos ha sido criticado por su dependencia de un OCR inexacto , una sobreabundancia de literatura científica y por incluir una gran cantidad de textos categorizados y fechados incorrectamente. [16] [17] Debido a estos errores, y debido a que no se controla el sesgo [18] (como la creciente cantidad de literatura científica, que hace que otros términos parezcan perder popularidad), es arriesgado utilizar este corpus para estudiar el lenguaje o probar teorías. [19] Dado que el conjunto de datos no incluye metadatos , es posible que no refleje el cambio lingüístico o cultural general [20] y solo puede insinuar tal efecto.

Se han propuesto pautas para realizar investigaciones con datos de Google Ngram que abordan muchos de los problemas discutidos anteriormente. [21]

Problemas de OCR [ editar ]

El reconocimiento óptico de caracteres, o OCR, no siempre es confiable y es posible que algunos caracteres no se escaneen correctamente. En particular, los errores sistémicos como la confusión de la "s" y la "f" en los textos anteriores al siglo XIX (debido al uso de la s larga que era similar en apariencia a la "f") pueden causar un sesgo sistémico. Aunque Google Ngram Viewer afirma que los resultados son confiables desde 1800 en adelante, un OCR deficiente y datos insuficientes significan que las frecuencias dadas para idiomas como el chino solo pueden ser precisas a partir de 1970, y las partes anteriores del corpus no muestran ningún resultado para los términos comunes. y datos de algunos años que contienen más del 50% de ruido. [22] [23]

Ver también [ editar ]

  • Culturomics
  • Tendencias de Google
  • Análisis léxico

Referencias [ editar ]

  1. ^ "Análisis cuantitativo de la cultura utilizando millones de libros digitalizados" JB Michel et al, Science 2011, DOI: 10.1126 / science.1199644 [1]
  2. ^ a b c "La base de datos de Google Ngram rastrea la popularidad de 500 mil millones de palabras" Huffington Post , 17 de diciembre de 2010, página web: HP8150 .
  3. ^ a b "Visor de Ngram de Google: una máquina del tiempo para juegos de palabras", Cnet.com, 17 de diciembre de 2010, página web: CN93 .
  4. ^ "Una imagen vale 500 mil millones de palabras - por Rusty S. Thompson", HarrisburgMagazine.com, 20 de septiembre de 2011, página web: HBMag20 [ enlace muerto permanente ] .
  5. ^ Google SearchLiaison. "El visor de Google Books Ngram ahora se ha actualizado con datos nuevos hasta 2019" . Twitter . Consultado el 11 de agosto de 2020 .
  6. ^ a b "Google Books Ngram Viewer - University at Buffalo Libraries", Lib.Buffalo.edu, 22 de agosto de 2011, página web: Buf497 Archivado el 2 de julio de 2013 en Wayback Machine .
  7. ^ a b Página de información de Google Books Ngram Viewer: https://books.google.com/ngrams/info
  8. ^ "Google Ngram Viewer - Google Books", Books.Google.com, mayo de 2012, página web: G-Ngrams .
  9. ^ a b c d e f "Google Ngram Viewer - Google Books" (Información), Books.Google.com, 16 de diciembre de 2010, página web: G-Ngrams-info : notas bigramas y uso de comillas para palabras con apóstrofos.
  10. ^ Greenfield PM (2013). La psicología cambiante de la cultura desde 1800 hasta 2000. Psychological Science, 24 (9), 1722-1731. https://doi.org/10.1177/0956797613479387
  11. ^ Younes, N. y Reips, U.-D. (2018). La psicología cambiante de la cultura en Alemania: un estudio de Google Ngram. Revista Internacional de Psicología, 53 (S1), 53-62. https://doi.org/10.1002/ijop.12428
  12. ^ The RSA (4 de febrero de 2010). "Steven Pinker - La materia del pensamiento: el lenguaje como una ventana a la naturaleza humana" - vía YouTube.
  13. ^ "Visor de Ngram de Google Libros" .
  14. ^ googlebooks-eng-all-1gram-20120701-w.gz en http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
  15. ^ https://books.google.com/ngrams/graph?content=Wikipedia&year_start=1900&year_end=2020&corpus=15&smoothing=0&share=&direct_url=t1%3B%2CWikipedia%3B%2Cc0
  16. ^ Google Ngrams: OCR y metadatos archivados el 27 de abril de 2016 en Wayback Machine . ResourceShelf, 19 de diciembre de 2010
  17. ^ Nunberg, Geoff (16 de diciembre de 2010). "Investigación en Humanidades con el corpus de Google Books" . Archivado desde el original el 10 de marzo de 2016.
  18. ^ Pechenick, Eitan Adam; Danforth, Christopher M .; Dodds, Peter Sheridan; Barrat, Alain (7 de octubre de 2015). "Caracterización del corpus de Google Books: fuertes límites a las inferencias de la evolución sociocultural y lingüística" . PLOS ONE . 10 (10): e0137041. arXiv : 1501.00960 . Código bibliográfico : 2015PLoSO..1037041P . doi : 10.1371 / journal.pone.0137041 . PMC 4596490 . PMID 26445406 .  
  19. ^ Zhang, Sarah. "Las trampas de utilizar Google Ngram para estudiar el idioma" . CON CABLE . Consultado el 24 de mayo de 2017 .
  20. Koplenig, Alexander (2 de septiembre de 2015). "El impacto de la falta de metadatos para la medición del cambio cultural y lingüístico utilizando los conjuntos de datos de Google Ngram: reconstrucción de la composición del corpus alemán en tiempos de la Segunda Guerra Mundial" . Beca digital en humanidades (publicado el 1 de abril de 2017). 32 (1): 169–188. doi : 10.1093 / llc / fqv037 . ISSN 2055-7671 . 
  21. ^ Younes, N. y Reips, U.-D. (2019). Pautas para mejorar la confiabilidad de los estudios de Google Ngram: evidencia de términos religiosos. PLoS One, 14 (3): e0213554. https://doi.org/10.1371/journal.pone.0213554
  22. ^ N-gramas de Google y chino premoderno . digitalsinology.org.
  23. ^ Cuando los n-gramos se estropean . digitalsinology.org.

Bibliografía [ editar ]

  • Lin, Yuri; et al. (Julio de 2012). "Anotaciones sintácticas para Google Books Ngram Corpus" (PDF) . Actas de la 50ª Reunión Anual . Documentos de demostración. Jeju, República de Corea: Asociación de Lingüística Computacional. 2 : 169-174. 2390499. Documento técnico que presenta la edición de 2012 de Google Books Ngram Corpus

Enlaces externos [ editar ]

  • Página web oficial