Una frase estadísticamente improbable ( SIP ) es una frase o conjunto de palabras que aparece con más frecuencia en un documento (o colección de documentos) que en un corpus más grande . [1] [2] [3] Amazon.com usa este concepto para determinar las palabras clave para un libro o capítulo dado, ya que es probable que las palabras clave de un libro o capítulo aparezcan de manera desproporcionada dentro de esa sección. [4] [5] Christian Rudder también ha utilizado este concepto con datos de perfiles de citas online y publicaciones de Twitter para determinar las frases más características de una determinada raza o género en su libro Dataclysm . [6] Los SIP con una densidad lingüística de dos o tres palabras, adjetivo, adjetivo, sustantivo o adverbio, adverbio, verbo, señalarán al lector la actitud, premisa o conclusiones del autor o expresarán una idea importante.
Ejemplo
En un documento sobre computadoras, es probable que la palabra más común sea la palabra "the", pero dado que "the" es la palabra más utilizada en el idioma inglés, es probable que cualquier documento tenga la palabra "the" utilizado con mucha frecuencia. Sin embargo, una frase como "algoritmo booleano explícito" puede aparecer en el documento a un ritmo mucho más alto que el promedio en el idioma inglés. Por lo tanto, es una frase que es poco probable que aparezca en un documento dado, pero sí en el documento dado. "Algoritmo booleano explícito" sería una frase estadísticamente improbable.
Frases estadísticamente improbables de El origen de las especies de Darwin podrían ser: producciones templadas, géneros descendidos, gradaciones de transición, progenitor desconocido, formaciones fosilíferas, nuestras razas domésticas, descendencia modificada, formas dudosas, formas estrechamente relacionadas, variaciones rentables, grados de transición enormemente remotos. , especies muy distintas y descendencia mestiza . [7]
Más ejemplos de SIPS son pandemia tortuosa, paradigma basal dominante predominante, prueba científica irrefutable, proceso de señalización celular, transducción de ADN nuclear, interacción cooperativa instructiva, concreciones septarianas, sistema económico moribundo, colapso del bloque occidental, sistema de libre empresa, legislación habilitante posterior, totalitario ideología política, escándalo financiero pernicioso, degeneración sin fondo, censura generalizada, alto nivel moral, demagogo de ojos furtivos, narcisista titulado arrogante, sociópata intrigante, psicópata depredador, fallas morales personales, curiosidad desinteresada, innumerables desastres y sufrimiento impensable, innumerables cosmoi, base cero presupuestos, gángsters horripilantes y horripilantes, mejora dependiente de anticuerpos del cebado patógeno. [8]
Ver también
- Colocación : cualquier serie de palabras que coexistan con más frecuencia de lo que cabría esperar por casualidad.
- Googlewhack : un par de palabras que aparecen en una sola página web, según la indexación de Google.
- tf-idf : una estadística utilizada en la recuperación de información y la minería de texto
Referencias
- ^ "Wikipedia SIP" (PDF) . Courses.cms.caltech.edu . Consultado el 1 de enero de 2017 .
- ^ Jonathan Bailey (3 de julio de 2012). "¿Cuánto tiempo debe durar una frase estadísticamente improbable?" . Plagio hoy .
- ^ Errami, Mounir; Sun, Zhaohui; George, Angela C .; Long, Tara C .; Skinner, Michael A .; Wren, Jonathan D .; Garner, Harold R. (1 de junio de 2010). "Identificación de contenido duplicado mediante frases estadísticamente improbables" . Bioinformática . 26 (11): 1453-1457. doi : 10.1093 / bioinformatics / btq146 . PMC 2872002 . PMID 20472545 : a través de bioinformatics.oxfordjournals.org.
- ^ "¿Qué son las frases estadísticamente improbables?" . Amazon.com . Consultado el 18 de diciembre de 2007 .
- ^ Weeks, Linton (30 de agosto de 2005). "Las estadísticas vitales de Amazon muestran cómo se acumulan los libros" . The Washington Post . Consultado el 8 de septiembre de 2015 .
- ^ Timón, Christian (2014). Dataclysm: quiénes somos cuando creemos que nadie está mirando . Nueva York: Crown Publishers. ISBN 978-0-385-34737-2.
- ^ Frases sociológicamente improbables Madera torcida abril de 2005
- ^ https://vimeo.com/513597654 Dr. Simone Gold. Marzo de 2021.