Estimación de la frecuencia de Good-Turing


La estimación de frecuencia de Good-Turing es una técnica estadística para estimar la probabilidad de encontrar un objeto de una especie no vista hasta ahora, dado un conjunto de observaciones pasadas de objetos de diferentes especies. Al sacar bolas de una urna, los 'objetos' serían bolas y las 'especies' serían los distintos colores de las bolas (finito pero desconocido en número). Después de sacar bolas rojas, bolas negras y bolas verdes, nos preguntaríamos cuál es la probabilidad de sacar una bola roja, una bola negra, una bola verde o una de un color no visto anteriormente.

La estimación de frecuencia de Good-Turing fue desarrollada por Alan Turing y su asistente IJ Good como parte de sus métodos utilizados en Bletchley Park para descifrar los cifrados alemanes para la máquina Enigma durante la Segunda Guerra Mundial . Turing al principio modeló las frecuencias como una distribución multinomial , pero lo encontró inexacto. Good desarrolló algoritmos de suavizado para mejorar la precisión del estimador.

El descubrimiento fue reconocido como significativo cuando lo publicó Good en 1953, [1] pero los cálculos eran difíciles, por lo que no se usó tan ampliamente como podría haber sido. [2] El método incluso ganó algo de fama literaria debido a la novela Enigma de Robert Harris .

En la década de 1990, Geoffrey Sampson trabajó con William A. Gale de AT&T para crear e implementar una variante simplificada y más fácil de usar del método Good-Turing [3] [4] que se describe a continuación. Se han proporcionado varias justificaciones heurísticas [5] y una derivación combinatoria simple. [6]

Por ejemplo, es el número de especies para las que solo se observó un individuo. Tenga en cuenta que el número total de objetos observados, , se puede encontrar a partir de

El primer paso en el cálculo es estimar la probabilidad de que un individuo observado en el futuro (o el próximo individuo observado) sea miembro de una especie no vista hasta ahora. Esta estimación es: [7]