De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

La predicción estadística de fútbol es un método utilizado en las apuestas deportivas para predecir el resultado de los partidos de fútbol mediante herramientas estadísticas. El objetivo de la predicción estadística de partidos es superar las predicciones de los corredores de apuestas [ cita requerida ] [ dudoso ] , que los utilizan para establecer cuotas sobre el resultado de los partidos de fútbol.

El enfoque estadístico de predicción más utilizado es la clasificación . Los sistemas de clasificación de fútbol asignan un rango a cada equipo en función de sus resultados de juegos anteriores, de modo que el rango más alto se asigna al equipo más fuerte. El resultado del partido se puede predecir comparando las filas de los oponentes. Existen varios sistemas de clasificación de fútbol diferentes, por ejemplo, algunos ampliamente conocidos son la Clasificación Mundial de la FIFA o la Clasificación Elo del Fútbol Mundial .

Hay tres inconvenientes principales en las predicciones de partidos de fútbol que se basan en sistemas de clasificación:

  1. Los rangos asignados a los equipos no diferencian entre sus fortalezas ofensivas y defensivas.
  2. Los rangos son promedios acumulados que no tienen en cuenta los cambios de habilidad en los equipos de fútbol.
  3. El objetivo principal de un sistema de clasificación no es predecir los resultados de los partidos de fútbol, ​​sino clasificar los equipos de acuerdo con su fuerza promedio.

Otro enfoque de la predicción de fútbol se conoce como sistemas de clasificación . Si bien la clasificación se refiere solo al orden del equipo, los sistemas de clasificación asignan a cada equipo un indicador de fuerza en escala continua. Además, la calificación puede asignarse no solo a un equipo, sino también a sus fortalezas ofensivas y defensivas, la ventaja de jugar en casa o incluso a las habilidades de cada jugador del equipo (según Stern [1] ).

Historia [ editar ]

Las publicaciones sobre modelos estadísticos para predicciones de fútbol comenzaron a aparecer a partir de los años 90, pero el primer modelo fue propuesto mucho antes por Moroney, [2] quien publicó su primer análisis estadístico de los resultados de los partidos de fútbol en 1956. Según su análisis, tanto la distribución de Poisson como la negativa La distribución binomial proporcionó un ajuste adecuado a los resultados de los partidos de fútbol. La serie de pases de balón entre jugadores durante los partidos de fútbol fue analizada con éxito utilizando una distribución binomial negativa por Reep y Benjamin [3] en 1968. Mejoraron este método en 1971, y en 1974 Hill [4] indicó que los resultados de los predecible y no simplemente una cuestión de azar.

El primer modelo que predice los resultados de los partidos de fútbol entre equipos con diferentes habilidades fue propuesto por Michael Maher [5] en 1982. Según su modelo, los goles que marcan los oponentes durante el juego se extraen de la distribución de Poisson . Los parámetros del modelo se definen por la diferencia entre las habilidades ofensivas y defensivas, ajustadas por el factor de ventaja del campo local. Los métodos para modelar el factor de ventaja de campo local se resumieron en un artículo de Caurneya y Carron [6] en 1992. La dependencia del tiempo de las fortalezas del equipo fue analizada por Knorr-Held [7] en 1999. Usó estimación bayesiana recursiva para calificar equipos de fútbol: este método era más realista en comparación con la predicción de fútbol basada en estadísticas promedio comunes.

Métodos de predicción de fútbol [ editar ]

Todos los métodos de predicción se pueden clasificar según el tipo de torneo, la dependencia del tiempo y el algoritmo de regresión. Los métodos de predicción de fútbol varían entre el torneo Round-robin y la competencia Knockout . Los métodos para la competición eliminatoria se resumen en un artículo de Diego Kuonen. [8]

La siguiente tabla resume los métodos relacionados con el torneo Round-robin .

Calificación de mínimos cuadrados independientes del tiempo [ editar ]

Este método tiene la intención de asignar a cada equipo en el torneo un valor de calificación en escala continua, de modo que el equipo más fuerte tenga la calificación más alta. El método se basa en el supuesto de que la calificación asignada a los equipos rivales es proporcional al resultado de cada partido.

Suponga que los equipos A, B, C y D están jugando en un torneo y los resultados del partido son los siguientes:

A pesar de las votaciones , , y de los equipos A, B, C y D son, respectivamente, desconocida, se puede suponer que el resultado del partido # 1 es proporcional a la diferencia entre las filas de los equipos A y B: . De esta forma, corresponde a la diferencia de puntuación y es la observación de ruido. Se puede hacer la misma suposición para todos los partidos del torneo:

Al introducir una matriz de selección X, las ecuaciones anteriores se pueden reescribir de forma compacta:

Las entradas de la matriz de selección pueden ser 1, 0 o -1, donde 1 corresponde a los equipos locales y -1 a los equipos visitantes:

Si la matriz tiene rango completo, la solución algebraica del sistema se puede encontrar mediante el método de mínimos cuadrados :

De lo contrario, se puede usar el pseudoinverso de Moore-Penrose para obtener:

Los parámetros de calificación final son En este caso, el equipo más fuerte tiene la calificación más alta. La ventaja de este método de clasificación en comparación con los sistemas de clasificación estándar es que los números se escalan continuamente, definiendo la diferencia precisa entre las fortalezas de los equipos.

Regresión de Poisson independiente del tiempo [ editar ]

Según este modelo (Maher [5] ), si y son los goles marcados en el partido en el que el equipo i juega contra el equipo j, entonces:

y son variables aleatorias independientes con medias y . Por tanto, la probabilidad conjunta de que el equipo de casa marque x goles y el equipo visitante marque y goles es un producto de las dos probabilidades independientes:

mientras que el modelo log-lineal generalizado para y según Kuonen [8] y Lee [9] se define como: y , donde se refiere a las fortalezas ofensivas y defensivas ya la ventaja de local, respectivamente. y son factores de corrección que representan los medios de los goles marcados durante la temporada por equipos locales y visitantes.

Suponiendo que C significa el número de equipos que participan en una temporada y N representa el número de partidos jugados hasta ahora, las fortalezas del equipo se pueden estimar minimizando la función de probabilidad logarítmica negativa con respecto a y :

Dado que y se conocen, las fortalezas de ataque y defensa del equipo y la ventaja del terreno de juego que minimizan la probabilidad de registro negativa pueden estimarse mediante la Maximización de expectativas :

Mark Dixon (estadístico) y Stuart Coles sugirieron mejoras para este modelo . [10] Ellos inventaron un factor de correlación para puntuaciones bajas 0-0, 1-0, 0-1 y 1-1, donde el modelo de Poisson independiente no es válido. Dimitris Karlis e Ioannis Ntzoufras [11] construyeron un modelo de distribución Skellam independiente del tiempo. A diferencia del modelo de Poisson que se ajusta a la distribución de puntajes, el modelo de Skellam se ajusta a la diferencia entre puntajes locales y visitantes.

Cadena de Markov dependiente del tiempo Monte Carlo [ editar ]

Por un lado, los modelos estadísticos requieren un gran número de observaciones para realizar una estimación precisa de sus parámetros. Y cuando no hay suficientes observaciones disponibles durante una temporada (como suele ser la situación), trabajar con estadísticas promedio tiene sentido. Por otro lado, es bien sabido que las habilidades del equipo cambian durante la temporada, lo que hace que los parámetros del modelo dependan del tiempo. Mark Dixon (estadístico) y Coles [10] intentaron resolver este compromiso asignando un mayor peso a los últimos resultados de las coincidencias. Rue y Salvesen [12] introdujeron un nuevo método de calificación dependiente del tiempo utilizando el modelo de la Cadena de Markov.

Sugirieron modificar el modelo lineal generalizado anterior para y :

dado que corresponde a la diferencia de fuerza entre los equipos i y j. El parámetro luego representa los efectos psicológicos causados ​​por la subestimación de la fuerza de los equipos oponentes.

Según el modelo, la fuerza de ataque del equipo A se puede describir mediante las ecuaciones estándar del movimiento browniano , para el tiempo :

donde y se refieren a la tasa de pérdida de memoria y a la varianza del ataque anterior, respectivamente.

Este modelo se basa en el supuesto de que:

Suponiendo que tres equipos A, B y C están jugando en el torneo y los partidos se juegan en el siguiente orden :: AB; : AC; : BC, la densidad de probabilidad conjunta se puede expresar como:

Dado que la estimación analítica de los parámetros es difícil en este caso, se aplica el método de Monte Carlo para estimar los parámetros del modelo.

Uso para otros deportes [ editar ]

Los modelos utilizados para el fútbol de asociación pueden utilizarse para otros deportes con el mismo recuento de goles (puntos), es decir, hockey sobre hielo , waterpolo , hockey sobre césped , floorball , etc. Marek, Ťoupal y Šedivá (2014) [13] se basan en una investigación de Maher (1982), [5] Dixon y Coles (1997), [10] y otros que utilizaron modelos para el fútbol de asociación . Introdujeron cuatro modelos para hockey sobre hielo :

  • Modelo de distribución de Poisson doble (igual que Maher (1982) [5] ),
  • Modelo de distribución de Poisson bivariante que utiliza la generalización de la distribución de Poisson bivariada que permite la correlación negativa entre variables aleatorias (esta distribución se introdujo en Famoye (2010) [14] ).
  • Versiones infladas diagonales de dos modelos anteriores (inspiradas en Dixon y Coles (1997) [10] ) donde se modelan las probabilidades de empates 0: 0, 1: 1, 2: 2, 3: 3, 4: 4 y 5: 5 con parámetros adicionales.

La información más antigua (resultados) se descuenta en el proceso de estimación en los cuatro modelos. Los modelos se muestran en la liga de hockey sobre hielo de más alto nivel de la República Checa: la Extraliga Checa entre las temporadas 1999/2000 y 2011/2012. Los resultados se utilizan con éxito en apuestas ficticias contra casas de apuestas.

Referencias [ editar ]

  1. ^ Stern Hal. (1995) ¿Quién es el número 1 en el fútbol universitario? ... ¿Y cómo podemos decidir? Chance, verano, 7-14.
  2. ^ Moroney MJ (1956) Hechos de cifras . 3ª edición, Penguin, Londres.
  3. ^ Reep C. Benjamin B. (1968) Habilidad y oportunidad en el fútbol de asociación . Revista de la Royal Statistical Society, Serie A, 131, 581-585.
  4. ^ Hill ID (1974), Fútbol de asociación e inferencia estadística . Estadísticas aplicadas, 23, 203-208.
  5. ^ a b c d Maher MJ (1982), Puntuaciones de fútbol de la Asociación de modelado . Statistica Neerlandica, 36, 109-118
  6. ^ Caurneya KS y Carron AV (1992) La ventaja de jugar en casa en las competiciones deportivas: una revisión de la literatura . Revista de fisiología del deporte y el ejercicio, 14, 13-27.
  7. ^ Knorr-Held, Leonhard (1997) Clasificación dinámica de equipos deportivos . (REVISADO 1999). Centro de investigación colaborativa 386, Documento de debate 98
  8. ^ a b Diego Kuonen (1996) Modelos estadísticos para torneos de fútbol eliminatorios
  9. ^ Lee AJ (1997) Modelado de puntuaciones en la Premier League: es el Manchester United realmente el mejor . Chance, 10, 15-19
  10. ^ a b c d Mark J. Dixon y Coles SG (1997) Resultados de fútbol de la Asociación de modelado e ineficiencias en el mercado de apuestas de fútbol , Estadísticas aplicadas, Volumen 46, Número 2, 265-280
  11. ^ Dimitris Karlis y Ioannis Ntzoufras (2007) Modelado bayesiano de resultados de fútbol: uso de la distribución de Skellam para la diferencia de goles
  12. ^ Rue H. y Salvesen Ø. (1999) Predicción y análisis retrospectivo de partidos de fútbol en una liga . Reporte técnico. Universidad Noruega de Ciencia y Tecnología, Trondheim.
  13. ^ Marek, Patrice; Šedivá, Blanka; Ťoupal, Tomáš (2014). "Modelado y predicción de resultados de partidos de hockey sobre hielo" . Revista de análisis cuantitativo en el deporte . 10 : 357–365. doi : 10.1515 / jqas-2013-0129 . ISSN  1559-0410 : a través de Research Gate.
  14. ^ Famoye, F (2010). "Una nueva distribución de Poisson bivariada generalizada". Statistica Neerlandica . 64 : 112-124.