El Premio Netflix fue una competencia abierta al mejor algoritmo de filtrado colaborativo para predecir las calificaciones de los usuarios de las películas , basado en calificaciones anteriores sin ninguna otra información sobre los usuarios o las películas, es decir, sin que los usuarios o las películas se identifiquen excepto por los números asignados para el concurso. .
La competencia fue realizada por Netflix , un servicio de alquiler de DVD en línea y transmisión de video, y estaba abierto a cualquier persona que no esté conectada con Netflix (empleados actuales y anteriores, agentes, parientes cercanos de empleados de Netflix, etc.) ni residentes de ciertos países bloqueados (como Cuba o Corea del Norte). [1] El 21 de septiembre de 2009, el gran premio de US $ 1,000,000 fue otorgado al equipo Pragmatic Chaos de BellKor, que superó el propio algoritmo de Netflix para predecir calificaciones en un 10.06%. [2]
Problemas y conjuntos de datos
Netflix proporcionó un conjunto de datos de entrenamiento de 100,480,507 calificaciones que 480,189 usuarios dieron a 17,770 películas. Cada calificación de entrenamiento es un cuatrillizo del formulario
. Los campos de usuario y película son ID de números enteros , mientras que las calificaciones van de 1 a 5 estrellas (integrales). [3]
El conjunto de datos de calificación contiene más de 2.817.131 trillizos del formulario
, con calificaciones que solo el jurado conoce. Un algoritmo de equipo participante debe predecir grados en todo el conjunto de clasificación, pero sólo se les informa de la puntuación de la mitad de los datos, el cuestionario conjunto de clasificaciones 1,408,342. La otra mitad es el conjunto de prueba de 1.408.789, y el jurado utiliza su desempeño para determinar los posibles ganadores del premio. Solo los jueces saben qué calificaciones están en el conjunto de pruebas y cuáles están en el conjunto de prueba; esta disposición tiene la intención de dificultar la subida de pendientes en el conjunto de prueba. Las predicciones enviadas se puntúan contra las calificaciones reales en términos de error cuadrático medio (RMSE), y el objetivo es reducir este error tanto como sea posible. Tenga en cuenta que, si bien las calificaciones reales son números enteros en el rango de 1 a 5, las predicciones enviadas no necesitan serlo. Netflix también identificó una sonda subconjunto de 1,408,395 calificaciones dentro de la formación conjunto de datos. Los sonda , de concursos , y de prueba conjuntos de datos se elige para que tenga propiedades estadísticas similares.
En resumen, los datos utilizados en el Premio Netflix son los siguientes:
- Conjunto de entrenamiento (99,072,112 clasificaciones sin incluir el conjunto de sondas, 100,480,507 incluyendo el conjunto de sondas)
- Juego de sondas (1,408,395 clasificaciones)
- Conjunto de calificación (2.817.131 calificaciones) que consta de:
- Conjunto de prueba (1,408,789 calificaciones), utilizado para determinar a los ganadores
- Conjunto de cuestionarios (1,408,342 calificaciones), que se utiliza para calcular las puntuaciones de la tabla de clasificación
Para cada película, el título y el año de lanzamiento se proporcionan en un conjunto de datos separado. No se proporciona ninguna información sobre los usuarios. Con el fin de proteger la privacidad de los clientes, "algunos de los datos de calificación de algunos clientes en los conjuntos de capacitación y calificación se han alterado deliberadamente en una o más de las siguientes formas: eliminando calificaciones; insertando calificaciones y fechas alternativas; y modificando fechas de calificación ". [2]
El conjunto de entrenamiento es tal que el usuario promedio calificó más de 200 películas, y la película promedio fue calificada por más de 5000 usuarios. Pero existe una gran variación en los datos: algunas películas en el conjunto de capacitación tienen tan solo 3 calificaciones, [4] mientras que un usuario calificó más de 17,000 películas. [5]
Hubo cierta controversia en cuanto a la elección de RMSE como métrica definitoria. ¿Una reducción del RMSE en un 10% beneficiaría realmente a los usuarios? Se ha afirmado que incluso una mejora tan pequeña como el 1% de RMSE da como resultado una diferencia significativa en la clasificación de las películas "top-10" más recomendadas para un usuario. [6]
Premios
Los premios se basaron en la mejora del propio algoritmo de Netflix, llamado Cinematch , o en la puntuación del año anterior si un equipo ha mejorado más allá de un cierto umbral. Un algoritmo trivial que predice para cada película en el cuestionario establece su calificación promedio a partir de los datos de entrenamiento produce un RMSE de 1.0540. Cinematch utiliza " modelos lineales estadísticos sencillos con mucho acondicionamiento de datos". [7]
Usando solo los datos de entrenamiento, Cinematch obtiene un RMSE de 0.9514 en los datos del cuestionario, aproximadamente una mejora del 10% sobre el algoritmo trivial. Cinematch tiene un rendimiento similar en el equipo de prueba, 0,9525. Para ganar el gran premio de $ 1,000,000, un equipo participante tuvo que mejorarlo en otro 10%, para lograr 0.8572 en el conjunto de prueba. [2] Esta mejora en el conjunto de pruebas corresponde a un RMSE de 0,8563.
Siempre que ningún equipo ganó el gran premio, se otorgó un premio de progreso de $ 50,000 cada año por el mejor resultado hasta el momento. Sin embargo, para ganar este premio, un algoritmo tuvo que mejorar el RMSE en el cuestionario establecido en al menos un 1% sobre el ganador del premio de progreso anterior (o sobre Cinematch, el primer año). Si ninguna presentación tuvo éxito, el premio de progreso no se otorgaría para ese año.
Para ganar un progreso o un gran premio, un participante tenía que proporcionar el código fuente y una descripción del algoritmo al jurado dentro de una semana después de haber sido contactado por ellos. Tras la verificación, el ganador también tuvo que proporcionar una licencia no exclusiva a Netflix. Netflix publicaría solo la descripción, no el código fuente, del sistema. (Para mantener en secreto su algoritmo y código fuente, un equipo podría optar por no reclamar un premio). El jurado también mantuvo sus predicciones en secreto para otros participantes. Un equipo podría enviar tantos intentos de predecir calificaciones como desee. Originalmente, las presentaciones se limitaban a una vez a la semana, pero el intervalo se modificó rápidamente a una vez al día. La mejor presentación de un equipo hasta ahora cuenta como su presentación actual.
Una vez que uno de los equipos logró mejorar el RMSE en un 10% o más, el jurado emitiría una última convocatoria , dando a todos los equipos 30 días para enviar sus presentaciones. Solo entonces, se le pidió al equipo con la mejor presentación la descripción del algoritmo, el código fuente y la licencia no exclusiva y, después de una verificación exitosa; declarado ganador del gran premio.
El concurso duraría hasta que se declarara al ganador del gran premio. Si nadie hubiera recibido el gran premio, habría durado al menos cinco años (hasta el 2 de octubre de 2011). Después de esa fecha, el concurso podría haberse terminado en cualquier momento a discreción exclusiva de Netflix.
Progreso a lo largo de los años
La competencia comenzó el 2 de octubre de 2006. Para el 8 de octubre, un equipo llamado WXYZConsulting ya había superado los resultados de Cinematch. [8]
Para el 15 de octubre, había tres equipos que habían vencido a Cinematch, uno de ellos por 1.06%, suficiente para calificar para el premio de progreso anual. [9] En junio de 2007, más de 20.000 equipos se habían inscrito para la competición de más de 150 países. 2.000 equipos habían presentado más de 13.000 conjuntos de predicciones. [3]
Durante el primer año de la competencia, un puñado de favoritos se intercambió el primer lugar. Los más destacados fueron: [10]
- WXYZConsulting, un equipo de Wei Xu y Yi Zhang. (Uno de los favoritos entre noviembre y diciembre de 2006).
- ML @ UToronto A, un equipo de la Universidad de Toronto dirigido por el Prof. Geoffrey Hinton . (Uno de los favoritos durante partes de octubre a diciembre de 2006).
- Gravity, un equipo de cuatro científicos de la Universidad Tecnológica de Budapest (líder entre enero y mayo de 2007).
- BellKor, un grupo de científicos de AT&T Labs . (Un favorito desde mayo de 2007).
El 12 de agosto de 2007, muchos concursantes se reunieron en la KDD Cup and Workshop 2007, que se llevó a cabo en San José, California . [11] Durante el taller, los cuatro mejores equipos de la tabla de clasificación en ese momento presentaron sus técnicas. El equipo de IBM Research (Yan Liu, Saharon Rosset, Claudia Perlich y Zhenzhen Kou) ganó el tercer lugar en la Tarea 1 y el primer lugar en la Tarea 2.
Durante el segundo año de la competencia, solo tres equipos alcanzaron la posición de liderazgo:
- BellKor, un grupo de científicos de AT&T Labs . (líder entre mayo de 2007 y septiembre de 2008).
- BigChaos, un equipo de científicos austriacos de commendo research & consulting (líder en un solo equipo desde octubre de 2008)
- BellKor en BigChaos, un equipo conjunto de los dos equipos individuales líderes (líder desde septiembre de 2008)
Premio al Progreso 2007
El 2 de septiembre de 2007, el concurso entró en el período de "última convocatoria" del Premio al Progreso 2007. Más de 40.000 equipos de 186 países diferentes participaron en el concurso. Tenían treinta días para presentar propuestas para su consideración. Al inicio de este período el equipo líder era BellKor, con un RMSE de 0,8728 (mejora del 8,26%). seguido de Dinosaur Planet (RMSE = 0,8769; mejora del 7,83%) y Gravity (RMSE = 0,8785; mejora del 7,66%). En la última hora del período de la última llamada, una entrada de "KorBell" ocupó el primer lugar. Este resultó ser un nombre alternativo para Team BellKor. [ cita requerida ]
El 13 de noviembre de 2007, el equipo KorBell (antes BellKor) fue declarado ganador del premio Progress de 50.000 dólares con un RMSE de 0,8712 (mejora del 8,43%). [12] El equipo estaba formado por tres investigadores de AT&T Labs , Yehuda Koren, Robert Bell y Chris Volinsky. [13] Según se requirió, publicaron una descripción de su algoritmo. [14]
Premio Progreso 2008
El Premio Progress 2008 fue otorgado al equipo BellKor. Su presentación combinada con un equipo diferente, BigChaos logró un RMSE de 0.8616 con 207 conjuntos de predictores. [15] El equipo conjunto estaba formado por dos investigadores de commendo research & consulting GmbH, Andreas Töscher y Michael Jahrer (originalmente equipo BigChaos) y tres investigadores de AT&T Labs , Yehuda Koren, Robert Bell y Chris Volinsky (originalmente equipo BellKor). [16] Según fue necesario, publicaron una descripción de su algoritmo. [17] [18]
Este fue el premio de progreso final porque obtener la mejora requerida del 1% sobre el premio de progreso de 2008 sería suficiente para calificar para el gran premio. El dinero del premio fue donado a las organizaciones benéficas elegidas por los ganadores.
2009
El 26 de junio de 2009, el equipo "BellKor's Pragmatic Chaos", una fusión de los equipos "Bellkor in BigChaos" y "Pragmatic Theory", logró una mejora del 10,05% sobre Cinematch (un RMSE de prueba de 0,8558). La competencia del Premio Netflix entró en el período de "última convocatoria" para el Gran Premio. De acuerdo con las Reglas, los equipos tuvieron treinta días, hasta el 26 de julio de 2009 a las 18:42:37 UTC, para realizar las presentaciones que serán consideradas para este Premio. [19]
El 25 de julio de 2009, el equipo "The Ensemble", una fusión de los equipos "Grand Prize Team" y "Opera Solutions y Vandelay United", logró una mejora del 10,09% sobre Cinematch (un Quiz RMSE de 0,8554). [20] [21]
El 26 de julio de 2009, Netflix dejó de recopilar presentaciones para el concurso Premio Netflix. [22]
La clasificación final de la tabla de clasificación en ese momento mostró que dos equipos cumplían con los requisitos mínimos para el Gran Premio. "The Ensemble" con una mejora del 10,10% sobre Cinematch en el set de clasificación (un RMSE de prueba de 0,8553) y "BellKor's Pragmatic Chaos" con una mejora del 10,09% sobre Cinematch en el set de clasificación (un RMSE de prueba de 0,8554). [23] El ganador del Gran Premio sería el que obtuviera el mejor rendimiento en el conjunto de prueba.
El 18 de septiembre de 2009, Netflix anunció al equipo "BellKor's Pragmatic Chaos" como el ganador del premio (un RMSE de prueba de 0.8567), y el premio fue otorgado al equipo en una ceremonia el 21 de septiembre de 2009. [24] "The Ensemble" El equipo había igualado el resultado de BellKor, pero desde que BellKor presentó sus resultados 20 minutos antes, las reglas otorgan el premio a BellKor. [21] [25]
El equipo conjunto "El caos pragmático de BellKor" estaba formado por dos investigadores austriacos de Commendo Research & Consulting GmbH, Andreas Töscher y Michael Jahrer (originalmente el equipo BigChaos), dos investigadores de AT&T Labs , Robert Bell y Chris Volinsky, Yehuda Koren de Yahoo! (originalmente el equipo BellKor) y dos investigadores de Pragmatic Theory, Martin Piotte y Martin Chabbert. [26] Según fue necesario, publicaron una descripción de su algoritmo. [27]
El equipo informó haber alcanzado los "honores dudosos" ( sic Netflix) de las peores RMSEs en los Examen y prueba de conjuntos de datos de entre los 44,014 documentos presentados por 5.169 equipos fue "farolillo rojo", dirigido por JM Linacre, que también era miembro del equipo "The Ensemble".
Secuela cancelada
El 12 de marzo de 2010, Netflix anunció que no perseguiría una competencia de segundo premio que había anunciado en agosto anterior. La decisión fue en respuesta a una demanda y preocupaciones de privacidad de la Comisión Federal de Comercio. [28]
Preocupaciones sobre la privacidad
Aunque los conjuntos de datos se crearon para preservar la privacidad del cliente, el premio ha sido criticado por los defensores de la privacidad. En 2007, dos investigadores de la Universidad de Texas en Austin pudieron identificar a los usuarios individuales haciendo coincidir los conjuntos de datos con las clasificaciones de películas en Internet Movie Database . [29] [30]
El 17 de diciembre de 2009, cuatro usuarios de Netflix presentaron una demanda colectiva contra Netflix, alegando que Netflix había violado las leyes de comercio justo de EE. UU. Y la Ley de protección de la privacidad de video al liberar los conjuntos de datos. [31] Hubo un debate público sobre la privacidad de los participantes de la investigación . El 19 de marzo de 2010, Netflix llegó a un acuerdo con los demandantes, tras lo cual desestimaron voluntariamente la demanda.
Ver también
- Crowdsourcing
- Innovación abierta
- Concurso de innovación
- Concurso de premios de incentivo
- Kaggle
- Lista de premios de informática
Referencias
- ^ "Las reglas del premio de Netflix" (PDF) . Consultado el 6 de noviembre de 2019 .
- ^ a b c "El Premio Netflix" . Archivado desde el original el 24 de septiembre de 2009 . Consultado el 9 de julio de 2012 .
- ^ a b James Bennett; Stan Lanning (12 de agosto de 2007). "El Premio Netflix" (PDF) . Actas de KDD Cup y Workshop 2007 . Archivado desde el original (PDF) el 27 de septiembre de 2007 . Consultado el 25 de agosto de 2007 .
- ^ Curva sigmoidea (8 de octubre de 2006). "Señorita simpatía" . Foro de premios de Netflix . Archivado desde el original el 3 de marzo de 2012 . Consultado el 25 de agosto de 2007 .
- ^ prodigioso (2006-10-06). "Un solo cliente que calificó 17.000 películas" . Foro de premios de Netflix . Archivado desde el original el 3 de marzo de 2012 . Consultado el 25 de agosto de 2007 .
- ^ YehudaKoren (18 de diciembre de 2007). "¿Qué tan útil es un RMSE más bajo?" . Foro de premios de Netflix . Archivado desde el original el 3 de marzo de 2012.
- ^ "Preguntas frecuentes sobre el premio Netflix" . Archivado desde el original el 21 de agosto de 2007 . Consultado el 21 de agosto de 2007 .
- ^ "Ranking de premios de Netflix" . Hackear NetFlix . 9 de octubre de 2006 . Consultado el 21 de agosto de 2007 .
- ^ "Premio Netflix (traté de resistir, pero ...)" . Weblog de Juho Snellman . 15 de octubre de 2006 . Consultado el 21 de agosto de 2007 .
- ^ "Top aspirantes a la tabla de premios Progress 2007" .
- ^ "La Copa y Taller KDD 2007" .
- ^ Prizemaster (13 de noviembre de 2007). "Premio Netflix Progress 2007 otorgado al equipo KorBell" . Foro de premios de Netflix . Archivado desde el original el 3 de marzo de 2012.
- ^ "El premio Progress de $ 50,000 se otorga en el primer aniversario del premio de Netflix de $ 1 millón" .
- ^ R. Bell; Y. Koren; C. Volinsky (2007). "La solución BellKor al Premio Netflix" (PDF) .
- ^ Robert Bell; Yehuda Koren; Chris Volinsky (10 de diciembre de 2008). "La solución BellKor 2008 para el premio Netflix" (PDF) . Foro de premios de Netflix .
- ^ "Netflix otorga un premio de progreso de 50.000 dólares en el segundo año de la competencia multinacional y multianual de premios de Netflix" . Archivado desde el original el 30 de junio de 2009 . Consultado el 22 de junio de 2009 .
- ^ A. Töscher; M. Jahrer (2008). "La solución BigChaos para el Premio Netflix 2008" (PDF) .
- ^ R. Bell; Y. Koren; C. Volinsky (2008). "La solución BellKor al Premio Netflix 2008" (PDF) .
- ^ "Caos pragmático de BellKor" . 2009-06-26.
- ^ "El Conjunto" . 2009-07-25.
- ^ a b "Tabla de clasificación de premios de Netflix" . 2009-07-26. Archivado desde el original el 13 de diciembre de 2013 . Consultado el 9 de diciembre de 2013 .
- ^ "Concurso cerrado" . 2009-07-26. Archivado desde el original el 28 de julio de 2009 . Consultado el 27 de julio de 2009 .
- ^ "El premio de Netflix llega a un zumbador-batidor, acabado de morderse las uñas" . 2009-07-26.
- ^ "Gran premio otorgado al caos pragmático del equipo BellKor" . Foro de premios de Netflix. 2009-09-21. Archivado desde el original el 7 de mayo de 2012.
- ^ Steve Lohr (21 de septiembre de 2009). "Una ganga de investigación de $ 1 millón para Netflix, y tal vez un modelo para otros" . New York Times .
- ^ "Netflix otorga un premio de $ 1 millón de Netflix y anuncia el segundo desafío de $ 1 millón" . Archivado desde el original el 25 de septiembre de 2009 . Consultado el 24 de septiembre de 2009 .
- ^ Andreas Töscher y Michael Jahrer (21 de septiembre de 2009). "La solución BigChaos para el gran premio de Netflix" . commendo.
- ^ "Actualización de premios de Netflix" . Foro de premios de Netflix. 2010-03-12.
- ^ Narayanan, Arvind; Shmatikov, Vitaly (2006). "Cómo romper el anonimato del conjunto de datos de premios de Netflix". arXiv : cs / 0610105 .
- ^ Demerjian, Dave (15 de marzo de 2007). "Rise of the Netflix Hackers" . wired.com . Cableado . Consultado el 13 de diciembre de 2014 .
- ^ Singel, Ryan. "Netflix derramó su secreto de Brokeback Mountain, demandas judiciales" . Consultado el 11 de agosto de 2017 .
enlaces externos
- Página web oficial
- Premio Netflix en RecSysWiki
- Kate Greene (6 de octubre de 2006). "El desafío de Netflix de $ 1 millón" . Revisión de tecnología .
- Robert M. Bell; Jim Bennett; Yehuda Koren y Chris Volinsky (mayo de 2009). "El premio de programación del millón de dólares" . Espectro IEEE . Archivado desde el original el 11 de mayo de 2009 . Consultado el 8 de mayo de 2009 .
- Desanonimización sólida de grandes conjuntos de datos dispersos por Arvind Narayanan y Vitaly Shmatikov
- Robert M. Bell, Yehuda Koren y Chris Volinsky (2010), "Todos juntos ahora: una perspectiva sobre el PREMIO NETFLIX", Chance , 23 (1): 24, doi : 10.1007 / s00144-010-0005-2
- Andrey Feuerverger; Yu He y Shashi Khatri (2012), "Statistical Significance of the Netflix Challenge", Statistical Science , 27 (2): 202-231, arXiv : 1207.5649 , doi : 10.1214 / 11-STS368 , S2CID 43556443
- Premio de $ 1 millón de Netflix - Netflix nunca usó su algoritmo de $ 1 millón debido a costos de ingeniería (2009) - Saint
[1]