El co-entrenamiento es un algoritmo de aprendizaje automático que se utiliza cuando solo hay pequeñas cantidades de datos etiquetados y grandes cantidades de datos sin etiquetar. Uno de sus usos es la minería de texto para motores de búsqueda . Fue introducido por Avrim Blum y Tom Mitchell en 1998.
Diseño de algoritmos
El co-entrenamiento es una técnica de aprendizaje semi-supervisada que requiere dos vistas de los datos. Se asume que cada ejemplo se describe utilizando dos conjuntos diferentes de características que brindan información complementaria sobre la instancia. Idealmente, las dos vistas son condicionalmente independientes (es decir, los dos conjuntos de características de cada instancia son condicionalmente independientes dada la clase) y cada vista es suficiente (es decir, la clase de una instancia se puede predecir con precisión desde cada vista solamente). El co-entrenamiento primero aprende un clasificador separado para cada vista usando cualquier ejemplo etiquetado. Las predicciones más seguras de cada clasificador en los datos sin etiquetar se utilizan luego para construir iterativamente datos de entrenamiento etiquetados adicionales . [1]
El documento de co-formación original describía experimentos que utilizaban el co-entrenamiento para clasificar las páginas web en "página de inicio del curso académico" o no; el clasificador categorizó correctamente el 95% de 788 páginas web con solo 12 páginas web etiquetadas como ejemplos. [2] El artículo ha sido citado más de 1000 veces y recibió el premio al mejor artículo por 10 años en la 25ª Conferencia Internacional sobre Aprendizaje Automático ( ICML 2008), una conferencia de ciencias de la computación de renombre . [3] [4]
Krogel y Scheffer demostraron en 2004 que el co-entrenamiento solo es beneficioso si los conjuntos de datos son independientes; es decir, si uno de los clasificadores etiqueta correctamente un punto de datos que el otro clasificador previamente clasificó erróneamente. Si los clasificadores están de acuerdo con todos los datos sin etiquetar, es decir, son dependientes, etiquetar los datos no crea nueva información. En un experimento donde la dependencia de los clasificadores fue mayor al 60%, los resultados empeoraron. [5]
Usos
El co-entrenamiento se ha utilizado para clasificar las páginas web utilizando el texto de la página como una vista y el texto de anclaje de los hipervínculos en otras páginas que apuntan a la página como la otra vista. En pocas palabras, el texto de un hipervínculo en una página puede proporcionar información sobre la página a la que se vincula. [2] El co-entrenamiento puede trabajar con texto "sin etiquetar" que aún no ha sido clasificado o etiquetado , lo cual es típico del texto que aparece en páginas web y en correos electrónicos. Según Tom Mitchell, "las características que describen una página son las palabras en la página y los vínculos que apuntan a esa página. Los modelos de co-entrenamiento utilizan ambos clasificadores para determinar la probabilidad de que una página contenga datos relevantes para los criterios de búsqueda. . " El texto de los sitios web puede juzgar la relevancia de los clasificadores de enlaces, de ahí el término "co-formación". Mitchell afirma que otros algoritmos de búsqueda tienen una precisión del 86%, mientras que el co-entrenamiento tiene una precisión del 96%. [6]
La co-formación se utilizó en FlipDog.com, un sitio de búsqueda de empleo, y por el Departamento de Trabajo de EE. UU., Para un directorio de educación continua y a distancia. [6] Se ha utilizado en muchas otras aplicaciones, incluido el análisis estadístico y la detección visual. [7]
Referencias
- ^ Blum, A., Mitchell, T. Combinando datos etiquetados y no etiquetados con co-entrenamiento . COLT: Actas del Taller sobre Teoría del Aprendizaje Computacional , Morgan Kaufmann, 1998, p. 92-100.
- ^ a b Comité sobre los fundamentos de la informática: desafíos y oportunidades, Consejo Nacional de Investigación (2004). "6: Lograr la inteligencia" . Informática: Reflexiones sobre el terreno, Reflexiones sobre el terreno . Prensa de las Academias Nacionales. ISBN 978-0-309-09301-9.
- ^ McCallum, Andrew (2008). "Premios a los mejores trabajos" . Premios ICML . Consultado el 3 de mayo de 2009 .
- ^ Shavik, Jude (2008). "Mejor artículo de 10 años: combinación de datos etiquetados y no etiquetados con co-formación" . Premios ICML . Consultado el 3 de mayo de 2009 .
- ^ Krogel, Marc-A; Tobias Scheffer (2004). "Aprendizaje multirrelacional, minería de textos y aprendizaje semi-supervisado para genómica funcional" (PDF) . Aprendizaje automático . 57 : 61–81. doi : 10.1023 / B: MACH.0000035472.73496.0c .
- ^ a b Aquino, Stephen (24 de abril de 2001). "Motores de búsqueda listos para aprender" . Revisión de tecnología . Consultado el 3 de mayo de 2009 .
- ^ Xu, Qian; Derek Hao Hu; Hong Xue; Weichuan Yu; Qiang Yang (2009). "Localización subcelular de proteína semi-supervisada" . BMC Bioinformática . 10 : S47. doi : 10.1186 / 1471-2105-10-S1-S47 . ISSN 1471-2105 . PMC 2648770 . PMID 19208149 .
- Notas
- Chakrabarti, Soumen (2002). Minería de la Web: Descubrimiento del conocimiento a partir de datos de hipertexto . Editores Morgan-Kaufmann. pag. 352. ISBN 978-1-55860-754-5.
- Nigam, Kamal; Rayid Ghani (2000). "Analizando la efectividad y aplicabilidad del co-entrenamiento". Actas de la Novena Conferencia Internacional sobre Gestión de la Información y el Conocimiento . Nueva York, Estados Unidos: ACM: 86–93. CiteSeerX 10.1.1.37.4669 .
- Abney, Steven (2007). Aprendizaje semisupervisado para lingüística computacional . CRC Ciencias de la Computación y Análisis de Datos. Chapman y Hall. pag. 308. ISBN 978-1-58488-559-7.
- Wang, William Yang; Kapil Thadani; Kathleen McKeown (2011). Identificación de descripciones de eventos mediante la capacitación conjunta con resúmenes de noticias en línea (PDF) . la Quinta Conferencia Internacional Conjunta sobre Procesamiento del Lenguaje Natural (IJCNLP 2011). AFNLP y ACL.
enlaces externos
- Conferencia de Tom Mitchell que presenta el co-entrenamiento y otro aprendizaje automático semi-supervisado para su uso en datos sin etiquetar
- Conferencia de Avrim Blum sobre el aprendizaje semi-supervisado, incluida la capacitación conjunta
- Grupo de co-formación en el Centro de Ciencias del Aprendizaje de Pittsburgh