Clasificación temporal conexionista


La clasificación temporal conexionista ( CTC ) es un tipo de salida de red neuronal y función de puntuación asociada, para entrenar redes neuronales recurrentes (RNN) como redes LSTM para abordar problemas de secuencia donde el tiempo es variable. Se puede usar para tareas como el reconocimiento de escritura a mano en línea [1] o el reconocimiento de teléfonos en audio de voz. CTC se refiere a los resultados y la puntuación, y es independiente de la estructura de la red neuronal subyacente. Fue introducido en 2006. [2]

La entrada es una secuencia de observaciones y las salidas son una secuencia de etiquetas, que pueden incluir salidas en blanco. La dificultad del entrenamiento proviene de que hay muchas más observaciones que etiquetas. Por ejemplo, en audio de voz puede haber múltiples intervalos de tiempo que corresponden a un solo teléfono. Dado que no conocemos la alineación de la secuencia observada con las etiquetas objetivo, predecimos una distribución de probabilidad en cada paso de tiempo. [3] Una red CTC tiene una salida continua (por ejemplo , softmax), que se ajusta mediante entrenamiento para modelar la probabilidad de una etiqueta. CTC no intenta aprender límites y tiempos: las secuencias de etiquetas se consideran equivalentes si difieren solo en la alineación, ignorando los espacios en blanco. Las secuencias de etiquetas equivalentes pueden ocurrir de muchas maneras, lo que hace que la puntuación no sea una tarea trivial, pero existe un algoritmo eficiente hacia adelante y hacia atrás para eso.

Las puntuaciones de CTC se pueden usar con el algoritmo de retropropagación para actualizar los pesos de la red neuronal.