Completar la matriz

Completar la matriz es la tarea de completar las entradas faltantes de una matriz parcialmente observada. Una amplia gama de conjuntos de datos se organizan naturalmente en forma de matriz. Un ejemplo es la matriz de clasificación de películas, como aparece en el problema de Netflix : dada una matriz de clasificación en la que cada entrada ${\ Displaystyle (i, j)}$ representa la calificación de la película ${\ Displaystyle j}$ por el cliente ${\ Displaystyle i}$ , si el cliente ${\ Displaystyle i}$ ha visto una película ${\ Displaystyle j}$ y por lo demás falta, nos gustaría predecir las entradas restantes para poder hacer buenas recomendaciones a los clientes sobre qué ver a continuación. Otro ejemplo es la matriz término-documento : las frecuencias de palabras utilizadas en una colección de documentos se pueden representar como una matriz, donde cada entrada corresponde al número de veces que el término asociado aparece en el documento indicado.

Completar la matriz de una matriz de 5 por 5 parcialmente revelada con rango 1. Izquierda: matriz incompleta observada; Derecha: resultado de finalización de la matriz.

Sin ninguna restricción sobre el número de grados de libertad en la matriz completa, este problema está subdeterminado, ya que a las entradas ocultas se les podrían asignar valores arbitrarios. Por lo tanto, necesitamos alguna suposición en la matriz para crear un problema bien planteado , como suponer que tiene un determinante máximo, es positivo definido o tiene un rango bajo. ^[1]^[2]

Por ejemplo, se puede suponer que la matriz tiene una estructura de rango bajo y luego buscar la matriz de rango más bajo o, si se conoce el rango de la matriz completa, una matriz de rango ${\ Displaystyle r}$ que coincide con las entradas conocidas. La ilustración muestra que una matriz de rango 1 parcialmente revelada (a la izquierda) se puede completar con error cero (a la derecha) ya que todas las filas con entradas faltantes deben ser iguales a la tercera fila. En el caso del problema de Netflix, se espera que la matriz de calificaciones sea de rango bajo, ya que las preferencias del usuario a menudo se pueden describir mediante algunos factores, como el género de la película y el momento de lanzamiento. Otras aplicaciones incluyen la visión por computadora, donde los píxeles faltantes en las imágenes deben reconstruirse, la detección del posicionamiento global de los sensores en una red a partir de información de distancia parcial y el aprendizaje multiclase . El problema de compleción de la matriz es en general NP-hard , pero bajo supuestos adicionales existen algoritmos eficientes que logran una reconstrucción exacta con alta probabilidad.

Desde el punto de vista del aprendizaje estadístico, el problema de compleción de matrices es una aplicación de la regularización de matrices, que es una generalización de la regularización de vectores . Por ejemplo, en el problema de compleción de matrices de bajo rango, se puede aplicar la penalización de regularización tomando la forma de una norma nuclear. ${\ Displaystyle R (X) = \ lambda \ | X \ | _ {*}}$

Finalización de matriz de rango bajo

Una de las variantes del problema de compleción de la matriz es encontrar la matriz de rango más bajo ${\ Displaystyle X}$ que coincide con la matriz ${\ Displaystyle M}$ , que deseamos recuperar, para todas las entradas del conjunto ${\ Displaystyle E}$ de entradas observadas. La formulación matemática de este problema es la siguiente:

{\ Displaystyle {\ begin {alineado} & {\ underset {X} {\ text {min}}} & {\ text {rank}} (X) \\ & {\ text {sujeto a}} & X_ {ij} = M_ {ij} & \; \; \ forall i, j \ in E \\\ end {alineado}}}

Candès y Recht ^[3] demostraron que con supuestos sobre el muestreo de las entradas observadas y suficientes entradas muestreadas, este problema tiene una solución única con alta probabilidad.

Una formulación equivalente, dado que la matriz ${\ Displaystyle M}$ a recuperar se sabe que es de rango ${\ Displaystyle r}$ , es resolver por ${\ Displaystyle X}$ dónde ${\ Displaystyle X_ {ij} = M_ {ij} \; \; \ forall i, j \ in E}$

Supuestos

Con frecuencia se hacen varios supuestos sobre el muestreo de las entradas observadas y el número de entradas muestreadas para simplificar el análisis y garantizar que el problema no esté subdeterminado .

Muestreo uniforme de entradas observadas

Para que el análisis sea manejable, a menudo se supone que el conjunto ${\ Displaystyle E}$ de las entradas observadas y la cardinalidad fija se muestrea uniformemente al azar de la colección de todos los subconjuntos de entradas de cardinalidad ${\ Displaystyle | E |}$ . Para simplificar aún más el análisis, se supone en cambio que ${\ Displaystyle E}$ se construye mediante muestreo de Bernoulli , es decir, que cada entrada se observa con probabilidad ${\ Displaystyle p}$ . Si ${\ Displaystyle p}$ se establece en ${\ Displaystyle {\ frac {N} {mn}}}$ dónde ${\ Displaystyle N}$ es la cardinalidad esperada deseada de ${\ Displaystyle E}$ , y ${\ Displaystyle m, \; n}$ son las dimensiones de la matriz (sea ${\ Displaystyle m }>$ sin pérdida de generalidad), ${\ Displaystyle | E |}$ está dentro ${\ Displaystyle O (n \ log n)}$ de ${\ Displaystyle N}$ con alta probabilidad, por lo que el muestreo de Bernoulli es una buena aproximación para un muestreo uniforme. ^[3] Otra simplificación es suponer que las entradas se muestrean de forma independiente y con reemplazo. ^[4]

Límite inferior del número de entradas observadas

Supongamos que ${\ Displaystyle m}$ por ${\ Displaystyle n}$ matriz ${\ Displaystyle M}$ (con ${\ Displaystyle m }>$ ) que estamos tratando de recuperar tiene rango ${\ Displaystyle r}$ . Existe un límite inferior teórico de la información sobre cuántas entradas deben observarse antes ${\ Displaystyle M}$ se puede reconstruir de forma única. El conjunto de ${\ Displaystyle m}$ por ${\ Displaystyle n}$ matrices con rango menor o igual a ${\ Displaystyle r}$ es una variedad algebraica en ${\ Displaystyle {\ mathbb {C}} ^ {m \ times n}}$ con dimensión ${\ Displaystyle (n + m) rr ^ {2}}$ . Usando este resultado, se puede demostrar que al menos ${\ Displaystyle 4nr-4r ^ {2}}$ las entradas deben ser observadas para completar la matriz en ${\ Displaystyle {\ mathbb {C}} ^ {n \ times n}}$ tener una solución única cuando ${\ Displaystyle r \ leq n / 2}$ . ^[5]

En segundo lugar, debe haber al menos una entrada observada por fila y columna de ${\ Displaystyle M}$ . La descomposición de valores singulares de ${\ Displaystyle M}$ es dado por ${\ Displaystyle U \ Sigma V ^ {\ dagger}}$ . Si fila ${\ Displaystyle i}$ no se observa, es fácil ver el ${\ Displaystyle i ^ {\ text {th}}}$ vector singular derecho de ${\ Displaystyle M}$ , ${\ Displaystyle v_ {i}}$ , se puede cambiar a algún valor arbitrario y aún así producir una coincidencia de matriz ${\ Displaystyle M}$ sobre el conjunto de entradas observadas. Del mismo modo, si la columna ${\ Displaystyle j}$ no es observado, el ${\ Displaystyle j ^ {\ text {th}}}$ vector singular izquierdo de ${\ Displaystyle M}$ , ${\ Displaystyle u_ {i}}$ puede ser arbitrario. Si asumimos el muestreo de Bernoulli del conjunto de entradas observadas, el efecto de colector de cupones implica que las entradas en el orden de ${\ Displaystyle O (n \ log n)}$ debe ser observado para asegurar que hay una observación de cada fila y columna con alta probabilidad. ^[6]

Combinando las condiciones necesarias y asumiendo que ${\ Displaystyle r \ ll m, n}$ (una suposición válida para muchas aplicaciones prácticas), el límite inferior en el número de entradas observadas requeridas para evitar que el problema de la compleción de la matriz sea subdeterminado es del orden de ${\ Displaystyle nr \ log n}$ .

Incoherencia

El concepto de incoherencia surgió en la detección comprimida . Se introduce en el contexto de la compleción de matrices para asegurar los vectores singulares de ${\ Displaystyle M}$ no son demasiado "escasas" en el sentido de que todas las coordenadas de cada vector singular son de magnitud comparable en lugar de que unas pocas coordenadas tengan magnitudes significativamente mayores. ^[7]^[8] Los vectores de base estándar son entonces indeseables como vectores singulares, y el vector ${\ displaystyle {\ frac {1} {\ sqrt {n}}} {\ begin {bmatrix} 1 \\ 1 \\\ vdots \\ 1 \ end {bmatrix}}}$ en ${\ Displaystyle \ mathbb {R} ^ {n}}$ es deseable. Como ejemplo de lo que podría salir mal si los vectores singulares son lo suficientemente "dispersos", considere el ${\ Displaystyle m}$ por ${\ Displaystyle n}$ matriz ${\ displaystyle {\ begin {bmatrix} 1 & 0 & \ cdots & 0 \\\ vdots && \ vdots \\ 0 & 0 & 0 & 0 \ end {bmatrix}}}$ con descomposición de valor singular ${\ displaystyle I_ {m} {\ begin {bmatrix} 1 & 0 & \ cdots & 0 \\\ vdots && \ vdots \\ 0 & 0 & 0 & 0 \ end {bmatrix}} I_ {n}}$ . Casi todas las entradas de ${\ Displaystyle M}$ debe tomarse una muestra antes de que pueda reconstruirse.

Candès y Recht ^[3] definen la coherencia de una matriz ${\ Displaystyle U}$ con espacio de columna un ${\ Displaystyle r-}$ subespacio dimensional de ${\ Displaystyle \ mathbb {R} ^ {n}}$ como ${\ Displaystyle \ mu (U) = {\ frac {n} {r}} \ max _ {i }>$ , dónde ${\ Displaystyle P_ {U}}$ es la proyección ortogonal sobre ${\ Displaystyle U}$ . La incoherencia afirma entonces que dada la descomposición del valor singular ${\ Displaystyle U \ Sigma V ^ {\ dagger}}$ de El ${\ Displaystyle m}$ por ${\ Displaystyle n}$ matriz ${\ Displaystyle M}$ ,

${\ Displaystyle \ mu (U), \; \ mu (V) \ leq \ mu _ {0}}$
Las entradas de ${\ Displaystyle \ sum _ {k} u_ {k} v_ {k} ^ {\ dagger}}$ tienen magnitudes superiores limitadas por ${\ Displaystyle \ mu _ {1} {\ sqrt {\ frac {r} {mn}}}}$

para algunos ${\ Displaystyle \ mu _ {0}, \; \ mu _ {1}}$ .

Terminación de matriz de rango bajo con ruido

En la aplicación del mundo real, a menudo se observan solo unas pocas entradas corrompidas al menos por una pequeña cantidad de ruido. Por ejemplo, en el problema de Netflix, las calificaciones son inciertas. Candès y Plan ^[9] demostraron que es posible completar las muchas entradas faltantes de matrices grandes de bajo rango a partir de unas pocas muestras ruidosas mediante la minimización de la norma nuclear. El modelo ruidoso asume que observamos

${\ Displaystyle Y_ {ij} = M_ {ij} + Z_ {ij}, (i, j) \ in \ Omega,}$

dónde ${\ Displaystyle {Z_ {ij} :( i, j) \ in \ Omega}}$ es un término de ruido. Tenga en cuenta que el ruido puede ser estocástico o determinista. Alternativamente, el modelo se puede expresar como

${\ Displaystyle P _ {\ Omega} (Y) = P _ {\ Omega} (M) + P _ {\ Omega} (Z),}$

dónde ${\ Displaystyle Z}$ es un ${\ Displaystyle n \ times n}$ matriz con entradas ${\ Displaystyle Z_ {ij}}$ por ${\ Displaystyle (i, j) \ in \ Omega}$ asumiendo que ${\ Displaystyle \ | P _ {\ Omega} (Z) \ | _ {F} \ leq \ delta}$ para algunos ${\ Displaystyle \ delta> 0}$ Para recuperar la matriz incompleta, intentamos solucionar el siguiente problema de optimización:

${\ Displaystyle {\ begin {alineado} & {\ underset {X} {\ text {min}}} & \ | X \ | _ {*} \\ & {\ text {sujeto a}} & \ | P_ { \ Omega} (XY) \ | _ {F} \ leq \ delta \\\ end {alineado}}}$

Entre todas las matrices consistentes con los datos, encuentre la que tenga la norma nuclear mínima. Candès y Plan ^[9] han demostrado que esta reconstrucción es precisa. Han demostrado que cuando se produce una recuperación perfecta sin ruido, la terminación de la matriz es estable frente a las perturbaciones. El error es proporcional al nivel de ruido. ${\ Displaystyle \ delta}$ . Por lo tanto, cuando el nivel de ruido es pequeño, el error es pequeño. Aquí, el problema de compleción de la matriz no obedece a la propiedad de isometría restringida (RIP). Para matrices, el RIP supondría que el operador de muestreo obedece

${\ Displaystyle (1- \ delta) \ | X \ | _ {F} ^ {2} \ leq {\ frac {1} {p}} \ | P _ {\ Omega} (X) \ | _ {F} ^ {2} \ leq (1+ \ delta) \ | X \ | _ {F} ^ {2}}$

para todas las matrices ${\ Displaystyle X}$ con rango suficientemente pequeño y ${\ Displaystyle \ delta <1}$ suficientemente pequeño. Los métodos también son aplicables a problemas de recuperación de señal dispersa en los que el RIP no se mantiene.

Finalización de matriz de alto rango

La finalización de la matriz de alto rango en general es NP-Hard . Sin embargo, con ciertos supuestos, se puede completar alguna matriz de rango alto incompleta o incluso una matriz de rango completo.

Eriksson, Balzano y Nowak ^[10] han considerado el problema de completar una matriz con el supuesto de que las columnas de la matriz pertenecen a una unión de múltiples subespacios de rango bajo. Dado que las columnas pertenecen a una unión de subespacios, el problema puede verse como una versión de datos perdidos del problema de agrupamiento del subespacio . Dejar ${\ Displaystyle X}$ frijol ${\ Displaystyle n \ times N}$ matriz cuyas columnas (completas) se encuentran en una unión de como máximo ${\ Displaystyle k}$ subespacios, cada uno de ${\ rango de Displaystyle \ leq r }>$ y asumir ${\ Displaystyle N \ gg kn}$ . Eriksson, Balzano y Nowak ^[10] mostraron que bajo supuestos moderados cada columna de ${\ Displaystyle X}$ se puede recuperar perfectamente con alta probabilidad de una versión incompleta siempre que al menos ${\ Displaystyle CrN \ log ^ {2} (n)}$ entradas de ${\ Displaystyle X}$ se observan uniformemente al azar, con ${\ Displaystyle C> 1}$ una constante que depende de las condiciones habituales de incoherencia, la disposición geométrica de los subespacios y la distribución de las columnas sobre los subespacios.

El algoritmo implica varios pasos: (1) vecindarios locales; (2) subespacios locales; (3) refinamiento subespacial; (4) finalización de matriz completa. Este método se puede aplicar a la identificación de topología y la compleción de matrices de distancia de Internet.

Algoritmos para completar matrices de bajo rango

Se han propuesto varios algoritmos de compleción de matrices. ^[8] Estos incluyen algoritmo basado en relajación convexa, ^[3] algoritmo basado en gradiente, ^[11] y algoritmo alternativo basado en minimización. ^[12]

Relajación convexa

El problema de la minimización de rango es NP-difícil . Un enfoque, propuesto por Candès y Recht, es formar una relajación convexa del problema y minimizar la norma nuclear. ${\ Displaystyle \ | M \ | _ {*}}$ (que da la suma de los valores singulares de ${\ Displaystyle M}$ ) en vez de ${\ Displaystyle {\ text {rango}} (M)}$ (que cuenta el número de valores singulares distintos de cero de ${\ Displaystyle M}$ ). ^[3] Esto es análogo a minimizar la norma L1 en lugar de la norma L0 para los vectores. La relajación convexa se puede resolver usando programación semidefinida (SDP) al notar que el problema de optimización es equivalente a

${\ Displaystyle {\ begin {align} & {\ underset {W_ {1}, W_ {2}} {\ text {min}}} && {\ text {trace}} (W_ {1}) + {\ text {trace}} (W_ {2}) \\ & {\ text {sujeto a}} && X_ {ij} = M_ {ij} \; \; \ forall i, j \ in E \\ &&& {\ begin {bmatrix } W_ {1} & X \\ X ^ {T} & W_ {2} \ end {bmatrix}} \ successq 0 \ end {alineado}}}$

La complejidad de usar SDP para resolver la relajación convexa es ${\ Displaystyle O ({\ text {max}} (m, n) ^ {4})}$ . Los solucionadores de vanguardia como SDP3 solo pueden manejar matrices de tamaño de hasta 100 por 100 ^[13] Un método alternativo de primer orden que resuelve aproximadamente la relajación convexa es el algoritmo de umbral de valor singular introducido por Cai, Candès y Shen. ^[13]

Candès y Recht muestran, utilizando el estudio de variables aleatorias en espacios de Banach , que si el número de entradas observadas es del orden de ${\ Displaystyle \ max {\ {\ mu _ {1} ^ {2}, {\ sqrt {\ mu _ {0}}} \ mu _ {1}, \ mu _ {0} n ^ {0.25} \ }} nr \ log n}$ (asumir sin pérdida de generalidad ${\ Displaystyle m }>$ ), el problema de minimización de rango tiene una solución única que también resulta ser la solución de su relajación convexa con probabilidad ${\ Displaystyle 1 - {\ frac {c} {n ^ {3}}}}$ por alguna constante ${\ Displaystyle c}$ . Si el rango de ${\ Displaystyle M}$ es pequeño ( ${\ Displaystyle r \ leq {\ frac {n ^ {0.2}} {\ mu _ {0}}}}$ ), el tamaño del conjunto de observaciones se reduce al orden de ${\ Displaystyle \ mu _ {0} n ^ {1.2} r \ log n}$ . Estos resultados son casi óptimos, ya que el número mínimo de entradas que deben observarse para que el problema de compleción de la matriz no sea subdeterminado es del orden de ${\ Displaystyle nr \ log n}$ .

Este resultado ha sido mejorado por Candès y Tao. ^[6] Alcanzan límites que difieren de los límites óptimos solo por factores polilogarítmicos al fortalecer los supuestos. En lugar de la propiedad de incoherencia, asumen la propiedad de incoherencia fuerte con el parámetro ${\ Displaystyle \ mu _ {3}}$ . Esta propiedad establece que:

${\ Displaystyle | \ langle e_ {a}, P_ {U} e_ {a '} \ rangle - {\ frac {r} {m}} 1_ {a = a'} | \ leq \ mu _ {3} { \ frac {\ sqrt {r}} {m}}}$ por ${\ Displaystyle a, a '\ leq m}$ y ${\ Displaystyle | \ langle e_ {b}, P_ {U} e_ {b '} \ rangle - {\ frac {r} {n}} 1_ {b = b'} | \ leq \ mu _ {3} { \ frac {\ sqrt {r}} {n}}}$ por ${\ Displaystyle b, b '\ leq n}$
Las entradas de ${\ Displaystyle \ sum _ {i} u_ {i} v_ {i} ^ {\ dagger}}$ están delimitados en magnitud por ${\ Displaystyle \ mu _ {3} {\ sqrt {\ frac {r} {mn}}}}$

Intuitivamente, fuerte incoherencia de una matriz ${\ Displaystyle U}$ afirma que las proyecciones ortogonales de vectores base estándar para ${\ Displaystyle U}$ tiene magnitudes que tienen alta probabilidad si los vectores singulares se distribuyeran aleatoriamente. ^[7]

Candès y Tao descubren que cuando ${\ Displaystyle r}$ es ${\ Displaystyle O (1)}$ y el número de entradas observadas es del orden de ${\ Displaystyle \ mu _ {3} ^ {4} n (\ log n) ^ {2}}$ , el problema de minimización de rango tiene una solución única que también resulta ser la solución de su relajación convexa con probabilidad ${\ Displaystyle 1 - {\ frac {c} {n ^ {3}}}}$ por alguna constante ${\ Displaystyle c}$ . Por arbitrario ${\ Displaystyle r}$ , el número de entradas observadas suficientes para que esta afirmación sea verdadera es del orden de ${\ Displaystyle \ mu _ {3} ^ {2} nr (\ log n) ^ {6}}$

Descenso de gradiente

Keshavan, Montanari y Oh ^[11] consideran una variante de compleción de la matriz donde el rango del ${\ Displaystyle m}$ por ${\ Displaystyle n}$ matriz ${\ Displaystyle M}$ , que se va a recuperar, se sabe que ${\ Displaystyle r}$ . Asumen muestreo de Bernoulli de entradas, relación de aspecto constante ${\ Displaystyle {\ frac {m} {n}}}$ , magnitud acotada de entradas de ${\ Displaystyle M}$ (deja que el límite superior sea ${\ Displaystyle M _ {\ text {max}}}$ ) y número de condición constante ${\ Displaystyle {\ frac {\ sigma _ {1}} {\ sigma _ {r}}}}$ (dónde ${\ Displaystyle \ sigma _ {1}}$ y ${\ Displaystyle \ sigma _ {r}}$ son los valores singulares más grandes y más pequeños de ${\ Displaystyle M}$ respectivamente). Además, asumen que las dos condiciones de incoherencia se satisfacen con ${\ Displaystyle \ mu _ {0}}$ y ${\ Displaystyle \ mu _ {1} {\ frac {\ sigma _ {1}} {\ sigma _ {r}}}}$ dónde ${\ Displaystyle \ mu _ {0}}$ y ${\ Displaystyle \ mu _ {1}}$ son constantes. Dejar ${\ Displaystyle M ^ {E}}$ ser una matriz que coincida ${\ Displaystyle M}$ En el set ${\ Displaystyle E}$ de entradas observadas y es 0 en otros lugares. Luego proponen el siguiente algoritmo:

Podar ${\ Displaystyle M ^ {E}}$ eliminando todas las observaciones de las columnas con un grado mayor que ${\ Displaystyle {\ frac {2 | E |} {n}}}$ estableciendo las entradas en las columnas en 0. De manera similar, elimine todas las observaciones de las filas con un grado mayor que ${\ Displaystyle {\ frac {2 | E |} {n}}}$ .
Proyecto ${\ Displaystyle M ^ {E}}$ en su primera ${\ Displaystyle r}$ componentes principales . Llamar a la matriz resultante ${\ Displaystyle {\ text {Tr}} (M ^ {E})}$ .
Resolver ${\ Displaystyle \ min _ {X, Y} \ min _ {S \ in \ mathbb {R} ^ {r \ times r}} {\ frac {1} {2}} \ sum _ {i, j \ in E} (M_ {ij} - (XSY ^ {\ dagger}) _ {ij}) ^ {2} + \ rho G (X, Y)}$ dónde ${\ Displaystyle G (X, Y)}$ es una función de regularización por descenso de gradiente con búsqueda de línea . Inicializar ${\ Displaystyle X, \; Y}$ a ${\ Displaystyle X_ {0}, \; Y_ {0}}$ dónde ${\ Displaystyle {\ text {Tr}} (M_ {E}) = X_ {0} S_ {0} Y_ {0} ^ {\ dagger}}$ . Colocar ${\ Displaystyle G (X, Y)}$ como alguna función obligando ${\ Displaystyle X, \; Y}$ permanecer incoherente durante el descenso del gradiente si ${\ Displaystyle X_ {0}}$ y ${\ Displaystyle Y_ {0}}$ son incoherentes.
Devuelve la matriz ${\ Displaystyle XSY ^ {\ dagger}}$ .

Los pasos 1 y 2 del algoritmo producen una matriz ${\ Displaystyle {\ text {Tr}} (M ^ {E})}$ muy cerca de la verdadera matriz ${\ Displaystyle M}$ (medido por la raíz del error cuadrático medio (RMSE) con alta probabilidad. En particular, con probabilidad ${\ Displaystyle 1 - {\ frac {1} {n ^ {3}}}}$ , ${\ Displaystyle {\ frac {1} {mnM _ {\ text {max}} ^ {2}}} \ | M - {\ text {Tr}} (M ^ {E}) \ | _ {F} ^ { 2} \ leq C {\ frac {r} {m | E |}} {\ sqrt {\ frac {m} {n}}}}$ por alguna constante ${\ Displaystyle C}$ . ${\ Displaystyle \ | \ cdot \ | _ {F}}$ denota la norma Frobenius . Tenga en cuenta que no se necesita el conjunto completo de suposiciones para que este resultado se mantenga. La condición de incoherencia, por ejemplo, solo entra en juego en la reconstrucción exacta. Por último, aunque el recorte puede parecer contrario a la intuición, ya que implica desechar información, asegura la proyección ${\ Displaystyle M ^ {E}}$ en su primera ${\ Displaystyle r}$ Los componentes principales dan más información sobre la matriz subyacente. ${\ Displaystyle M}$ que sobre las entradas observadas.

En el Paso 3, el espacio de matrices candidatas ${\ Displaystyle X, \; Y}$ puede reducirse notando que el problema de minimización interna tiene la misma solución para ${\ Displaystyle (X, Y)}$ como para ${\ Displaystyle (XQ, YR)}$ dónde ${\ displaystyle Q}$ y ${\ Displaystyle R}$ son ortonormales ${\ Displaystyle r}$ por ${\ Displaystyle r}$ matrices. Luego, el descenso de gradiente se puede realizar sobre el producto cruzado de dos colectores de Grassman . Si ${\ Displaystyle r \ ll m, \; n}$ y el conjunto de entradas observadas es del orden de ${\ Displaystyle nr \ log n}$ , la matriz devuelta por el paso 3 es exactamente ${\ Displaystyle M}$ . Entonces el algoritmo es de orden óptimo, ya que sabemos que para que el problema de compleción de la matriz no esté subdeterminado, el número de entradas debe estar en el orden de ${\ Displaystyle nr \ log n}$ .

Minimización de mínimos cuadrados alternos

La minimización alterna representa un enfoque ampliamente aplicable y empíricamente exitoso para encontrar matrices de bajo rango que se ajusten mejor a los datos dados. Por ejemplo, para el problema de completar la matriz de bajo rango, se cree que este método es uno de los más precisos y eficientes, y formó un componente importante de la entrada ganadora en el problema de Netflix. En el enfoque de minimización alterna, la matriz objetivo de rango bajo se escribe en forma bilineal :

${\ Displaystyle X = UV ^ {T}}$ ;

el algoritmo luego alterna entre encontrar el mejor ${\ Displaystyle U}$ y lo mejor ${\ Displaystyle V}$ . Si bien el problema general no es convexo, cada subproblema suele ser convexo y se puede resolver de manera eficiente. Jain, Netrapalli y Sanghavi ^[12] han dado una de las primeras garantías para el desempeño de la minimización alterna tanto para la terminación de la matriz como para la detección de la matriz.

El algoritmo de minimización alterna se puede ver como una forma aproximada de resolver el siguiente problema no convexo:

${\ Displaystyle {\ begin {alineado} & {\ underset {U, V \ in \ mathbb {R} ^ {n \ times k}} {\ text {min}}} & \ | P _ {\ Omega} (UV ^ {T}) - P _ {\ Omega} (M) \ | _ {F} ^ {2} \\\ end {alineado}}}$

El algoritmo AltMinComplete propuesto por Jain, Netrapalli y Sanghavi se enumera aquí: ^[12]

Entrada : conjunto observado ${\ Displaystyle \ Omega}$ , valores ${\ Displaystyle P _ {\ Omega} (M)}$
Dividir ${\ Displaystyle \ Omega}$ dentro ${\ Displaystyle 2T + 1}$ subconjuntos ${\ Displaystyle \ Omega _ {0}, \ cdots, \ Omega _ {2T}}$ con cada elemento de ${\ Displaystyle \ Omega}$ perteneciente a uno de los ${\ Displaystyle \ Omega _ {t}}$ con igual probabilidad (muestreo con reemplazo)
${\ Displaystyle {\ hat {U}} ^ {0} = SVD ({\ frac {1} {p}} P _ {\ Omega _ {0}} (M), k)}$ es decir, superior ${\ Displaystyle k}$ vectores singulares izquierdos de ${\ Displaystyle {\ frac {1} {p}} P _ {\ Omega _ {0}} (M)}$
Recorte : establezca todos los elementos de ${\ displaystyle {\ hat {U}} ^ {0}}$ que tienen una magnitud mayor que ${\ Displaystyle {\ frac {2 \ mu {\ sqrt {k}}} {\ sqrt {n}}}}$ a cero y ortonormalizar las columnas de ${\ displaystyle {\ hat {U}} ^ {0}}$
por ${\ Displaystyle t = 0, \ cdots, T-1}$ hacer
${\ Displaystyle \ quad {\ hat {V}} ^ {t + 1} \ leftarrow {\ text {argmin}} _ {V \ in \ mathbb {R} ^ {n \ times k}} \ | P _ {\ Omega _ {t + 1}} ({\ hat {U}} V ^ {T} -M) \ | _ {F} ^ {2}}$
${\ Displaystyle \ quad {\ hat {U}} ^ {t + 1} \ leftarrow {\ text {argmin}} _ {U \ in \ mathbb {R} ^ {m \ times k}} \ | P _ {\ Omega _ {T + t + 1}} (U ({\ hat {V}} ^ {t + 1}) ^ {T} -M) \ | _ {F} ^ {2}}$
final para
Regreso ${\ Displaystyle X = {\ hat {U}} ^ {T} ({\ hat {V}} ^ {T}) ^ {T}}$

Demostraron que al observar ${\ Displaystyle | \ Omega | = O (({\ frac {\ sigma _ {1} ^ {*}} {\ sigma _ {k} ^ {*}}}) ^ {6} k ^ {7} \ log n \ log (k \ | M \ | _ {F} / \ epsilon))}$ entradas aleatorias de una matriz incoherente ${\ Displaystyle M}$ , El algoritmo AltMinComplete puede recuperar ${\ Displaystyle M}$ en ${\ Displaystyle O (\ log (1 / \ epsilon))}$ pasos. En términos de complejidad de la muestra ( ${\ Displaystyle | \ Omega |}$ ), teóricamente, la minimización alterna puede requerir un mayor ${\ Displaystyle \ Omega}$ que la relajación convexa. Sin embargo, empíricamente, no parece ser el caso, lo que implica que los límites de complejidad de la muestra pueden ajustarse aún más. En términos de complejidad del tiempo, demostraron que AltMinComplete necesita tiempo

${\ Displaystyle O (| \ Omega | k ^ {2} \ log (1 / \ epsilon))}$ .

Vale la pena señalar que, aunque los métodos basados en la relajación convexa tienen un análisis riguroso, los algoritmos basados en la minimización alterna son más exitosos en la práctica. ^{[ cita requerida ]}

Aplicaciones

Candès y Plan ^[9] resumen varias aplicaciones de la compleción matricial de la siguiente manera:

Filtración colaborativa

El filtrado colaborativo es la tarea de realizar predicciones automáticas sobre los intereses de un usuario mediante la recopilación de información sobre los gustos de muchos usuarios. Empresas como Apple, Amazon, Barnes and Noble y Netflix están tratando de predecir las preferencias de sus usuarios a partir de un conocimiento parcial. En este tipo de problema de compleción de la matriz, la matriz completa desconocida a menudo se considera de rango bajo porque solo unos pocos factores contribuyen típicamente a los gustos o preferencias de un individuo.

Identificación del sistema

En control, a uno le gustaría ajustar un modelo de espacio de estado invariante en el tiempo lineal de tiempo discreto

${\ Displaystyle {\ begin {alineado} x (t + 1) & = Ax (t) + Bu (t) \\ y (t) & = Cx (t) + Du (t) \ end {alineado}}}$

a una secuencia de entradas ${\ Displaystyle u (t) \ in \ mathbb {R} ^ {m}}$ y salidas ${\ Displaystyle y (t) \ in \ mathbb {R} ^ {p}, t = 0, \ ldots, N}$ . El vector ${\ Displaystyle x (t) \ in \ mathbb {R} ^ {n}}$ es el estado del sistema en el momento ${\ Displaystyle t}$ y ${\ Displaystyle n}$ es el orden del modelo del sistema. Del par de entrada / salida, uno quisiera recuperar las matrices ${\ Displaystyle A, B, C, D}$ y el estado inicial ${\ Displaystyle x (0)}$ . Este problema también puede verse como un problema de compleción de matrices de rango bajo.

Localización de Internet de las cosas (IoT)

El problema de localización (o posicionamiento global) surge de forma natural en las redes de sensores de IoT. El problema es recuperar el mapa del sensor en el espacio euclidiano a partir de un conjunto local o parcial de distancias por pares. Por lo tanto, es un problema de compleción de la matriz con rango dos si los sensores están ubicados en un plano 2-D y tres si están en un espacio 3-D. ^[14]

Ver también

Regularización de matrices
Premio Netflix
Filtración colaborativa
Identificación del sistema
Optimizacion convexa

Referencias

^ Johnson, Charles R. (1990). "Problemas de finalización de la matriz: una encuesta". Teoría y aplicaciones de matrices . 40 : 171-198. doi : 10.1090 / psapm / 040/1059486 .
^ Laurent, Monique (2008). "Problemas de finalización de la matriz". Enciclopedia de Optimización . 3 : 221-229. doi : 10.1007 / 978-0-387-74759-0_355 .
^ a b c d e Candès, EJ; Recht, B. (2009). "Finalización exacta de la matriz mediante optimización convexa" . Fundamentos de la matemática computacional . 9 (6): 717–772. arXiv : 0805.4471 . doi : 10.1007 / s10208-009-9045-5 .
^ Recht, B. (2009). "Un enfoque más simple para completar la matriz" (PDF) . Revista de investigación sobre aprendizaje automático . 12 : 3413–3430. arXiv : 0910.0651 . Código Bibliográfico : 2009arXiv0910.0651R .
^ Xu, Zhiqiang (2018). "El número de medición mínimo para la recuperación de matrices de rango bajo". Análisis Armónico Computacional y Aplicado . 44 (2): 497–508. arXiv : 1505.07204 . doi : 10.1016 / j.acha.2017.01.005 .
^ a b Candès, EJ; Tao, T. (2010). "El poder de la relajación convexa: finalización de la matriz casi óptima". Transacciones IEEE sobre teoría de la información . 56 (5): 2053-2080. arXiv : 0903.1476 . doi : 10.1109 / TIT.2010.2044061 .
^ a b Tao, T. (10 de marzo de 2009). "El poder de la relajación convexa: finalización de la matriz casi óptima" . ¿Qué hay de nuevo ?
^ a b Nguyen, LT; Kim, J .; Shim, B. (10 de julio de 2019). "Finalización de la matriz de bajo rango: una encuesta contemporánea". Acceso IEEE . 7 (1): 94215–94237. arXiv : 1907.11705 . Código Bib : 2019arXiv190711705N . doi : 10.1109 / ACCESS.2019.2928130 .
^ a b c Candès, EJ; Plan, Y. (2010). "Terminación de matriz con ruido". Actas del IEEE . 98 (6): 925–936. arXiv : 0903.3131 . doi : 10.1109 / JPROC.2009.2035722 .
^ a b Eriksson, B .; Balzano, L .; Nowak, R. (2011). "Terminación de matriz de alto rango y agrupación de subespacios con datos faltantes". arXiv : 1112.5629 [ cs.IT ].
^ a b Keshavan, RH; Montanari,.; Oh, S. (2010). "Completar la matriz a partir de unas pocas entradas". Transacciones IEEE sobre teoría de la información . 56 (6): 2980–2998. arXiv : 0901.3150 . doi : 10.1109 / TIT.2010.2046205 .CS1 maint: nombres numéricos: lista de autores ( enlace )
^ a b c Jain, P .; Netrapalli, P .; Sanghavi, S. (2013). "Finalización de la matriz de rango bajo mediante la minimización alterna". Actas del 45º simposio anual de ACM sobre el Simposio sobre teoría de la computación . ACM. págs. 665–674. arXiv : 1212.0467 . doi : 10.1145 / 2488608.2488693 . ISBN 978-1-4503-2029-0.
^ a b Cai, J.-F .; Candès, EJ; Shen, Z. (2010). "Un algoritmo de umbral de valor singular para la finalización de la matriz". Revista SIAM de Optimización . 20 (4): 1956–1982. arXiv : 0810.3286 . doi : 10.1137 / 080738970 .
^ Nguyen, LT; Kim, J .; Kim, S .; Shim, B. (2019). "Localización de redes de IoT a través de la finalización de la matriz de bajo rango". Transacciones IEEE sobre comunicaciones . 67 (8): 5833–5847. doi : 10.1109 / TCOMM.2019.2915226 .

[johnson-1] Johnson, Charles R. (1990). "Problemas de finalización de la matriz: una encuesta". Teoría y aplicaciones de matrices . 40 : 171-198. doi : 10.1090 / psapm / 040/1059486 .

[laurent-2] Laurent, Monique (2008). "Problemas de finalización de la matriz". Enciclopedia de Optimización . 3 : 221-229. doi : 10.1007 / 978-0-387-74759-0_355 .

[candesrecht-3] Candès, EJ; Recht, B. (2009). "Finalización exacta de la matriz mediante optimización convexa" . Fundamentos de la matemática computacional . 9 (6): 717–772. arXiv : 0805.4471 . doi : 10.1007 / s10208-009-9045-5 .

[recht-4] Recht, B. (2009). "Un enfoque más simple para completar la matriz" (PDF) . Revista de investigación sobre aprendizaje automático . 12 : 3413–3430. arXiv : 0910.0651 . Código Bibliográfico : 2009arXiv0910.0651R .

[xu-5] Xu, Zhiqiang (2018). "El número de medición mínimo para la recuperación de matrices de rango bajo". Análisis Armónico Computacional y Aplicado . 44 (2): 497–508. arXiv : 1505.07204 . doi : 10.1016 / j.acha.2017.01.005 .

[candestao-6] Candès, EJ; Tao, T. (2010). "El poder de la relajación convexa: finalización de la matriz casi óptima". Transacciones IEEE sobre teoría de la información . 56 (5): 2053-2080. arXiv : 0903.1476 . doi : 10.1109 / TIT.2010.2044061 .

[tao-7] Tao, T. (10 de marzo de 2009). "El poder de la relajación convexa: finalización de la matriz casi óptima" . ¿Qué hay de nuevo ?

[nguyenkimshim-8] Nguyen, LT; Kim, J .; Shim, B. (10 de julio de 2019). "Finalización de la matriz de bajo rango: una encuesta contemporánea". Acceso IEEE . 7 (1): 94215–94237. arXiv : 1907.11705 . Código Bib : 2019arXiv190711705N . doi : 10.1109 / ACCESS.2019.2928130 .

[candesplan-9] Candès, EJ; Plan, Y. (2010). "Terminación de matriz con ruido". Actas del IEEE . 98 (6): 925–936. arXiv : 0903.3131 . doi : 10.1109 / JPROC.2009.2035722 .

[erikssonbalzano-10] Eriksson, B .; Balzano, L .; Nowak, R. (2011). "Terminación de matriz de alto rango y agrupación de subespacios con datos faltantes". arXiv : 1112.5629 [ cs.IT ].

[keshavan-11] Keshavan, RH; Montanari,.; Oh, S. (2010). "Completar la matriz a partir de unas pocas entradas". Transacciones IEEE sobre teoría de la información . 56 (6): 2980–2998. arXiv : 0901.3150 . doi : 10.1109 / TIT.2010.2046205 .CS1 maint: nombres numéricos: lista de autores ( enlace )

[jainnetrapalli-12] Jain, P .; Netrapalli, P .; Sanghavi, S. (2013). "Finalización de la matriz de rango bajo mediante la minimización alterna". Actas del 45º simposio anual de ACM sobre el Simposio sobre teoría de la computación . ACM. págs. 665–674. arXiv : 1212.0467 . doi : 10.1145 / 2488608.2488693 . ISBN 978-1-4503-2029-0.

[caicandesshen-13] Cai, J.-F .; Candès, EJ; Shen, Z. (2010). "Un algoritmo de umbral de valor singular para la finalización de la matriz". Revista SIAM de Optimización . 20 (4): 1956–1982. arXiv : 0810.3286 . doi : 10.1137 / 080738970 .

[nguyenkimkimshim-14] Nguyen, LT; Kim, J .; Kim, S .; Shim, B. (2019). "Localización de redes de IoT a través de la finalización de la matriz de bajo rango". Transacciones IEEE sobre comunicaciones . 67 (8): 5833–5847. doi : 10.1109 / TCOMM.2019.2915226 .

[1]