Mapeo aleatorio


Cuando los vectores de datos son de alta dimensión, es computacionalmente inviable utilizar análisis de datos o algoritmos de reconocimiento de patrones que calculan repetidamente similitudes o distancias en el espacio de datos original. Por tanto, es necesario reducir la dimensionalidad antes, por ejemplo, de agrupar los datos. Random Mapping ( RM ) es un método rápido de reducción de dimensionalidad categorizado como método de extracción de características . El RM consiste en la generación de una matriz aleatoria que se multiplica por cada vector original y da como resultado un vector reducido. En el contexto de minería de texto , se demuestra que la clasificación de documentosla precisión obtenida después de que se haya reducido la dimensionalidad usando un método de mapeo aleatorio será casi tan buena como la precisión original si la dimensionalidad final es lo suficientemente grande (alrededor de 100 de 6000). De hecho, se puede demostrar que el producto interno (similitud) entre los vectores mapeados sigue de cerca el producto interno de los vectores originales .