La indexación aleatoria es un método de reducción de dimensionalidad y un marco computacional para la semántica distributiva , basado en la idea de que las implementaciones de modelos de espacio vectorial de muy alta dimensión no son prácticas, que los modelos no necesitan crecer en dimensionalidad cuando se encuentran nuevos elementos (por ejemplo, nueva terminología), y que un modelo de alta dimensión puede proyectarse en un espacio de menor dimensionalidad sin comprometer las métricas de distancia L2 si las dimensiones resultantes se eligen adecuadamente.
Este es el punto original del enfoque de proyección aleatoria para la reducción de dimensiones formulado primero como el lema de Johnson-Lindenstrauss , y el hash sensible a la localidad tiene algunos de los mismos puntos de partida. La indexación aleatoria, tal como se utiliza en la representación del lenguaje, se origina en el trabajo de Pentti Kanerva [1] [2] [3] [4] [5] en memoria distribuida escasa , y puede describirse como una formulación incremental de una proyección aleatoria. [6]
También se puede verificar que la indexación aleatoria es una técnica de proyección aleatoria para la construcción de espacios euclidianos, es decir, espacios vectoriales normalizados L2. [7] En los espacios euclidianos, las proyecciones aleatorias se aclaran utilizando el lema de Johnson-Lindenstrauss. [8]
La técnica TopSig [9] amplía el modelo de indexación aleatoria para producir vectores de bits para compararlos con la función de similitud de distancia de Hamming . Se utiliza para mejorar el rendimiento de la recuperación de información y la agrupación de documentos . En una línea de investigación similar, se propone la indexación aleatoria de enteros de Manhattan (RMII) [10] para mejorar el rendimiento de los métodos que emplean la distancia de Manhattan entre unidades de texto. Muchos métodos de indexación aleatorios generan principalmente similitudes a partir de la co-ocurrencia de elementos en un corpus. La indexación aleatoria reflexiva (RRI) [11] genera similitudes de co-ocurrencia y de ocurrencia compartida con otros ítems.
Enlaces web
- Zadeh Behrang Qasemi, Handschuh Siegfried. (2015) Indexación aleatoria explicada con alta probabilidad , TSD.
Referencias
- ^ Kanerva, Pentti, Kristoferson, Jan y Holst, Anders (2000): Indexación aleatoria de muestras de texto para análisis semántico latente , Actas de la 22ª Conferencia Anual de la Sociedad de Ciencias Cognitivas, p. 1036. Mahwah, Nueva Jersey: Erlbaum, 2000.
- ^ Sahlgren, Magnus (2005) Una introducción a la indexación aleatoria , Actas de los métodos y aplicaciones del taller de indexación semántica en la 7ma Conferencia Internacional sobre Terminología e Ingeniería del Conocimiento, TKE 2005, 16 de agosto, Copenhague, Dinamarca
- ^ Sahlgren, Magnus, Holst, Anders y Pentti Kanerva (2008) Permutaciones como medio para codificar el orden en el espacio de palabras , en actas de la 30ª Conferencia Anual de la Sociedad de Ciencias Cognitivas: 1300-1305.
- ^ Kanerva, Pentti (2009) Computación hiperdimensional: Introducción a la computación en representación distribuida con vectores aleatorios de alta dimensión , Computación cognitiva, Volumen 1, Número 2, págs. 139-159.
- ^ Joshi, Aditya, Johan Halseth y Pentti Kanerva. " Reconocimiento de idiomas mediante indexación aleatoria ". preimpresión de arXiv arXiv: 1412.7026 (2014).
- ^ Recchia, Gabriel, et al. " Codificación de información secuencial en modelos de espacio vectorial de semántica: comparación de la representación holográfica reducida y la permutación aleatoria ". (2010): 865-870.
- ^ Qasemi Zadeh, Behrang y Handschuh, Siegrfied. (2014) Indización aleatoria de Manhattan , en las actas del 25º taller internacional sobre aplicaciones de bases de datos y sistemas expertos.
- ^ Johnson, W. y Lindenstrauss, J. (1984) Extensions of Lipschitz mappings into a Hilbert space , in Contemporary Mathematics. Sociedad Americana de Matemáticas, vol. 26, págs. 189-206.
- ^ Geva, S. & De Vries, CM (2011) TopSig: Topología que preserva las firmas de documentos , en las actas de la Conferencia sobre gestión de la información y el conocimiento 2011, 24-28 de octubre de 2011, Glasgow, Escocia.
- ^ Qasemi Zadeh, Behrang. Y Handschuh, Siegfried. (2014) Indización aleatoria de enteros de Manhattan: Construcción de espacio vectorial normado L1 incremental , en actas de la Conferencia de 2014 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP), páginas 1713-1723, 25-29 de octubre de 2014, Doha, Qatar.
- ^ Cohen T., Schvaneveldt Roger & Widdows Dominic (2009) Indización aleatoria reflexiva e inferencia indirecta: un método escalable para el descubrimiento de conexiones implícitas , Journal of Biomedical Informatics, 43 (2): 240-56.