Búsqueda de proyección

La búsqueda de proyecciones (PP) es un tipo de técnica estadística que implica encontrar las proyecciones más "interesantes" posibles en datos multidimensionales. A menudo, las proyecciones que se desvían más de una distribución normal se consideran más interesantes. A medida que se encuentra cada proyección, los datos se reducen eliminando el componente a lo largo de esa proyección, y el proceso se repite para encontrar nuevas proyecciones; este es el aspecto de "persecución" que motivó la técnica conocida como búsqueda de emparejamiento . ^[1]^[2]

La idea de la búsqueda de proyecciones es ubicar la proyección o proyecciones desde un espacio de alta dimensión a un espacio de baja dimensión que revelan la mayoría de los detalles sobre la estructura del conjunto de datos. Una vez que se ha encontrado un conjunto interesante de proyecciones, las estructuras existentes (conglomerados, superficies, etc.) se pueden extraer y analizar por separado.

La búsqueda de proyección se ha utilizado ampliamente para la separación ciega de fuentes , por lo que es muy importante en el análisis de componentes independientes . La búsqueda de proyecciones busca una proyección a la vez, de modo que la señal extraída sea lo más no gaussiana posible. ^[3]

Historia

La técnica de búsqueda de proyección fue propuesta y experimentada originalmente por Kruskal. ^{[4] Se encuentran} ideas relacionadas en Switzer (1970) "Clasificación numérica" págs. 31-43 en "Aplicaciones informáticas en las ciencias de la tierra: geoestadística y Switzer y Wright (1971)" Clasificación numérica de nummulítidos del eoceno, "Geología matemática págs. 297-311 La primera implementación exitosa se debe a Jerome H. Friedman y John Tukey (1974), quienes nombraron la búsqueda de proyecciones.

El propósito original de la búsqueda de proyecciones era seleccionar mediante máquina proyecciones "interesantes" de baja dimensión de una nube de puntos de alta dimensión maximizando numéricamente una determinada función objetivo o índice de proyección. ^[5]

Varios años más tarde, Friedman y Stuetzle ampliaron la idea detrás de la búsqueda de proyección y agregaron regresión de búsqueda de proyección (PPR), clasificación de búsqueda de proyección (PPC) y estimación de densidad de búsqueda de proyección (PPDE).

Característica

La característica más emocionante de la búsqueda de proyecciones es que es uno de los pocos métodos multivariados capaces de eludir la "maldición de la dimensionalidad" causada por el hecho de que el espacio de alta dimensión está casi vacío. Además, la búsqueda de proyecciones puede ignorar variables irrelevantes (es decir, ruidosas y con poca información). Esta es una clara ventaja sobre los métodos basados en distancias entre puntos como árboles de expansión mínimos, escalado multidimensional y la mayoría de las técnicas de agrupamiento.

Muchos de los métodos del análisis multivariado clásico resultan ser casos especiales de búsqueda de proyecciones. Algunos ejemplos son el análisis de componentes principales y el análisis discriminante , y los métodos quartimax y oblimax en el análisis factorial .

Un serio inconveniente de los métodos de búsqueda de proyecciones es su alta demanda de tiempo en la computadora.

Ver también

Referencias

^ JH Friedman y JW Tukey (septiembre de 1974). "Un algoritmo de búsqueda de proyección para el análisis de datos exploratorios" (PDF) . Transacciones IEEE en computadoras . C-23 (9): 881–890. doi : 10.1109 / TC.1974.224051 . ISSN 0018-9340 .
^ MC Jones y R. Sibson (1987). "¿Qué es la búsqueda de proyección?". Revista de la Sociedad Real de Estadística, Serie A . 150 (1): 1–37. doi : 10.2307 / 2981662 . JSTOR 2981662 .
^ James V. Stone (2004); "Análisis de componentes independientes: una introducción tutorial", The MIT Press Cambridge, Massachusetts, Londres, Inglaterra; ISBN 0-262-69315-1
^ Kruskal, JB. 1969; "Hacia un método práctico que ayuda a descubrir la estructura de un conjunto de observaciones al encontrar la transformación de línea que optimiza un nuevo" índice de condensación "", páginas 427–440 de: Milton, RC y Nelder, JA (eds), Statistical cálculo; Nueva York, Academic Press
^ PJ Huber (junio de 1985). "Búsqueda de proyección" (PDF) . The Annals of Statistics . 13 (2): 435–475. doi : 10.1214 / aos / 1176349519 .

[1] JH Friedman y JW Tukey (septiembre de 1974). "Un algoritmo de búsqueda de proyección para el análisis de datos exploratorios" (PDF) . Transacciones IEEE en computadoras . C-23 (9): 881–890. doi : 10.1109 / TC.1974.224051 . ISSN 0018-9340 .

[2] MC Jones y R. Sibson (1987). "¿Qué es la búsqueda de proyección?". Revista de la Sociedad Real de Estadística, Serie A . 150 (1): 1–37. doi : 10.2307 / 2981662 . JSTOR 2981662 .

[3] James V. Stone (2004); "Análisis de componentes independientes: una introducción tutorial", The MIT Press Cambridge, Massachusetts, Londres, Inglaterra; ISBN 0-262-69315-1

[4] Kruskal, JB. 1969; "Hacia un método práctico que ayuda a descubrir la estructura de un conjunto de observaciones al encontrar la transformación de línea que optimiza un nuevo" índice de condensación "", páginas 427–440 de: Milton, RC y Nelder, JA (eds), Statistical cálculo; Nueva York, Academic Press

[5] PJ Huber (junio de 1985). "Búsqueda de proyección" (PDF) . The Annals of Statistics . 13 (2): 435–475. doi : 10.1214 / aos / 1176349519 .

[1]