De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda
Un ejemplo de escalamiento multidimensional clásico aplicado a los patrones de votación en la Cámara de Representantes de los Estados Unidos . Cada punto rojo representa a un miembro republicano de la Cámara y cada punto azul a un demócrata.

La escala multidimensional ( MDS ) es un medio de visualizar el nivel de similitud de casos individuales de un conjunto de datos. MDS se utiliza para traducir "información sobre las 'distancias' por pares entre un conjunto de n objetos o individuos" en una configuración de n puntos mapeados en un espacio cartesiano abstracto . [1]

Más técnicamente, MDS se refiere a un conjunto de técnicas de ordenación relacionadas que se utilizan en la visualización de información , en particular para mostrar la información contenida en una matriz de distancia . Es una forma de reducción de dimensionalidad no lineal .

Dada una matriz de distancias con las distancias entre cada par de objetos en un conjunto, y un número elegido de dimensiones, N , un algoritmo MDS coloca cada objeto en un espacio N - dimensional (una representación de menor dimensión) de tal manera que las distancias entre objetos se conservan lo mejor posible. Para N = 1, 2 y 3 , los puntos resultantes se pueden visualizar en un diagrama de dispersión . [2]

James O. Ramsay de la Universidad McGill , quien también es considerado el padre del análisis funcional de datos, hizo contribuciones teóricas fundamentales a los MDS . [ cita requerida ]

Tipos [ editar ]

Los algoritmos MDS entran en una taxonomía , según el significado de la matriz de entrada:

Escalado multidimensional clásico [ editar ]

También se conoce como análisis de coordenadas principales (PCoA), escala de Torgerson o escala de Torgerson-Gower. Toma una matriz de entrada que da diferencias entre pares de elementos y genera una matriz de coordenadas cuya configuración minimiza una función de pérdida llamada deformación. [2] Por ejemplo, dadas las distancias aéreas euclidianas entre varias ciudades indexadas por i y j , desea encontrar las coordenadas de las ciudades de manera que. En este ejemplo, es posible una solución exacta (asumiendo que las distancias euclidianas son exactas). En la práctica, este no suele ser el caso y, por lo tanto, MDS busca aproximarse a la representación de dimensiones inferiores minimizando una función de pérdida. Formas generales de funciones de pérdida llamadas estrés en MDS a distancia y deformación en MDS clásico. La deformación viene dada por:, donde ahora denotan vectores en el espacio N -dimensional, denota el producto escalar entre y , y son los elementos de la matriz definidos en el paso 2 del siguiente algoritmo, que se calculan a partir de las distancias.

Pasos de un algoritmo MDS clásico:
La MDS clásica utiliza el hecho de que la matriz de coordenadas se puede derivar mediante la descomposición de valores propios de . Y la matriz se puede calcular a partir de la matriz de proximidad mediante el uso de doble centrado. [3]
  1. Configurar la matriz de proximidad al cuadrado
  2. Aplicar doble centrado: utilizando la matriz de centrado , donde está el número de objetos.
  3. Determine los valores propios más grandes y los vectores propios correspondientes de (donde es el número de dimensiones deseadas para la salida).
  4. Ahora,, donde es la matriz de autovectores y es la matriz diagonal de autovalores de .
El MDS clásico asume distancias euclidianas . Por tanto, esto no se aplica a las calificaciones de disimilitud directa.

Escala métrica multidimensional (mMDS) [ editar ]

Es un superconjunto de MDS clásico que generaliza el procedimiento de optimización a una variedad de funciones de pérdida y matrices de entrada de distancias conocidas con pesos, etc. Una función de pérdida útil en este contexto se llama estrés , que a menudo se minimiza mediante un procedimiento llamado mayorización de estrés . Metric MDS minimiza la función de costo llamada "Estrés", que es una suma residual de cuadrados:

La escala métrica utiliza una transformación de potencia con un exponente controlado por el usuario : y para la distancia. En escala clásica . La escala no métrica se define mediante el uso de regresión isotónica para estimar de forma no paramétrica una transformación de las diferencias.

Escalado multidimensional no métrico (nMDS) [ editar ]

A diferencia de la MDS métrica, la MDS no métrica encuentra una relación monótona no paramétrica entre las diferencias en la matriz elemento-elemento y las distancias euclidianas entre elementos, y la ubicación de cada elemento en el espacio de baja dimensión. La relación se encuentra típicamente usando regresión isotónica : denotemos el vector de proximidades, una transformación monótona de y las distancias de los puntos; entonces hay que encontrar coordenadas que minimicen la llamada tensión,

Existen algunas variantes de esta función de costes. Los programas MDS minimizan automáticamente el estrés para obtener la solución MDS.
El núcleo de un algoritmo MDS no métrico es un proceso de optimización doble. Primero hay que encontrar la transformación monótona óptima de las proximidades. En segundo lugar, los puntos de una configuración deben disponerse de manera óptima, de modo que sus distancias coincidan lo más posible con las proximidades escaladas. Los pasos básicos en un algoritmo MDS no métrico son:
  1. Encuentre una configuración aleatoria de puntos, por ejemplo, tomando muestras de una distribución normal.
  2. Calcula las distancias d entre los puntos.
  3. Encuentre la transformación monótona óptima de las proximidades, para obtener datos escalados de manera óptima .
  4. Minimice la tensión entre los datos escalados de forma óptima y las distancias encontrando una nueva configuración de puntos.
  5. Compare el estrés con algún criterio. Si la tensión es lo suficientemente pequeña, salga del algoritmo; de lo contrario, vuelva a 2.

El análisis de espacio más pequeño (SSA) de Louis Guttman es un ejemplo de un procedimiento MDS no métrico.

Escala multidimensional generalizada (GMD) [ editar ]

Una extensión del escalado multidimensional métrico, en el que el espacio objetivo es un espacio arbitrario uniforme no euclidiano. En los casos en que las diferencias son distancias en una superficie y el espacio objetivo es otra superficie, GMDS permite encontrar la distorsión mínima incrustada de una superficie en otra. [4]

Detalles [ editar ]

Los datos a analizar son una colección de objetos (colores, caras, acciones, ...) sobre los que se define una función de distancia ,

distancia entre los objetos -ésimo y -ésimo.

Estas distancias son las entradas de la matriz de disimilitud

El objetivo de MDS es, dado , encontrar vectores tales que

para todos ,

donde es una norma vectorial . En la MDS clásica, esta norma es la distancia euclidiana , pero, en un sentido más amplio, puede ser una función de distancia métrica o arbitraria. [5]

En otras palabras, MDS intenta encontrar un mapeo de los objetos en tal que se conserven las distancias. Si se elige que la dimensión sea ​​2 o 3, podemos graficar los vectores para obtener una visualización de las similitudes entre los objetos. Tenga en cuenta que los vectores no son únicos: con la distancia euclidiana, pueden trasladarse, rotarse y reflejarse arbitrariamente, ya que estas transformaciones no cambian las distancias por pares .

(Nota: el símbolo indica el conjunto de números reales y la notación se refiere al producto cartesiano de copias de , que es un espacio vectorial -dimensional sobre el campo de los números reales).

Existen varios enfoques para determinar los vectores . Por lo general, MDS se formula como un problema de optimización , donde se encuentra como un minimizador de alguna función de costo, por ejemplo,

Entonces se puede encontrar una solución mediante técnicas de optimización numérica. Para algunas funciones de costos particularmente elegidas, los minimizadores pueden expresarse analíticamente en términos de descomposiciones propias de la matriz . [ cita requerida ]

Procedimiento [ editar ]

Hay varios pasos para realizar una investigación de MDS:

  1. Formulación del problema : ¿Qué variables desea comparar? ¿Cuántas variables quieres comparar? ¿Para qué se utilizará el estudio?
  2. Obtención de datos de entrada : por ejemplo: - A los encuestados se les hace una serie de preguntas. Para cada par de productos, se les pide que califiquen la similitud (generalmente en una escala Likert de 7 puntos de muy similar a muy diferente). La primera pregunta podría ser para Coke / Pepsi, por ejemplo, la siguiente para Coca-Cola / Hires rootbeer, la siguiente para Pepsi / Dr Pepper, la siguiente para Dr Pepper / Hires rootbeer, etc. El número de preguntas es una función del número de marcas y se puede calcular como donde Q es el número de preguntas y Nes el número de marcas. Este enfoque se conoce como “Datos de percepción: enfoque directo”. Hay otros dos enfoques. Existe el "Datos de percepción: enfoque derivado" en el que los productos se descomponen en atributos que se clasifican en una escala diferencial semántica . El otro es el "enfoque de datos de preferencia" en el que se pregunta a los encuestados su preferencia en lugar de similitudes.
  3. Ejecución del programa estadístico MDS : el software para ejecutar el procedimiento está disponible en muchos paquetes de software estadístico. A menudo se puede elegir entre MDS métrico (que trata con datos de nivel de intervalo o de razón) y MDS no métrico [6] (que trata con datos ordinales).
  4. Decidir el número de dimensiones : el investigador debe decidir el número de dimensiones que desea que cree la computadora. La capacidad de interpretación de la solución MDS es a menudo importante, y las soluciones de dimensiones inferiores suelen ser más fáciles de interpretar y visualizar. Sin embargo, la selección de dimensiones también es una cuestión de equilibrar el sobreajuste y el desajuste. Las soluciones de dimensiones inferiores pueden no encajar al omitir dimensiones importantes de los datos de disimilitud. Las soluciones de dimensiones superiores pueden sobreajustarse al ruido en las mediciones de disimilitud. Por lo tanto, las herramientas de selección de modelos como AIC / BIC, factores de Bayes o la validación cruzada pueden ser útiles para seleccionar la dimensionalidad que equilibra el desajuste y el sobreajuste.
  5. Mapeo de los resultados y definición de las dimensiones : el programa estadístico (o un módulo relacionado) mapeará los resultados. El mapa trazará cada producto (generalmente en un espacio bidimensional). La proximidad de los productos entre sí indica cuán similares son o cuán preferidos son, según el enfoque que se utilizó. Sin embargo, no es necesariamente obvio cómo las dimensiones de la incrustación corresponden realmente a las dimensiones del comportamiento del sistema. Aquí, se puede hacer un juicio subjetivo sobre la correspondencia (ver mapeo perceptivo ).
  6. Pruebe los resultados en cuanto a confiabilidad y validez : calcule R-cuadrado para determinar qué proporción de la varianza de los datos escalados se puede explicar mediante el procedimiento MDS. Un R-cuadrado de 0,6 se considera el nivel mínimo aceptable. [ cita requerida ] Un R-cuadrado de 0.8 se considera bueno para la escala métrica y .9 se considera bueno para la escala no métrica. Otras pruebas posibles son el estrés de Kruskal, las pruebas de datos divididos, las pruebas de estabilidad de datos (es decir, la eliminación de una marca) y la fiabilidad test-retest.
  7. Informe los resultados de manera integral : junto con el mapeo, se debe proporcionar al menos la medida de distancia (por ejemplo, índice de Sorenson , índice de Jaccard ) y confiabilidad (por ejemplo, valor de tensión). También es muy recomendable dar el algoritmo (por ejemplo, Kruskal, Mather), que a menudo se define por el programa utilizado (a veces reemplazando el informe del algoritmo), si ha dado una configuración de inicio o tuvo una elección aleatoria, el número de ejecuciones , la evaluación de la dimensionalidad, los resultados del método de Monte Carlo , el número de iteraciones, la evaluación de la estabilidad y la varianza proporcional de cada eje (r-cuadrado).

Implementaciones [ editar ]

  • ELKI incluye dos implementaciones de MDS.
  • MATLAB incluye dos implementaciones de MDS (para MDS clásico ( cmdscale ) y no clásico ( mdscale ) respectivamente).
  • El lenguaje de programación R ofrece varias implementaciones de MDS.
  • sklearn contiene la función sklearn.manifold.MDS .

Ver también [ editar ]

  • Posicionamiento (marketing)
  • Mapeo perceptual
  • Gestión de producto
  • Márketing
  • Investigación de mercado
  • Escala multidimensional generalizada (GMDS)
  • Agrupación de datos
  • Análisis factorial
  • Análisis discriminante
  • Reducción de dimensionalidad
  • Reducción de dimensionalidad no lineal
  • Geometría de distancia
  • Determinante de Cayley-Menger
  • Mapeo de Sammon

Referencias [ editar ]

  1. ^ Mead, A (1992). "Revisión del desarrollo de métodos de escalamiento multidimensional". Revista de la Royal Statistical Society. Serie D (El estadístico) . 41 (1): 27–39. JSTOR  234863 . Abstracto. Los métodos de escalado multidimensional son ahora una herramienta estadística común en psicofísica y análisis sensorial. El desarrollo de estos métodos se grafica a partir de la investigación original de Torgerson (escala métrica), Shepard y Kruskal (escala no métrica) a través de la escala de diferencias individuales y los métodos de máxima verosimilitud propuestos por Ramsay.
  2. ^ a b Borg, I .; Groenen, P. (2005). Escalado multidimensional moderno: teoría y aplicaciones (2ª ed.). Nueva York: Springer-Verlag. págs. 207–212. ISBN 978-0-387-94845-4.
  3. ^ Wickelmaier, Florian. "Una introducción a MDS". Unidad de Investigación de Calidad del Sonido, Universidad de Aalborg, Dinamarca (2003): 46
  4. ^ Bronstein AM, Bronstein MM, Kimmel R (enero de 2006). "Escalado multidimensional generalizado: un marco para la coincidencia de superficie parcial invariante de isometría" . Proc. Natl. Acad. Sci. USA . 103 (5): 1168–72. Código Bibliográfico : 2006PNAS..103.1168B . doi : 10.1073 / pnas.0508601103 . PMC 1360551 . PMID 16432211 .  
  5. ^ Kruskal, JB y Wish, M. (1978), escala multidimensional , serie de documentos de la Universidad de Sage sobre aplicación cuantitativa en las ciencias sociales, 07-011. Beverly Hills y Londres: Publicaciones Sage.
  6. Kruskal, JB (1964). "Escalado multidimensional optimizando la bondad de ajuste a una hipótesis no métrica". Psychometrika . 29 (1): 1–27. doi : 10.1007 / BF02289565 .

Bibliografía [ editar ]

  • Cox, TF; Cox, MAA (2001). Escala multidimensional . Chapman y Hall.
  • Coxon, Anthony PM (1982). La guía del usuario para el escalado multidimensional. Con especial referencia a la biblioteca de programas informáticos MDS (X) . Londres: Heinemann Educational Books.
  • Green, P. (enero de 1975). "Aplicaciones de marketing de MDS: evaluación y perspectivas". Revista de marketing . 39 (1): 24–31. doi : 10.2307 / 1250799 . JSTOR  1250799 .
  • McCune, B. y Grace, JB (2002). Análisis de comunidades ecológicas . Oregon, Gleneden Beach: Diseño de software MjM. ISBN 978-0-9721290-0-8.
  • Joven, Forrest W. (1987). Escalado multidimensional: historia, teoría y aplicaciones . Lawrence Erlbaum Associates. ISBN 978-0898596632.
  • Torgerson, Warren S. (1958). Teoría y métodos de escalado . Nueva York: Wiley. ISBN 978-0-89874-722-5.