Los biplots son un tipo de gráfico exploratorio utilizado en estadística , una generalización del diagrama de dispersión simple de dos variables . Un biplot permite que la información sobre muestras y variables de una matriz de datos se muestre gráficamente. Las muestras se muestran como puntos, mientras que las variables se muestran como vectores, ejes lineales o trayectorias no lineales. En el caso de variables categóricas, los puntos de nivel de categoría pueden usarse para representar los niveles de una variable categórica. Un biplot generalizado muestra información sobre variables continuas y categóricas.
Introducción e historia
El biplot fue introducido por K. Ruben Gabriel (1971). [1] Gower y Hand (1996) escribieron una monografía sobre biplots. Yan y Kang (2003) describieron varios métodos que se pueden utilizar para visualizar e interpretar un biplot. El libro de Greenacre (2010) [2] es una guía práctica orientada al usuario sobre biplots, junto con scripts en el lenguaje de programación R de código abierto , para generar biplots asociados con análisis de componentes principales (PCA), escalamiento multidimensional (MDS), análisis log-ratio (LRA), también conocido como mapeo espectral [3] [4] - análisis discriminante (DA) y varias formas de análisis de correspondencia : análisis de correspondencia simple (CA), análisis de correspondencia múltiple (MCA) y análisis de correspondencia canónica ( CCA) (Greenacre 2016 [5] ). El libro de Gower, Lubbe y le Roux (2011) tiene como objetivo popularizar los biplots como un método útil y confiable para la visualización de datos multivariados cuando los investigadores quieren considerar, por ejemplo, el análisis de componentes principales (PCA), el análisis de variables canónicas (CVA). o varios tipos de análisis de correspondencia.
Construcción
Un biplot se construye usando la descomposición de valor singular (SVD) para obtener una aproximación de rango bajo a una versión transformada de la matriz de datos X , cuyas n filas son las muestras (también llamadas casos u objetos), y cuyas p columnas son las variables. La matriz de datos transformada Y se obtiene de la matriz X original al centrar y, opcionalmente, estandarizar las columnas (las variables). Usando la SVD, podemos escribir Y = ∑ k = 1, ... p d k u k v k T ;, donde u k son vectores de columna n- dimensionales, v k son vectores de columna p -dimensionales, y el d k son una secuencia no creciente de escalares no negativos . El biplot se forma a partir de dos diagramas de dispersión que comparten un conjunto común de ejes y tienen una interpretación de producto escalar entre conjuntos . La primera gráfica de dispersión se forma a partir de los puntos ( d 1 α u 1 i , d 2 α u 2 i ), para i = 1, ..., n . La segunda gráfica se forma a partir de los puntos ( d 1 1 − α v 1 j , d 2 1 − α v 2 j ), para j = 1, ..., p . Este es el biplot formado por los dos términos dominantes de la SVD, que luego se pueden representar en una pantalla bidimensional. Las opciones típicas de α son 1 (para dar una interpretación de la distancia a la visualización de la fila) y 0 (para dar una interpretación de la distancia a la visualización de la columna), y en algunos casos raros α = 1/2 para obtener un biplot simétricamente escalado (que da sin interpretación de la distancia a las filas o columnas, sino solo la interpretación del producto escalar). El conjunto de puntos que representan las variables se puede dibujar como flechas desde el origen para reforzar la idea de que representan ejes biplot sobre los que se pueden proyectar las muestras para aproximar los datos originales.
Referencias
- ^ «Gabriel, KR (1971). La visualización gráfica biplot de matrices con aplicación al análisis de componentes principales. Biometrika , 58 (3), 453–467.
- ^ Greenacre, M. (2010). Biplots en la práctica . Fundación BBVA, Bilbao, España. Disponible de forma gratuita en http://www.multivariatestatistics.org
- ^ Lewi, Paul J. (2005). "Mapeo espectral, un relato personal e histórico de una aventura en el análisis de datos multivariados". Quimiometría y sistemas de laboratorio inteligentes . 77 (1–2): 215–223. doi : 10.1016 / j.chemolab.2004.07.010 .
- ^ David Livingstone (2009). Una guía práctica para el análisis de datos científicos. Chichester, John Wiley & Sons Ltd, 233-238. ISBN 978-0-470-85153-1
- ^ Greenacre, M. (2016) Análisis de correspondencia en la práctica. Tercera edición . Chapman y Hall / CRC Press. ISBN 978-84-923846-8-6
Fuentes
- Gabriel, KR (1971). "La presentación gráfica biplot de matrices con aplicación al análisis de componentes principales". Biometrika . 58 (3): 453–467. doi : 10.1093 / biomet / 58.3.453 .
- Gower, JC, Lubbe, S. y le Roux, N. (2010). Entendiendo Biplots . Wiley . ISBN 978-0-470-01255-0
- Gower, JC y Hand, DJ (1996). Biplots . Chapman & Hall , Londres, Reino Unido. ISBN 0-412-71630-5
- Yan, W. y Kang, MS (2003). Análisis Biplot GGE . CRC Press , Boca Raton, Florida. ISBN 0-8493-1338-4
- Demey, JR, Vicente-Villardón, JL, Galindo-Villardón, MP y Zambrano, AY (2008). Identificación de marcadores moleculares asociados con la clasificación de genotipos por Biplots Logísticos Externos . Bioinformática . 24 (24): 2832–2838