En estadística , los datos de composición son descripciones cuantitativas de las partes de algún todo, que transmiten información relativa. Matemáticamente, los datos de composición se representan mediante puntos en un símplex . Las mediciones que involucran probabilidades, proporciones, porcentajes y ppm pueden considerarse como datos de composición.
Parcela ternaria
Los datos de composición en tres variables se pueden representar mediante gráficos ternarios . El uso de un diagrama baricéntrico en tres variables representa gráficamente las proporciones de las tres variables como posiciones en un triángulo equilátero .
Espacio muestral simple
En general, John Aitchison definió los datos de composición como proporciones de un todo en 1982. [1] En particular, un punto de datos de composición (o composición para abreviar) puede representarse mediante un vector real con componentes positivos. El espacio muestral de los datos composicionales es simplex:
La única información viene dada por las relaciones entre componentes, por lo que la información de una composición se conserva al multiplicar por cualquier constante positiva. Por lo tanto, siempre se puede suponer que el espacio muestral de los datos de composición es un simplex estándar, es decir. En este contexto, la normalización al simplex estándar se llama cierre y se denota por:
donde D es el número de partes (componentes) y denota un vector de fila.
Geometría de Aitchison
Al simplex se le puede dar la estructura de un espacio vectorial real de varias formas diferentes. La siguiente estructura de espacio vectorial se llama geometría de Aitchison o simplex de Aitchison y tiene las siguientes operaciones:
- Perturbación
- Alimentando
- Producto Interno
Solo bajo estas operaciones, es suficiente mostrar que el Aitchison simplex forma un -espacio vectorial euclidiano dimensional.
Bases ortonormales
Dado que el simplex de Aitchison forma un espacio de Hilbert de dimensión finita, es posible construir bases ortonormales en el símplex. Cada composicion se puede descomponer de la siguiente manera
dónde forma una base ortonormal en el simplex. [2] Los valores son las coordenadas (ortonormales y cartesianas) de con respecto a la base dada. Se llaman coordenadas de razón logarítmica isométrica..
Transformaciones lineales
Hay tres isomorfismos bien caracterizados que se transforman del Aitchison simplex al espacio real. Todas estas transformaciones satisfacen la linealidad y como se indica a continuación
Transformada de logratio aditiva
La transformada de la relación logarítmica aditiva (alr) es un isomorfismo donde . Esto viene dado por
La elección del componente denominador es arbitraria y podría ser cualquier componente especificado. Esta transformada se usa comúnmente en química con medidas como el pH. Además, esta es la transformada más utilizada para la regresión logística multinomial . La transformada alr no es una isometría, lo que significa que las distancias en los valores transformados no serán equivalentes a las distancias en las composiciones originales en el simplex.
Transformación de logratio central
La transformada de razón logarítmica central (clr) es tanto un isomorfismo como una isometría donde
Dónde es la media geométrica de . La inversa de esta función también se conoce como función softmax .
Transformada de logratio isométrica
La transformada de razón logarítmica isométrica (ilr) es tanto un isomorfismo como una isometría donde
Hay varias formas de construir bases ortonormales, incluido el uso de la ortogonalización de Gram-Schmidt o la descomposición de valores singulares de datos transformados con clr. Otra alternativa es construir contrastes logarítmicos a partir de un árbol bifurcado. Si nos dan un árbol bifurcado, podemos construir una base a partir de los nodos internos del árbol.
Cada vector en la base se determinaría de la siguiente manera
Los elementos dentro de cada vector se dan de la siguiente manera
dónde son el número respectivo de puntas en los subárboles correspondientes que se muestran en la figura. Se puede demostrar que la base resultante es ortonormal [3]
Una vez que la base se construye, la transformada ilr se puede calcular de la siguiente manera
donde cada elemento en los datos transformados ilr tiene la siguiente forma
dónde y son el conjunto de valores correspondientes a las puntas en los subárboles y
Ejemplos de
- En química , las composiciones se pueden expresar como concentraciones molares de cada componente. Como no se determina la suma de todas las concentraciones, se necesita toda la composición de D partes y, por tanto, se expresa como un vector de D concentraciones molares. Estas composiciones pueden traducirse en porcentaje en peso multiplicando cada componente por la constante apropiada.
- En demografía , una ciudad puede ser un punto de datos de composición en una muestra de ciudades; un pueblo en el que el 35% de la población son cristianos, el 55% son musulmanes, el 6% son judíos, y el 4% restante son otros correspondería al cuádruple [0,35, 0,55, 0,06, 0,04]. Un conjunto de datos correspondería a una lista de ciudades.
- En geología , una roca compuesta de diferentes minerales puede ser un punto de datos de composición en una muestra de rocas; una roca de la cual el 10% es el primer mineral, el 30% es el segundo, y el 60% restante es el tercero correspondería al triple [0.1, 0.3, 0.6]. Un conjunto de datos contendría uno de esos triples para cada roca en una muestra de rocas.
- En la secuenciación de alto rendimiento , los datos obtenidos se transforman típicamente en abundancias relativas, lo que los convierte en composicionales.
- En probabilidad y estadística , las probabilidades asignadas a dichos eventos describen una partición del espacio muestral en eventos inconexos. El vector de probabilidades D se puede considerar como una composición de D partes. A medida que se suman a uno, se puede suprimir una probabilidad y la composición se determina por completo.
- En una encuesta , las proporciones de personas que respondieron positivamente a algunos elementos diferentes se pueden expresar como porcentajes. Como la cantidad total se identifica como 100, el vector de composición de los componentes D se puede definir utilizando solo los componentes D - 1, asumiendo que el componente restante es el porcentaje necesario para que el vector completo se sume a 100.
Ver también
Notas
- ^ Aitchison, John (1982). "El análisis estadístico de datos composicionales". Revista de la Royal Statistical Society. Serie B (Metodológica) . 44 (2): 139-177. doi : 10.1111 / j.2517-6161.1982.tb01195.x .
- ^ Egozcue y col.
- ^ Egozcue y Pawlowsky-Glahn 2005
Referencias
- Aitchison, J. (2011) [1986], The Statistical Analysis of Compositional Data , Monografías sobre estadística y probabilidad aplicada, Springer, ISBN 978-94-010-8324-9
- van den Boogaart, K. Gerald; Tolosana-Delgado, Raimon (2013), Análisis de datos composicionales con R , Springer, ISBN 978-3-642-36809-7
- Egozcue, Juan José; Pawlowsky-Glahn, Vera; Mateu-Figueras, Gloria; Barcelo-Vidal, Carles (2003), "Transformaciones de logratio isométrica para el análisis de datos composicionales", Geología matemática , 35 (3): 279–300, doi : 10.1023 / A: 1023818214614 , S2CID 122844634
- Egozcue, Juan José; Pawlowsky-Glahn, Vera (2005), "Grupos de partes y sus equilibrios en el análisis de datos composicionales", Geología matemática , 37 (7): 795–828, doi : 10.1007 / s11004-005-7381-9 , S2CID 53061345
- Pawlowsky-Glahn, Vera ; Egozcue, Juan José; Tolosana-Delgado, Raimon (2015), Modelización y análisis de datos composicionales , Wiley, doi : 10.1002 / 9781119003144 , ISBN 9781119003144
enlaces externos
- CoDaWeb - Sitio web de datos de composición
- Pawlowsky-Glahn, V .; Egozcue, JJ; Tolosana-Delgado, R. (2007). "Notas de la conferencia sobre análisis de datos composicionales". hdl : 10256/297 . Cite journal requiere
|journal=
( ayuda ) - Por qué y cómo deberían los geólogos utilizar el análisis de datos composicionales (wikilibro)