Datos composicionales

En estadística , los datos de composición son descripciones cuantitativas de las partes de algún todo, que transmiten información relativa. Matemáticamente, los datos de composición se representan mediante puntos en un símplex . Las mediciones que involucran probabilidades, proporciones, porcentajes y ppm pueden considerarse como datos de composición.

Parcela ternaria

Los datos de composición en tres variables se pueden representar mediante gráficos ternarios . El uso de un diagrama baricéntrico en tres variables representa gráficamente las proporciones de las tres variables como posiciones en un triángulo equilátero .

Espacio muestral simple

En general, John Aitchison definió los datos de composición como proporciones de un todo en 1982. ^[1] En particular, un punto de datos de composición (o composición para abreviar) puede representarse mediante un vector real con componentes positivos. El espacio muestral de los datos composicionales es simplex:

{\ Displaystyle {\ mathcal {S}} ^ {D} = \ left \ {\ mathbf {x} = [x_ {1}, x_ {2}, \ dots, x_ {D}] \ in \ mathbb {R } ^ {D} \, \ left | \, x_ {i}> 0, i = 1,2, \ dots, D; \ sum _ {i = 1} ^ {D} x_ {i} = \ kappa \ bien bien\}.\ }

Una ilustración del simplex de Aitchison. Aquí, hay 3 partes,

{\ Displaystyle x_ {1}, x_ {2}, x_ {3}}

representan valores de diferentes proporciones. A, B, C, D y E son 5 composiciones diferentes dentro del simplex. A, B y C son todos equivalentes y D y E son equivalentes.

La única información viene dada por las relaciones entre componentes, por lo que la información de una composición se conserva al multiplicar por cualquier constante positiva. Por lo tanto, siempre se puede suponer que el espacio muestral de los datos de composición es un simplex estándar, es decir ${\ Displaystyle \ kappa = 1}$ . En este contexto, la normalización al simplex estándar se llama cierre y se denota por ${\ Displaystyle \ scriptstyle {\ mathcal {C}} [\, \ cdot \,]}$ :

{\ Displaystyle {\ mathcal {C}} [x_ {1}, x_ {2}, \ dots, x_ {D}] = \ left [{\ frac {x_ {1}} {\ sum _ {i = 1 } ^ {D} x_ {i}}}, {\ frac {x_ {2}} {\ sum _ {i = 1} ^ {D} x_ {i}}}, \ puntos, {\ frac {x_ { D}} {\ sum _ {i = 1} ^ {D} x_ {i}}} \ derecha], \}

donde D es el número de partes (componentes) y ${\ Displaystyle [\ cdot]}$ denota un vector de fila.

Geometría de Aitchison

Al simplex se le puede dar la estructura de un espacio vectorial real de varias formas diferentes. La siguiente estructura de espacio vectorial se llama geometría de Aitchison o simplex de Aitchison y tiene las siguientes operaciones:

Perturbación

{\ Displaystyle x \ oplus y = \ left [{\ frac {x_ {1} y_ {1}} {\ sum _ {i = 1} ^ {D} x_ {i} y_ {i}}}, {\ frac {x_ {2} y_ {2}} {\ sum _ {i = 1} ^ {D} x_ {i} y_ {i}}}, \ dots, {\ frac {x_ {D} y_ {D} } {\ sum _ {i = 1} ^ {D} x_ {i} y_ {i}}} \ right] = C [x_ {1} y_ {1}, \ ldots, x_ {D} y_ {D} ] \ qquad \ forall x, y \ in S ^ {D}}

Alimentando

{\ Displaystyle \ alpha \ odot x = \ left [{\ frac {x_ {1} ^ {\ alpha}} {\ sum _ {i = 1} ^ {D} x_ {i} ^ {\ alpha}}} , {\ frac {x_ {2} ^ {\ alpha}} {\ sum _ {i = 1} ^ {D} x_ {i} ^ {\ alpha}}}, \ ldots, {\ frac {x_ {D } ^ {\ alpha}} {\ sum _ {i = 1} ^ {D} x_ {i} ^ {\ alpha}}} \ right] = C [x_ {1} ^ {\ alpha}, \ ldots, x_ {D} ^ {\ alpha}] \ qquad \ forall x \ in S ^ {D}, \; \ alpha \ in \ mathbb {R}}

Producto Interno

{\ Displaystyle \ langle x, y \ rangle = {\ frac {1} {2D}} \ sum _ {i = 1} ^ {D} \ sum _ {j = 1} ^ {D} \ log {\ frac {x_ {i}} {x_ {j}}} \ log {\ frac {y_ {i}} {y_ {j}}} \ qquad \ forall x, y \ en S ^ {D}}

Solo bajo estas operaciones, es suficiente mostrar que el Aitchison simplex forma un ${\ Displaystyle (D-1)}$ -espacio vectorial euclidiano dimensional.

Bases ortonormales

Dado que el simplex de Aitchison forma un espacio de Hilbert de dimensión finita, es posible construir bases ortonormales en el símplex. Cada composicion ${\ Displaystyle x}$ se puede descomponer de la siguiente manera

{\ Displaystyle x = \ bigoplus _ {i = 1} ^ {D} x_ {i} ^ {*} \ odot e_ {i}}

dónde ${\ Displaystyle e_ {1}, \ ldots, e_ {D-1}}$ forma una base ortonormal en el simplex. ^[2] Los valores ${\ Displaystyle x_ {i} ^ {*}, i = 1,2, \ ldots, D-1}$ son las coordenadas (ortonormales y cartesianas) de ${\ Displaystyle x}$ con respecto a la base dada. Se llaman coordenadas de razón logarítmica isométrica. ${\ Displaystyle (\ operatorname {ilr})}$ .

Transformaciones lineales

Hay tres isomorfismos bien caracterizados que se transforman del Aitchison simplex al espacio real. Todas estas transformaciones satisfacen la linealidad y como se indica a continuación

Transformada de logratio aditiva

La transformada de la relación logarítmica aditiva (alr) es un isomorfismo donde ${\ Displaystyle \ operatorname {alr}: S ^ {D} \ rightarrow \ mathbb {R} ^ {D-1}}$ . Esto viene dado por

{\ Displaystyle \ operatorname {alr} (x) = \ left [\ log {\ frac {x_ {1}} {x_ {D}}} \ cdots \ log {\ frac {x_ {D-1}} {x_ {D}}} \ derecha]}

La elección del componente denominador es arbitraria y podría ser cualquier componente especificado. Esta transformada se usa comúnmente en química con medidas como el pH. Además, esta es la transformada más utilizada para la regresión logística multinomial . La transformada alr no es una isometría, lo que significa que las distancias en los valores transformados no serán equivalentes a las distancias en las composiciones originales en el simplex.

Transformación de logratio central

La transformada de razón logarítmica central (clr) es tanto un isomorfismo como una isometría donde ${\ Displaystyle \ operatorname {clr}: S ^ {D} \ rightarrow U, \ quad U \ subset \ mathbb {R} ^ {D}}$

{\ Displaystyle \ operatorname {clr} (x) = \ left [\ log {\ frac {x_ {1}} {g (x)}} \ cdots \ log {\ frac {x_ {D}} {g (x )}}\derecho]}

Dónde ${\ Displaystyle g (x)}$ es la media geométrica de ${\ Displaystyle x}$ . La inversa de esta función también se conoce como función softmax .

Transformada de logratio isométrica

La transformada de razón logarítmica isométrica (ilr) es tanto un isomorfismo como una isometría donde ${\ Displaystyle \ operatorname {ilr}: S ^ {D} \ rightarrow \ mathbb {R} ^ {D-1}}$

{\ Displaystyle \ operatorname {ilr} (x) = {\ big [} \ langle x, e_ {1} \ rangle, \ ldots, \ langle x, e_ {D-1} \ rangle {\ big]}}

Hay varias formas de construir bases ortonormales, incluido el uso de la ortogonalización de Gram-Schmidt o la descomposición de valores singulares de datos transformados con clr. Otra alternativa es construir contrastes logarítmicos a partir de un árbol bifurcado. Si nos dan un árbol bifurcado, podemos construir una base a partir de los nodos internos del árbol.

Una representación de un árbol en términos de sus componentes ortogonales. l representa un nodo interno, un elemento de la base ortonormal. Este es un precursor del uso del árbol como andamio para la transformación ilr

Cada vector en la base se determinaría de la siguiente manera

{\ Displaystyle e _ {\ ell} = C [\ exp (\, \ underbrace {0, \ ldots, 0} _ {k}, \ underbrace {a, \ ldots, a} _ {r}, \ underbrace {b , \ ldots, b} _ {s}, \ underbrace {0, \ ldots, 0} _ {t} \,)]}

Los elementos dentro de cada vector se dan de la siguiente manera

{\ Displaystyle a = {\ frac {\ sqrt {s}} {\ sqrt {r (r + s)}}} \ quad {\ text {y}} \ quad b = {\ frac {- {\ sqrt { r}}} {\ sqrt {s (r + s)}}}}

dónde ${\ Displaystyle k, r, s, t}$ son el número respectivo de puntas en los subárboles correspondientes que se muestran en la figura. Se puede demostrar que la base resultante es ortonormal ^[3]

Una vez que la base ${\ Displaystyle \ Psi}$ se construye, la transformada ilr se puede calcular de la siguiente manera

{\ Displaystyle \ operatorname {ilr} (x) = \ operatorname {clr} (x) \ Psi ^ {T}}

donde cada elemento en los datos transformados ilr tiene la siguiente forma

{\ Displaystyle b_ {i} = {\ sqrt {\ frac {rs} {r + s}}} \ log {\ frac {g (x_ {R})} {g (x_ {S})}}}

dónde ${\ Displaystyle x_ {R}}$ y ${\ Displaystyle x_ {S}}$ son el conjunto de valores correspondientes a las puntas en los subárboles ${\ Displaystyle R}$ y ${\ Displaystyle S}$

Ejemplos de

En química , las composiciones se pueden expresar como concentraciones molares de cada componente. Como no se determina la suma de todas las concentraciones, se necesita toda la composición de D partes y, por tanto, se expresa como un vector de D concentraciones molares. Estas composiciones pueden traducirse en porcentaje en peso multiplicando cada componente por la constante apropiada.
En demografía , una ciudad puede ser un punto de datos de composición en una muestra de ciudades; un pueblo en el que el 35% de la población son cristianos, el 55% son musulmanes, el 6% son judíos, y el 4% restante son otros correspondería al cuádruple [0,35, 0,55, 0,06, 0,04]. Un conjunto de datos correspondería a una lista de ciudades.
En geología , una roca compuesta de diferentes minerales puede ser un punto de datos de composición en una muestra de rocas; una roca de la cual el 10% es el primer mineral, el 30% es el segundo, y el 60% restante es el tercero correspondería al triple [0.1, 0.3, 0.6]. Un conjunto de datos contendría uno de esos triples para cada roca en una muestra de rocas.
En la secuenciación de alto rendimiento , los datos obtenidos se transforman típicamente en abundancias relativas, lo que los convierte en composicionales.
En probabilidad y estadística , las probabilidades asignadas a dichos eventos describen una partición del espacio muestral en eventos inconexos. El vector de probabilidades D se puede considerar como una composición de D partes. A medida que se suman a uno, se puede suprimir una probabilidad y la composición se determina por completo.
En una encuesta , las proporciones de personas que respondieron positivamente a algunos elementos diferentes se pueden expresar como porcentajes. Como la cantidad total se identifica como 100, el vector de composición de los componentes D se puede definir utilizando solo los componentes D - 1, asumiendo que el componente restante es el porcentaje necesario para que el vector completo se sume a 100.

Ver también

Notas

^ Aitchison, John (1982). "El análisis estadístico de datos composicionales". Revista de la Royal Statistical Society. Serie B (Metodológica) . 44 (2): 139-177. doi : 10.1111 / j.2517-6161.1982.tb01195.x .
^ Egozcue y col.
^ Egozcue y Pawlowsky-Glahn 2005

Referencias

Aitchison, J. (2011) [1986], The Statistical Analysis of Compositional Data , Monografías sobre estadística y probabilidad aplicada, Springer, ISBN 978-94-010-8324-9
van den Boogaart, K. Gerald; Tolosana-Delgado, Raimon (2013), Análisis de datos composicionales con R , Springer, ISBN 978-3-642-36809-7
Egozcue, Juan José; Pawlowsky-Glahn, Vera; Mateu-Figueras, Gloria; Barcelo-Vidal, Carles (2003), "Transformaciones de logratio isométrica para el análisis de datos composicionales", Geología matemática , 35 (3): 279–300, doi : 10.1023 / A: 1023818214614 , S2CID 122844634
Egozcue, Juan José; Pawlowsky-Glahn, Vera (2005), "Grupos de partes y sus equilibrios en el análisis de datos composicionales", Geología matemática , 37 (7): 795–828, doi : 10.1007 / s11004-005-7381-9 , S2CID 53061345
Pawlowsky-Glahn, Vera ; Egozcue, Juan José; Tolosana-Delgado, Raimon (2015), Modelización y análisis de datos composicionales , Wiley, doi : 10.1002 / 9781119003144 , ISBN 9781119003144

enlaces externos

CoDaWeb - Sitio web de datos de composición
Pawlowsky-Glahn, V .; Egozcue, JJ; Tolosana-Delgado, R. (2007). "Notas de la conferencia sobre análisis de datos composicionales". hdl : 10256/297 . Cite journal requiere |journal=( ayuda )
Por qué y cómo deberían los geólogos utilizar el análisis de datos composicionales (wikilibro)

[1] Aitchison, John (1982). "El análisis estadístico de datos composicionales". Revista de la Royal Statistical Society. Serie B (Metodológica) . 44 (2): 139-177. doi : 10.1111 / j.2517-6161.1982.tb01195.x .

[2] Egozcue y col.

[3] Egozcue y Pawlowsky-Glahn 2005

[1]