Coincidencia óptima

La coincidencia óptima es un método de análisis de secuencia utilizado en las ciencias sociales para evaluar la disimilitud de matrices ordenadas de tokens que generalmente representan una secuencia ordenada en el tiempo de estados socioeconómicos que dos individuos han experimentado. Una vez que se han calculado dichas distancias para un conjunto de observaciones (por ejemplo, individuos en una cohorte ), se pueden utilizar herramientas clásicas (como el análisis de conglomerados ). El método se adaptó a las ciencias sociales ^{[1] a} partir de una técnica introducida originalmente para estudiar secuencias de biología molecular (proteína o genética) (ver alineación de secuencias ). La coincidencia óptima utiliza el algoritmo Needleman-Wunsch .

Algoritmo

Dejar ${\ Displaystyle S = (s_ {1}, s_ {2}, s_ {3}, \ ldots s_ {T})}$ ser una secuencia de estados ${\ Displaystyle s_ {i}}$ pertenecientes a un conjunto finito de estados posibles. Denotemos ${\ Displaystyle {\ mathbf {S}}}$ el espacio de secuencia, es decir, el conjunto de todas las posibles secuencias de estados.

Los algoritmos de coincidencia óptimos funcionan definiendo álgebras de operadores simples que manipulan secuencias, es decir, un conjunto de operadores ${\ Displaystyle a_ {i}: {\ mathbf {S}} \ rightarrow {\ mathbf {S}}}$ . En el enfoque más simple, se usa un conjunto compuesto por solo tres operaciones básicas para transformar secuencias:

un estado ${\ Displaystyle s}$ se inserta en la secuencia ${\ Displaystyle a_ {s '} ^ {\ rm {Ins}} (s_ {1}, s_ {2}, s_ {3}, \ ldots s_ {T}) = (s_ {1}, s_ {2} , s_ {3}, \ ldots, s ', \ ldots s_ {T})}$
un estado se elimina de la secuencia ${\ Displaystyle a_ {s_ {2}} ^ {\ rm {Del}} (s_ {1}, s_ {2}, s_ {3}, \ ldots s_ {T}) = (s_ {1}, s_ { 3}, \ ldots s_ {T})}$ y
un estado ${\ Displaystyle s_ {1}}$ es reemplazado (sustituido) por el estado ${\ displaystyle s '_ {1}}$ , ${\ Displaystyle a_ {s_ {1}, s '_ {1}} ^ {\ rm {Sub}} (s_ {1}, s_ {2}, s_ {3}, \ ldots s_ {T}) = ( s '_ {1}, s_ {2}, s_ {3}, \ ldots s_ {T})}$ .

Imagina ahora que un costo ${\ Displaystyle c (a_ {i}) \ in {\ mathbf {R}} _ {0} ^ {+}}$ está asociado a cada operador. Dadas dos secuencias ${\ Displaystyle S_ {1}}$ y ${\ Displaystyle S_ {2}}$ , la idea es medir el costo de obtener ${\ Displaystyle S_ {2}}$ de ${\ Displaystyle S_ {1}}$ usando operadores del álgebra. Dejar ${\ Displaystyle A = {a_ {1}, a_ {2}, \ ldots a_ {n}}}$ ser una secuencia de operadores tal que la aplicación de todos los operadores de esta secuencia ${\ Displaystyle A}$ a la primera secuencia ${\ Displaystyle S_ {1}}$ da la segunda secuencia ${\ Displaystyle S_ {2}}$ : ${\ Displaystyle S_ {2} = a_ {1} \ circ a_ {2} \ circ \ ldots \ circ a_ {n} (S_ {1})}$ dónde ${\ Displaystyle a_ {1} \ circ a_ {2}}$ denota el operador compuesto. A este conjunto asociamos el costo ${\ Displaystyle c (A) = \ sum _ {i = 1} ^ {n} c (a_ {i})}$ , que representa el costo total de la transformación. En este punto, se debe considerar que pueden existir diferentes secuencias de este tipo. ${\ Displaystyle A}$ que transforman ${\ Displaystyle S_ {1}}$ dentro ${\ Displaystyle S_ {2}}$ ; una opción razonable es seleccionar la más barata de estas secuencias. Por eso llamamos distancia
${\ Displaystyle d (S_ {1}, S_ {2}) = \ min _ {A} \ left \ {c (A) ~ {\ rm {tal ~ que}} ~ S_ {2} = A (S_ { 1}) \ derecha \}}$
es decir, el costo del conjunto menos costoso de transformaciones que se vuelven ${\ Displaystyle S_ {1}}$ dentro ${\ Displaystyle S_ {2}}$ . Darse cuenta de ${\ Displaystyle d (S_ {1}, S_ {2})}$ es por definición no negativo ya que es la suma de los costos positivos, y trivialmente ${\ Displaystyle d (S_ {1}, S_ {2}) = 0}$ si y solo si ${\ Displaystyle S_ {1} = S_ {2}}$ , eso es no hay costo. La función de distancia es simétrica si los costos de inserción y eliminación son iguales ${\ Displaystyle c (a ^ {\ rm {Ins}}) = c (a ^ {\ rm {Del}})}$ ; el término costo indel generalmente se refiere al costo común de inserción y eliminación.

Considerando un conjunto compuesto únicamente por las tres operaciones básicas descritas anteriormente, esta medida de proximidad satisface la desigualdad triangular. Sin embargo, la transitividad depende de la definición del conjunto de operaciones elementales.

Crítica

Aunque las técnicas de emparejamiento óptimas se utilizan ampliamente en sociología y demografía, estas técnicas también tienen sus defectos. Como han señalado varios autores (por ejemplo LL Wu ^[2] ), el principal problema en la aplicación del emparejamiento óptimo es definir adecuadamente los costos ${\ Displaystyle c (a_ {i})}$ .

Coincidencia óptima en el modelado causal

El emparejamiento óptimo también es un término utilizado en el modelado estadístico de efectos causales . En este contexto, se refiere a emparejar "casos" con "controles", y está completamente separado del sentido analítico de secuencia.

Software

TDA es un programa poderoso que ofrece acceso a algunos de los últimos desarrollos en el análisis de datos de transición.
STATA ha implementado un paquete para ejecutar un análisis de coincidencia óptimo.
TraMineR es un paquete R de código abierto para analizar y visualizar estados y secuencias de eventos, incluido un análisis de coincidencia óptimo.

Referencias y notas

^ A. Abbott y A. Tsay, (2000) Análisis de secuencia y métodos de emparejamiento óptimos en sociología: revisión y análisis de métodos e investigación sociológicos], vol. 29, 3-33. doi : 10.1177 / 0049124100029001001
^ LL Wu. (2000) Algunos comentarios sobre "Análisis de secuencia y métodos de emparejamiento óptimos en sociología: revisión y perspectiva" Archivado el 24 de octubre de 2006 en Wayback Machine Sociological Methods & Research, 29 41-64. doi : 10.1177 / 0049124100029001003

[1] A. Abbott y A. Tsay, (2000) Análisis de secuencia y métodos de emparejamiento óptimos en sociología: revisión y análisis de métodos e investigación sociológicos], vol. 29, 3-33. doi : 10.1177 / 0049124100029001001

[2] LL Wu. (2000) Algunos comentarios sobre "Análisis de secuencia y métodos de emparejamiento óptimos en sociología: revisión y perspectiva" Archivado el 24 de octubre de 2006 en Wayback Machine Sociological Methods & Research, 29 41-64. doi : 10.1177 / 0049124100029001003

[1] a