La coincidencia óptima es un método de análisis de secuencia utilizado en las ciencias sociales para evaluar la disimilitud de matrices ordenadas de tokens que generalmente representan una secuencia ordenada en el tiempo de estados socioeconómicos que dos individuos han experimentado. Una vez que se han calculado dichas distancias para un conjunto de observaciones (por ejemplo, individuos en una cohorte ), se pueden utilizar herramientas clásicas (como el análisis de conglomerados ). El método se adaptó a las ciencias sociales [1] a partir de una técnica introducida originalmente para estudiar secuencias de biología molecular (proteína o genética) (ver alineación de secuencias ). La coincidencia óptima utiliza el algoritmo Needleman-Wunsch .
Algoritmo
Dejar ser una secuencia de estados pertenecientes a un conjunto finito de estados posibles. Denotemos el espacio de secuencia, es decir, el conjunto de todas las posibles secuencias de estados.
Los algoritmos de coincidencia óptimos funcionan definiendo álgebras de operadores simples que manipulan secuencias, es decir, un conjunto de operadores. En el enfoque más simple, se usa un conjunto compuesto por solo tres operaciones básicas para transformar secuencias:
- un estado se inserta en la secuencia
- un estado se elimina de la secuencia y
- un estado es reemplazado (sustituido) por el estado , .
Imagina ahora que un costo está asociado a cada operador. Dadas dos secuencias y , la idea es medir el costo de obtener de usando operadores del álgebra. Dejar ser una secuencia de operadores tal que la aplicación de todos los operadores de esta secuencia a la primera secuencia da la segunda secuencia : dónde denota el operador compuesto. A este conjunto asociamos el costo, que representa el costo total de la transformación. En este punto, se debe considerar que pueden existir diferentes secuencias de este tipo. que transforman dentro ; una opción razonable es seleccionar la más barata de estas secuencias. Por eso llamamos distancia
es decir, el costo del conjunto menos costoso de transformaciones que se vuelven dentro . Darse cuenta de es por definición no negativo ya que es la suma de los costos positivos, y trivialmente si y solo si , eso es no hay costo. La función de distancia es simétrica si los costos de inserción y eliminación son iguales; el término costo indel generalmente se refiere al costo común de inserción y eliminación.
Considerando un conjunto compuesto únicamente por las tres operaciones básicas descritas anteriormente, esta medida de proximidad satisface la desigualdad triangular. Sin embargo, la transitividad depende de la definición del conjunto de operaciones elementales.
Crítica
Aunque las técnicas de emparejamiento óptimas se utilizan ampliamente en sociología y demografía, estas técnicas también tienen sus defectos. Como han señalado varios autores (por ejemplo LL Wu [2] ), el principal problema en la aplicación del emparejamiento óptimo es definir adecuadamente los costos.
Coincidencia óptima en el modelado causal
El emparejamiento óptimo también es un término utilizado en el modelado estadístico de efectos causales . En este contexto, se refiere a emparejar "casos" con "controles", y está completamente separado del sentido analítico de secuencia.
Software
- TDA es un programa poderoso que ofrece acceso a algunos de los últimos desarrollos en el análisis de datos de transición.
- STATA ha implementado un paquete para ejecutar un análisis de coincidencia óptimo.
- TraMineR es un paquete R de código abierto para analizar y visualizar estados y secuencias de eventos, incluido un análisis de coincidencia óptimo.
Referencias y notas
- ^ A. Abbott y A. Tsay, (2000) Análisis de secuencia y métodos de emparejamiento óptimos en sociología: revisión y análisis de métodos e investigación sociológicos], vol. 29, 3-33. doi : 10.1177 / 0049124100029001001
- ^ LL Wu. (2000) Algunos comentarios sobre "Análisis de secuencia y métodos de emparejamiento óptimos en sociología: revisión y perspectiva" Archivado el 24 de octubre de 2006 en Wayback Machine Sociological Methods & Research, 29 41-64. doi : 10.1177 / 0049124100029001003