En estadística , una entropía aproximada ( ApEn ) es una técnica utilizada para cuantificar la cantidad de regularidad y la imprevisibilidad de las fluctuaciones en los datos de series de tiempo . [1]
Por ejemplo, hay dos series de datos:
- serie 1: (10,20,10,20,10,20,10,20,10,20,10,20 ...), que alterna 10 y 20.
- serie 2: (10,10,20,10,20,20,20,10,10,20,10,20,20 ...), que tiene un valor de 10 o 20, elegido al azar, cada uno con probabilidad 1/2.
Las estadísticas de momento , como la media y la varianza , no distinguirán entre estas dos series. Las estadísticas de orden de clasificación tampoco distinguirán entre estas series. Sin embargo, la serie 1 es "perfectamente regular"; saber que un término tiene el valor de 20 permite predecir con certeza que el siguiente término tendrá el valor de 10. La serie 2 se valora aleatoriamente; saber que un término tiene el valor de 20 no da una idea del valor que tendrá el siguiente término.
La regularidad se midió originalmente mediante estadísticas de regularidad exactas, que se han centrado principalmente en varias medidas de entropía. [1] Sin embargo, el cálculo preciso de la entropía requiere grandes cantidades de datos y los resultados se verán muy influenciados por el ruido del sistema, [2] por lo que no es práctico aplicar estos métodos a datos experimentales. ApEn fue desarrollado por Steve M. Pincus para manejar estas limitaciones modificando una estadística de regularidad exacta, la entropía de Kolmogorov-Sinai . ApEn se desarrolló inicialmente para analizar datos médicos, como la frecuencia cardíaca, [1] y luego difundió sus aplicaciones en finanzas , [3] fisiología , [4] ingeniería de factores humanos , [5] y ciencias del clima. [6]
El algoritmo
Un tutorial completo paso a paso con una explicación de los fundamentos teóricos de la Entropía Aproximada está disponible en: [7]
- Paso 1
- Forme una serie temporal de datos . Estos son N valores de datos brutos de mediciones igualmente espaciadas en el tiempo.
- Paso 2
- Fix m , un número entero , y r , un positivo número real . El valor de m representa la longitud de la ejecución comparada de datos y r especifica un nivel de filtrado.
- Paso 3
- Formar una secuencia de vectores , , en , verdadero -espacio dimensional definido por .
- Paso 4
- Usa la secuencia , para construir, para cada i ,
- en el cual Se define como
- La son los m componentes escalares de . d representa la distancia entre los vectores y , dada por la diferencia máxima en sus respectivos componentes escalares. Tenga en cuenta que toma todos los valores, por lo que la coincidencia proporcionada cuando se contará (la subsecuencia se compara con sí misma).
- Paso 5
- Definir
- ,
- Paso 6
- Definir entropía aproximada como
- dónde es el logaritmo natural, para m y r fijo como en el paso 2.
- Selección de parámetros
- normalmente elige o , yr depende en gran medida de la aplicación.
Una implementación en Physionet, [8] que se basa en Pincus [2] uso mientras que el artículo original usa en el Paso 4. Si bien es una preocupación por los ejemplos construidos artificialmente, por lo general no es una preocupación en la práctica.
La interpretación
La presencia de patrones repetitivos de fluctuación en una serie de tiempo la hace más predecible que una serie de tiempo en la que tales patrones están ausentes. ApEn refleja la probabilidad de que patrones similares de observaciones no sean seguidos por observaciones similares adicionales . [9] Una serie de tiempo que contiene muchos patrones repetitivos tiene un ApEn relativamente pequeño; un proceso menos predecible tiene un ApEn más alto.
Un ejemplo
Suponer , y la secuencia consta de 51 muestras de frecuencia cardíaca igualmente espaciadas en el tiempo:
(es decir, la secuencia es periódica con un período de 3). Vamos a escoger y (los valores de y se puede variar sin afectar el resultado).
Forme una secuencia de vectores:
- ...
La distancia se calcula de la siguiente manera:
Nota , entonces
Similar,
Por lo tanto, tal que incluir y el número total es 17.
Tenga en cuenta en el paso 4, para , . Entonces el tal que incluir y el número total es 16.
Luego repetimos los pasos anteriores para m = 3. Primero forma una secuencia de vectores:
- ...
Calculando distancias entre vectores , encontramos que los vectores que satisfacen el nivel de filtrado tienen la siguiente característica:
Por lo tanto,
Finalmente,
El valor es muy pequeño, por lo que implica que la secuencia es regular y predecible, lo cual es consistente con la observación.
Implementación de Python
importar numpy como npdef ApEn ( U , m , r ) -> float : "" "Aproximada_entropía." "" def _maxdist ( x_i , x_j ): return max ([ abs ( ua - va ) para ua , va en zip ( x_i , x_j )]) def _phi ( m ): x = [[ U [ j ] para j en rango ( i , i + m - 1 + 1 )] para i en rango ( N - m + 1 )] C = [ len ([ 1 para x_j en x si _maxdist ( x_i , x_j ) <= r ]) / ( N - m + 1.0 ) para x_i en x ] return ( N - m + 1.0 ) ** ( - 1 ) * suma ( np . log ( C )) N = len ( U ) devolver abs ( _phi ( m + 1 ) - _phi ( m ))# Ejemplo de uso U = np . matriz ([ 85 , 80 , 89 ] * 17 ) imprimir ( ApEn ( U , 2 , 3 )) 1.0996541105257052e-05randU = np . al azar . elección ([ 85 , 80 , 89 ], tamaño = 17 * 3 ) imprimir ( ApEn ( randU , 2 , 3 )) 0.8626664154888908
Ventajas
Las ventajas de ApEn incluyen: [2]
- Menor demanda computacional. ApEn se puede diseñar para trabajar con muestras de datos pequeñas (n <50 puntos) y se puede aplicar en tiempo real.
- Menor efecto del ruido. Si los datos son ruidosos, la medida de ApEn se puede comparar con el nivel de ruido en los datos para determinar qué calidad de información verdadera puede estar presente en los datos.
Aplicaciones
ApEn se ha aplicado para clasificar EEG en enfermedades psiquiátricas, como esquizofrenia, [10] epilepsia, [11] y adicción. [12]
Limitaciones
El algoritmo ApEn cuenta cada secuencia como coincidente con ella misma para evitar la aparición de ln (0) en los cálculos. Este paso puede causar un sesgo de ApEn y este sesgo hace que ApEn tenga dos propiedades deficientes en la práctica: [13]
- ApEn depende en gran medida de la longitud del registro y es uniformemente más bajo de lo esperado para registros cortos.
- Carece de relativa consistencia. Es decir, si ApEn de un conjunto de datos es más alto que el de otro, debería permanecer más alto, pero no lo es, para todas las condiciones probadas.
Ver también
Referencias
- ^ a b c Pincus, SM; Gladstone, MI; Ehrenkranz, RA (1991). "Una estadística de regularidad para el análisis de datos médicos". Revista de monitorización clínica y computación . 7 (4): 335–345. doi : 10.1007 / BF01619355 . PMID 1744678 .
- ^ a b c Pincus, SM (1991). "Entropía aproximada como medida de la complejidad del sistema" . Actas de la Academia Nacional de Ciencias . 88 (6): 2297–2301. doi : 10.1073 / pnas.88.6.2297 . PMC 51218 . PMID 11607165 .
- ^ Pincus, SM; Kalman, EK (2004). "Irregularidad, volatilidad, riesgo y series de tiempo del mercado financiero" . Actas de la Academia Nacional de Ciencias . 101 (38): 13709-13714. doi : 10.1073 / pnas.0405168101 . PMC 518821 . PMID 15358860 .
- ^ Pincus, SM; Goldberger, AL (1994). "Análisis fisiológico de series de tiempo: ¿qué cuantifica la regularidad?". La Revista Estadounidense de Fisiología . 266 (4): 1643–1656. doi : 10.1152 / ajpheart.1994.266.4.H1643 . PMID 8184944 . S2CID 362684 .
- ^ McKinley, RA; McIntire, LK; Schmidt, R; Repperger, DW; Caldwell, JA (2011). "Evaluación de la métrica ocular como detector de fatiga". Factores humanos . 53 (4): 403–414. doi : 10.1177 / 0018720811411297 . PMID 21901937 .
- ^ Delgado-Bonal, Alfonso; Marshak, Alexander; Yang, Yuekui; Holdaway, Daniel (22 de enero de 2020). "Analizando los cambios en la complejidad del clima en las últimas cuatro décadas utilizando datos de radiación MERRA-2" . Informes científicos . 10 (1): 922. doi : 10.1038 / s41598-020-57917-8 . ISSN 2045-2322 . PMC 6976651 . PMID 31969616 .
- ^ Delgado-Bonal, Alfonso; Marshak, Alexander (junio de 2019). "Entropía aproximada y muestra de entropía: un tutorial completo" . Entropía . 21 (6): 541. doi : 10.3390 / e21060541 . PMC 7515030 . PMID 33267255 .
- ^ [1]
- ^ Ho, KK; Moody, GB; Peng, CK; Mietus, JE; Larson, MG; tasa, D; Goldberger, AL (1997). "Predicción de la supervivencia en sujetos de casos y controles de insuficiencia cardíaca mediante el uso de métodos totalmente automatizados para derivar índices no lineales y convencionales de la dinámica de la frecuencia cardíaca". Circulación . 96 (3): 842–848. doi : 10.1161 / 01.cir.96.3.842 . PMID 9264491 .
- ^ Sabeti, Malihe (2009). "Medidas de entropía y complejidad para la clasificación de señales EEG de participantes esquizofrénicos y de control". Inteligencia artificial en Medicina . 47 (3): 263-274. doi : 10.1016 / j.artmed.2009.03.003 . PMID 19403281 .
- ^ Yuan, Qi (2011). "Clasificación EEG epiléptica basada en máquina de aprendizaje extrema y características no lineales". Investigación sobre la epilepsia . 96 (1–2): 29–38. doi : 10.1016 / j.eplepsyres.2011.04.013 . PMID 21616643 .
- ^ Yun, Kyongsik (2012). "Disminución de la complejidad cortical en consumidores de metanfetamina". Investigación en psiquiatría: neuroimagen . 201 (3): 226–32. doi : 10.1016 / j.pscychresns.2011.07.009 . PMID 22445216 .
- ^ Richman, JS; Moorman, JR (2000). "Análisis fisiológico de series de tiempo utilizando entropía aproximada y entropía de muestra". Revista estadounidense de fisiología. Fisiología cardíaca y circulatoria . 278 (6): 2039–2049. doi : 10.1152 / ajpheart.2000.278.6.H2039 . PMID 10843903 .