De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

En estadística y análisis de datos, el software de aplicación CumFreq es una herramienta para el análisis de frecuencia acumulativa de una sola variable y para el ajuste de distribución de probabilidad . [1]

Originalmente, el método se desarrolló para el análisis de mediciones hidrológicas de magnitudes que varían espacialmente (por ejemplo, conductividad hidráulica del suelo) y de magnitudes que varían en el tiempo (por ejemplo, lluvia, descarga de ríos ) para encontrar sus períodos de retorno . Sin embargo, se puede utilizar para muchos otros tipos de fenómenos, incluidos aquellos que contienen valores negativos .

Funciones del software [ editar ]

Serigrafía de la hoja de pestañas de entrada

CumFreq utiliza el enfoque de posición de trazado para estimar la frecuencia acumulada de cada una de las magnitudes observadas en una serie de datos de la variable. [2]

El programa informático permite determinar la distribución de probabilidad que mejor se ajusta . Alternativamente, proporciona al usuario la opción de seleccionar la distribución de probabilidad que se va a ajustar. Los siguientes distribuciones de probabilidad se incluyen: normales , lognormal , logística , loglogistic , exponencial , Cauchy , Fréchet , Gumbel , Pareto , Weibull , generalizada distribución de valor extremo , distribución de Laplace , distribución Burr (Dagum reflejado), distribución Dagum(Burr reflejado), distribución de Gompertz , distribución de Student y otros.

Otra característica de CumFreq es que ofrece la opción de utilizar dos distribuciones de probabilidad diferentes, una para el rango de datos más bajo y otra para el más alto. Los rangos están separados por un punto de interrupción. El uso de tales distribuciones de probabilidad compuestas (discontinuas) puede ser útil cuando los datos del fenómeno estudiado se obtuvieron en diferentes condiciones. [3]

Distribución compuesta (discontinua) con cinturón de confianza [4]

Durante la fase de entrada, el usuario puede seleccionar el número de intervalos necesarios para determinar el histograma . También puede definir un umbral para obtener una distribución truncada .

La sección de salida proporciona una calculadora para facilitar la interpolación y extrapolación .

Además, ofrece la opción de ver el gráfico Q – Q en términos de frecuencias acumulativas calculadas y observadas.

ILRI [5] proporciona ejemplos de aplicación a magnitudes como el rendimiento de los cultivos , la profundidad del agua , la salinidad del suelo , la conductividad hidráulica , las precipitaciones y la descarga de los ríos .

Generalizando distribuciones [ editar ]

El programa puede producir generalizaciones de las distribuciones normales, logísticos, y otros mediante la transformación de los datos utilizando un exponente que está optimizado para obtener el mejor ajuste .

Esta característica no es común en otro software de ajuste de distribución que normalmente incluye solo una transformación logarítmica de datos obteniendo distribuciones como lognormal y loglogistic .

La generalización de distribuciones simétricas (como la normal y la logística ) las hace aplicables a los datos que obedecen a una distribución sesgada a la derecha (utilizando un exponente <1), así como a los datos que obedecen a una distribución sesgada a la izquierda (utilizando un exponente> 1). Esto mejora la versatilidad de distribuciones simétricas.

(A) La distribución de probabilidad de Gumbel se inclina hacia la derecha y (B) Gumbel se inclina en espejo hacia la izquierda

Inversión de distribuciones [ editar ]

Las distribuciones sesgadas se pueden reflejar mediante la inversión de distribución (ver función de supervivencia o función de distribución complementaria ) para cambiar la asimetría de positiva a negativa y viceversa. Esto amplifica el número de distribuciones aplicables y aumenta la posibilidad de encontrar un mejor ajuste. CumFreq aprovecha esa oportunidad.

Distribuciones cambiantes [ editar ]

Cuando hay datos negativos que no están respaldados por una distribución de probabilidad, el modelo realiza un cambio de distribución hacia el lado positivo mientras, después del ajuste, la distribución se desplaza hacia atrás.

Nueve curvas de período de retorno de muestras de 50 años de un registro teórico de 1000 años (línea de base)

Cinturones de confianza [ editar ]

El software emplea la distribución binomial para determinar el cinturón de confianza de la función de distribución acumulativa correspondiente . [2]

La predicción del período de retorno , que es de interés en las series temporales , también va acompañada de un cinturón de confianza. La construcción de cinturones de confianza no se encuentra en la mayoría de los demás programas.

La figura de la derecha muestra la variación que puede ocurrir al obtener muestras de una variante que sigue una determinada distribución de probabilidad. Los datos fueron proporcionados por Benson. [6]

Lista de distribuciones de probabilidad clasificadas por bondad de ajuste, ejemplo

El cinturón de confianza alrededor de una frecuencia acumulada experimental o una curva de período de retorno da una impresión de la región en la que se puede encontrar la verdadera distribución.

Además, aclara que la distribución de probabilidad de mejor ajuste encontrada experimentalmente puede desviarse de la distribución verdadera.

Histograma y densidad de probabilidad de un conjunto de datos que se ajusta a la distribución GEV [7]

Bondad de ajuste [ editar ]

Cumfreq produce una lista de distribuciones clasificadas por bondad de ajuste .

Función de histograma y densidad [ editar ]

A partir de la función de distribución acumulativa (CDF) se puede derivar un histograma y la función de densidad de probabilidad (PDF).

Calculadora [ editar ]

Calculadora de distribución de probabilidad como se usa en el software CumFreq

El software ofrece la opción de utilizar una calculadora de distribución de probabilidad. La frecuencia acumulada y el período de retorno se dan en función del valor de los datos como entrada. Además, se muestran los intervalos de confianza. A la inversa, el valor se presenta al dar la frecuencia acumulada o el período de devolución.

Ver también [ editar ]

  • Accesorio de distribución

Referencias [ editar ]

  1. ^ Revisión en línea independiente de CumFreq: https://www.predictiveanalyticstoday.com/cumfreq/
  2. ^ a b Análisis de frecuencia y regresión . Capítulo 6 en: HPRitzema (ed., 1994), Drainage Principles and Applications , Publ. 16, págs. 175–224, Instituto Internacional para la Recuperación y Mejoramiento de Tierras (ILRI), Wageningen, Países Bajos. ISBN  90-70754-33-9 . Descarga gratuita como PDF desde: sitio web del ILRI o desde: [1]
  3. ^ Software para distribuciones de probabilidad generalizadas y compuestas . Revista Internacional de Métodos Matemáticos y Computacionales, 4, 1-9. En línea: [2]
  4. ^ Introducción a las distribuciones de probabilidad compuestas
  5. ^ Investigación de drenaje en campos de agricultores: análisis de datos , 2002. Contribución al proyecto "Oro líquido" del Instituto Internacional para la Recuperación y Mejoramiento de Tierras (ILRI), Wageningen, Países Bajos. [3]
  6. ^ Benson, MA 1960. Características de las curvas de frecuencia basadas en un registro teórico de 1000 años. En: T. Dalrymple (ed.), Análisis de frecuencia de inundaciones. Documento 1543 − A sobre suministro de agua del Servicio Geológico de EE. UU., Págs. 51–71
  7. ^ Software para ajuste de distribución de probabilidad