De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

La bioestadística es el desarrollo y la aplicación de métodos estadísticos a una amplia gama de temas de biología . Abarca el diseño de experimentos biológicos , la recopilación y análisis de datos de esos experimentos y la interpretación de los resultados.

Historia [ editar ]

Bioestadística y genética [ editar ]

El modelado bioestadístico forma una parte importante de numerosas teorías biológicas modernas. Los estudios de genética , desde sus inicios, utilizaron conceptos estadísticos para comprender los resultados experimentales observados. Algunos científicos genéticos incluso contribuyeron con avances estadísticos con el desarrollo de métodos y herramientas. Gregor Mendel inició los estudios de genética investigando patrones de segregación genética en familias de guisantes y utilizó estadísticas para explicar los datos recopilados. A principios de la década de 1900, después del redescubrimiento del trabajo de herencia mendeliana de Mendel, había brechas en la comprensión entre la genética y el darwinismo evolutivo. Francis Galtontrató de ampliar los descubrimientos de Mendel con datos humanos y propuso un modelo diferente con fracciones de la herencia provenientes de cada ancestral componiendo una serie infinita. Llamó a esto la teoría de la " Ley de la herencia ancestral ". William Bateson , quien siguió las conclusiones de Mendel, no estuvo de acuerdo con sus ideas de que la herencia genética era exclusivamente de los padres, la mitad de cada uno de ellos. Esto llevó a un vigoroso debate entre los biometristas, que apoyaron las ideas de Galton, como Walter Weldon , Arthur Dukinfield Darbishire y Karl Pearson , y los mendelianos, que apoyaron las ideas de Bateson (y Mendel), como Charles Davenport y Wilhelm Johannsen.. Posteriormente, los biometristas no pudieron reproducir las conclusiones de Galton en diferentes experimentos y prevalecieron las ideas de Mendel. En la década de 1930, los modelos basados ​​en el razonamiento estadístico habían ayudado a resolver estas diferencias y a producir la síntesis evolutiva moderna neodarwiniana.

Resolver estas diferencias también permitió definir el concepto de genética de poblaciones y unió genética y evolución. Las tres figuras principales en el establecimiento de la genética de poblaciones y esta síntesis se basaron en estadísticas y desarrollaron su uso en biología.

  • Ronald Fisher desarrolló varios métodos estadísticos básicos en apoyo de su trabajo de estudio de los experimentos de cultivos en Rothamsted Research , incluso en sus libros Statistical Methods for Research Workers (1925) y The Genetical Theory of Natural Selection (1930). Dio muchas contribuciones a la genética y la estadística. Algunos de ellos incluyen el ANOVA , los conceptos de valor p , la prueba exacta de Fisher y la ecuación de Fisher para la dinámica de poblaciones . Se le atribuye la frase "La selección natural es un mecanismo para generar un grado extremadamente alto de improbabilidad". [1]
  • Sewall G. Wright desarrolló estadísticas F y métodos para calcularlas y definió el coeficiente de consanguinidad .
  • El libro de JBS Haldane , Las causas de la evolución , restableció la selección natural como el mecanismo principal de la evolución al explicarla en términos de las consecuencias matemáticas de la genética mendeliana. También desarrolló la teoría de la sopa primordial .

Estos y otros bioestadísticos, biólogos matemáticos y genetistas inclinados a la estadística ayudaron a unir la biología evolutiva y la genética en un todo consistente y coherente que podría comenzar a modelarse cuantitativamente .

Paralelamente a este desarrollo general, el trabajo pionero de D'Arcy Thompson en On Growth and Form también ayudó a agregar disciplina cuantitativa al estudio biológico.

A pesar de la importancia fundamental y la necesidad frecuente del razonamiento estadístico, puede haber existido una tendencia entre los biólogos a desconfiar o desaprobar los resultados que no son cualitativamente aparentes. Una anécdota describe a Thomas Hunt Morgan prohibiendo la calculadora Friden de su departamento en Caltech , diciendo: "Bueno, soy como un tipo que busca oro a lo largo de las orillas del río Sacramento en 1849. Con un poco de inteligencia, puedo agacharme y recoger grandes pepitas de oro. Y mientras pueda hacer eso, no voy a permitir que ninguna persona de mi departamento desperdicie recursos escasos en la minería de placer ". [2]

Planificación de la investigación [ editar ]

Se propone cualquier investigación en ciencias de la vida para responder a una pregunta científica que podamos tener. Para responder a esta pregunta con mucha certeza, necesitamos resultados precisos . La correcta definición de la hipótesis principal y el plan de investigación reducirá los errores a la hora de tomar una decisión en la comprensión de un fenómeno. El plan de investigación puede incluir la pregunta de investigación, la hipótesis que se probará, el diseño experimental , los métodos de recopilación de datos , las perspectivas de análisis de datos y la evolución de los costos. Es fundamental realizar el estudio en base a los tres principios básicos de la estadística experimental: aleatorización , replicacióny control local.

Pregunta de investigación [ editar ]

La pregunta de investigación definirá el objetivo de un estudio. La investigación estará encabezada por la pregunta, por lo que debe ser concisa, al mismo tiempo que se enfoca en temas interesantes y novedosos que puedan mejorar la ciencia y el conocimiento y ese campo. Para definir la forma de plantear la pregunta científica , puede ser necesaria una revisión exhaustiva de la literatura . Entonces, la investigación puede ser útil para agregar valor a la comunidad científica . [3]

Definición de hipótesis [ editar ]

Una vez definido el objetivo del estudio, se pueden proponer las posibles respuestas a la pregunta de investigación, transformando esta pregunta en una hipótesis . La propuesta principal se denomina hipótesis nula (H 0 ) y suele basarse en un conocimiento permanente sobre el tema o en una ocurrencia evidente de los fenómenos, sustentada en una profunda revisión de la literatura. Podemos decir que es la respuesta estándar esperada para los datos en la situación en prueba . En general, H O asume ninguna asociación entre los tratamientos . Por otro lado, la hipótesis alternativa es la negación de H O. Supone cierto grado de asociación entre el tratamiento y el resultado. Sin embargo, la hipótesis se sustenta en la investigación de preguntas y sus respuestas esperadas e inesperadas. [3]

Como ejemplo, considere grupos de animales similares (ratones, por ejemplo) bajo dos sistemas de dieta diferentes. La pregunta de investigación sería: ¿cuál es la mejor dieta? En este caso, H 0 sería que no hay diferencia entre las dos dietas en el metabolismo de los ratones (H 0 : μ 1 = μ 2 ) y la hipótesis alternativa sería que las dietas tienen diferentes efectos sobre el metabolismo de los animales (H 1 : μ 1 ≠ μ 2 ).

La hipótesis la define el investigador, de acuerdo con sus intereses en responder a la pregunta principal. Además de eso, la hipótesis alternativa puede ser más de una hipótesis. Puede asumir no solo diferencias entre los parámetros observados, sino también su grado de diferencias ( es decir, mayor o menor).

Muestreo [ editar ]

Por lo general, un estudio tiene como objetivo comprender el efecto de un fenómeno sobre una población . En biología , una población se define como todos los individuos de una especie determinada , en un área específica en un momento dado. En bioestadística, este concepto se extiende a una variedad de colecciones posibles de estudio. Aunque, en bioestadística, una población no es sólo el individuos , pero el total de componente de una sola específica de sus organismos , como todo el genoma , o todos los espermatozoides células , para los animales, o el área total de la hoja, para una planta, por ejemplo .

No es posible tomar las medidas de todos los elementos de una población . Por eso, el proceso de muestreo es muy importante para la inferencia estadística . El muestreo se define como obtener aleatoriamente una parte representativa de toda la población, para hacer inferencias posteriores sobre la población. Por lo tanto, la muestra podría captar la mayor variabilidad en una población. [4] El tamaño de la muestra está determinado por varias cosas, desde el alcance de la investigación hasta los recursos disponibles. En la investigación clínica , el tipo de ensayo, como inferioridad , equivalencia, y la superioridad es clave para determinar el tamaño de la muestra . [3]

Diseño experimental [ editar ]

Los diseños experimentales sustentan esos principios básicos de la estadística experimental . Hay tres diseños experimentales básicos para asignar tratamientos al azar en todas las parcelas del experimento . Son diseño completamente al azar , diseño de bloques al azar y diseños factoriales . Los tratamientos se pueden organizar de muchas formas dentro del experimento. En agricultura , el diseño experimental correcto es la raíz de un buen estudio y la disposición de los tratamientos dentro del estudio es fundamental porque el medio ambiente afecta en gran medida las parcelas.( plantas , ganado , microorganismos ). Estos arreglos principales se pueden encontrar en la literatura bajo los nombres de “ celosías ”, “bloques incompletos”, “ parcela dividida ”, “bloques aumentados” y muchos otros. Todos los diseños pueden incluir gráficos de control , determinados por el investigador, para proporcionar una estimación del error durante la inferencia .

En los estudios clínicos , las muestras suelen ser más pequeñas que en otros estudios biológicos y, en la mayoría de los casos, el efecto ambiental se puede controlar o medir. Es común utilizar ensayos clínicos controlados aleatorios , donde los resultados generalmente se comparan con diseños de estudios observacionales como casos y controles o cohortes . [5]

Recolección de datos [ editar ]

Los métodos de recopilación de datos deben tenerse en cuenta en la planificación de la investigación, ya que influyen mucho en el tamaño de la muestra y el diseño experimental.

La recopilación de datos varía según el tipo de datos. Para los datos cualitativos , la recolección se puede hacer con cuestionarios estructurados o por observación, considerando la presencia o la intensidad de la enfermedad, utilizando el criterio de puntuación para categorizar los niveles de ocurrencia. [6] Para datos cuantitativos , la recolección se realiza midiendo información numérica utilizando instrumentos.

En los estudios de agricultura y biología, los datos de rendimiento y sus componentes se pueden obtener mediante medidas métricas . Sin embargo, las lesiones por plagas y enfermedades en las plantas se obtienen por observación, considerando escalas de puntuación para los niveles de daño. Especialmente, en los estudios genéticos, los métodos modernos para la recopilación de datos en el campo y el laboratorio deben considerarse como plataformas de alto rendimiento para el fenotipado y el genotipado. Estas herramientas permiten experimentos más grandes, mientras que a su vez es posible evaluar muchas parcelas en menos tiempo que un método solo basado en humanos para la recopilación de datos. Finalmente, todos los datos de interés recopilados deben almacenarse en un marco de datos organizado para su posterior análisis.

Análisis e interpretación de datos [ editar ]

Herramientas descriptivas [ editar ]

Los datos se pueden representar a través de tablas o representación gráfica , como gráficos de líneas, gráficos de barras, histogramas, gráficos de dispersión. Además, las medidas de tendencia central y variabilidad pueden ser muy útiles para describir una descripción general de los datos. Siga algunos ejemplos:

  • Tablas de frecuencia

Un tipo de tablas es la tabla de frecuencia , que consta de datos organizados en filas y columnas, donde la frecuencia es el número de ocurrencias o repeticiones de datos. La frecuencia puede ser: [7]

Absoluto : representa el número de veces que aparece un determinado valor;

Relativo : obtenido por la división de la frecuencia absoluta por el número total;

En el siguiente ejemplo, tenemos el número de genes en diez operones del mismo organismo.

  • Gráfico de líneas
Figura A: Ejemplo de gráfico de líneas . La tasa de natalidad en Brasil (2010-2016); [8] Figura B: ejemplo de gráfico de barras. La tasa de natalidad en Brasil para los meses de diciembre de 2010 a 2016; Figura C: Ejemplo de diagrama de caja : número de glicinas en el proteoma de ocho organismos diferentes (AH); Figura D: Ejemplo de diagrama de dispersión.

Los gráficos de líneas representan la variación de un valor sobre otra métrica, como el tiempo. En general, los valores se representan en el eje vertical, mientras que la variación temporal se representa en el eje horizontal. [9]

  • Gráfico de barras

Un gráfico de barras es un gráfico que muestra datos categóricos como barras que presentan alturas (barra vertical) o anchos (barra horizontal) proporcionales para representar valores. Los gráficos de barras proporcionan una imagen que también se puede representar en formato tabular. [9]

En el ejemplo del gráfico de barras, tenemos la tasa de natalidad en Brasil para los meses de diciembre de 2010 a 2016. [8] La fuerte caída en diciembre de 2016 refleja el brote del virus Zika en la tasa de natalidad en Brasil .

  • Histogramas
Ejemplo de histograma.

El histograma (o distribución de frecuencia) es una representación gráfica de un conjunto de datos tabulado y dividido en clases uniformes o no uniformes. Fue introducido por primera vez por Karl Pearson . [10]

  • Gráfico de dispersión

Un diagrama de dispersión es un diagrama matemático que usa coordenadas cartesianas para mostrar valores de un conjunto de datos. Un diagrama de dispersión muestra los datos como un conjunto de puntos, cada uno presentando el valor de una variable que determina la posición en el eje horizontal y otra variable en el eje vertical. [11] También se llaman gráfico de dispersión , gráfico de dispersión , diagrama de dispersión , o diagrama de dispersión . [12]

  • Significar

La media aritmética es la suma de una colección de valores ( ) dividida por el número de elementos de esta colección ( ).

  • Mediana

La mediana es el valor en medio de un conjunto de datos.

  • Modo

La moda es el valor de un conjunto de datos que aparece con mayor frecuencia. [13]

  • Diagrama de caja

El diagrama de caja es un método para representar gráficamente grupos de datos numéricos. Los valores máximo y mínimo están representados por las líneas, y el rango intercuartílico (IQR) representa el 25-75% de los datos. Los valores atípicos se pueden trazar como círculos.

  • Coeficientes de correlación

Aunque las correlaciones entre dos tipos diferentes de datos se pueden inferir mediante gráficos, como el diagrama de dispersión, es necesario validarlo mediante información numérica. Por esta razón, se requieren coeficientes de correlación. Proporcionan un valor numérico que refleja la fuerza de una asociación. [9]

  • Coeficiente de correlación de Pearson
Diagrama de dispersión que demuestra la correlación de Pearson para diferentes valores de ρ.

El coeficiente de correlación de Pearson es una medida de asociación entre dos variables, X e Y. Este coeficiente, generalmente representado por ρ (rho) para la población y r para la muestra, asume valores entre −1 y 1, donde ρ = 1 representa un valor perfecto. correlación positiva, ρ = -1 representa una correlación negativa perfecta y ρ = 0 no es una correlación lineal. [9]

Estadísticas inferenciales [ editar ]

Se utiliza para hacer inferencias [14] sobre una población desconocida, mediante estimación y / o prueba de hipótesis. Es decir, es deseable obtener parámetros para describir la población de interés, pero dado que los datos son limitados, es necesario hacer uso de una muestra representativa para estimarlos. Con eso, es posible probar hipótesis previamente definidas y aplicar las conclusiones a toda la población. El error estándar de la media es una medida de variabilidad que es crucial para hacer inferencias. [4]

  • Prueba de hipótesis

La prueba de hipótesis es esencial para hacer inferencias sobre poblaciones con el objetivo de responder preguntas de investigación, como se establece en la sección "Planificación de la investigación". Los autores definieron cuatro pasos a establecer: [4]

  1. La hipótesis a contrastar : como se dijo anteriormente, tenemos que trabajar con la definición de una hipótesis nula (H 0 ), que se va a contrastar, y una hipótesis alternativa . Pero deben definirse antes de la implementación del experimento.
  2. Nivel de significancia y regla de decisión : una regla de decisión depende del nivel de significancia , o en otras palabras, la tasa de error aceptable (α). Es más fácil pensar que definimos un valor crítico que determina la significancia estadística cuando se compara un estadístico de prueba con él. Entonces, α también tiene que estar predefinido antes del experimento.
  3. Experimento y análisis estadístico : aquí es cuando realmente se implementa el experimento siguiendo el diseño experimental adecuado , se recolectan datos y se evalúan las pruebas estadísticas más adecuadas.
  4. Inferencia : Se realiza cuando la hipótesis nula es rechazada o no rechazada, con base en la evidencia que aporta la comparación de valores p y α. Se señala que el hecho de no rechazar H 0 solo significa que no hay suficiente evidencia para respaldar su rechazo, pero no que esta hipótesis sea cierta.
  • Intervalos de confianza

Un intervalo de confianza es un rango de valores que puede contener el verdadero valor real del parámetro en un cierto nivel de confianza. El primer paso es estimar la estimación más insesgada del parámetro de población. El valor superior del intervalo se obtiene por la suma de esta estimación con la multiplicación entre el error estándar de la media y el nivel de confianza. El cálculo del valor más bajo es similar, pero en lugar de una suma, se debe aplicar una resta. [4]

Consideraciones estadísticas [ editar ]

Error de poder y estadístico [ editar ]

Al probar una hipótesis, hay dos tipos de errores estadísticos posibles: error de tipo I y error de tipo II . El error tipo I o falso positivo es el rechazo incorrecto de una hipótesis nula verdadera y el error tipo II o falso negativo es no rechazar una hipótesis nula falsa . El nivel de significancia denotado por α es la tasa de error de tipo I y debe elegirse antes de realizar la prueba. La tasa de error de tipo II se indica mediante β y la potencia estadística de la prueba es 1 - β.

valor p [ editar ]

El valor p es la probabilidad de obtener resultados tan extremos o más extremos que los observados, asumiendo que la hipótesis nula (H 0 ) es cierta. También se llama probabilidad calculada. Es común confundir el valor p con el nivel de significancia (α) , pero el α es un umbral predefinido para obtener resultados significativos. Si p es menor que α, se rechaza la hipótesis nula (H 0 ). [15]

Pruebas múltiples [ editar ]

En múltiples pruebas de la misma hipótesis, la probabilidad de ocurrencia de falsos positivos (tasa de error familiar) aumenta y se usa alguna estrategia para controlar esta ocurrencia. Esto se logra comúnmente mediante el uso de un umbral más estricto para rechazar hipótesis nulas. La corrección de Bonferroni define un nivel de significancia global aceptable, denotado por α * y cada prueba se compara individualmente con un valor de α = α * / m. Esto asegura que la tasa de error familiar en todas las m pruebas sea menor o igual a α *. Cuando m es grande, la corrección de Bonferroni puede ser demasiado conservadora. Una alternativa a la corrección de Bonferroni es controlar la tasa de descubrimiento falso (FDR) . El FDR controla la proporción esperada de rechazadoshipótesis nulas (los llamados descubrimientos) que son falsas (rechazos incorrectos). Este procedimiento asegura que, para pruebas independientes, la tasa de descubrimiento falso sea como máximo q *. Así, el FDR es menos conservador que la corrección de Bonferroni y tiene más potencia, a costa de más falsos positivos. [dieciséis]

Comprobaciones de especificación incorrecta y robustez [ editar ]

La hipótesis principal que se está probando (p. Ej., No asociación entre tratamientos y resultados) suele ir acompañada de otros supuestos técnicos (p. Ej., Sobre la forma de distribución de probabilidad de los resultados) que también forman parte de la hipótesis nula. Cuando los supuestos técnicos se violan en la práctica, el nulo puede rechazarse con frecuencia incluso si la hipótesis principal es verdadera. Se dice que tales rechazos se deben a una especificación incorrecta del modelo. [17] Verificar si el resultado de una prueba estadística no cambia cuando los supuestos técnicos se modifican ligeramente (los llamados controles de robustez) es la principal forma de combatir la especificación incorrecta.

Criterios de selección del modelo [ editar ]

La selección de criterios de modelo seleccionará o modelará ese modelo verdadero más aproximado. El criterio de información de Akaike (AIC) y el criterio de información bayesiano (BIC) son ejemplos de criterios asintóticamente eficientes.

Desarrollos y Big Data [ editar ]

Los desarrollos recientes han tenido un gran impacto en la bioestadística. Dos cambios importantes han sido la capacidad de recopilar datos en una escala de alto rendimiento y la capacidad de realizar análisis mucho más complejos utilizando técnicas computacionales. Esto proviene del desarrollo en áreas como tecnologías de secuenciación , bioinformática y aprendizaje automático ( aprendizaje automático en bioinformática ).

Usar en datos de alto rendimiento [ editar ]

Las nuevas tecnologías biomédicas como microarrays , secuenciadores de próxima generación (para genómica) y espectrometría de masas (para proteómica) generan enormes cantidades de datos, lo que permite realizar muchas pruebas simultáneamente. [18] Se requiere un análisis cuidadoso con métodos bioestadísticos para separar la señal del ruido. Por ejemplo, una micromatriz podría usarse para medir muchos miles de genes simultáneamente, determinando cuál de ellos tiene una expresión diferente en las células enfermas en comparación con las células normales. Sin embargo, solo una fracción de genes se expresará de manera diferencial. [19]

La multicolinealidad ocurre a menudo en entornos bioestadísticos de alto rendimiento. Debido a la alta intercorrelación entre los predictores (como los niveles de expresión génica ), la información de un predictor podría estar contenida en otro. Podría ser que solo el 5% de los predictores sean responsables del 90% de la variabilidad de la respuesta. En tal caso, se podría aplicar la técnica bioestadística de reducción de dimensiones (por ejemplo, a través del análisis de componentes principales). Técnicas estadísticas clásicas como regresión lineal o logística y análisis discriminante lineal.no funcionan bien para datos de alta dimensión (es decir, cuando el número de observaciones n es menor que el número de características o predictores p: n <p). De hecho, se pueden obtener valores R 2 bastante altos a pesar de que el poder predictivo del modelo estadístico es muy bajo. Estas técnicas estadísticas clásicas (especialmente la regresión lineal de mínimos cuadrados ) se desarrollaron para datos de baja dimensión (es decir, donde el número de observaciones n es mucho mayor que el número de predictores p: n >> p). En casos de alta dimensionalidad, siempre se debe considerar un conjunto de pruebas de validación independiente y la suma de cuadrados residual correspondiente (RSS) y R 2 del conjunto de pruebas de validación, no los del conjunto de entrenamiento.

A menudo, es útil agrupar información de varios predictores. Por ejemplo, el análisis de enriquecimiento de conjuntos de genes (GSEA) considera la perturbación de conjuntos de genes completos (funcionalmente relacionados) en lugar de genes individuales. [20] Estos conjuntos de genes podrían ser vías bioquímicas conocidas o genes relacionados funcionalmente. La ventaja de este enfoque es que es más robusto: es más probable que se encuentre falsamente perturbado un solo gen que una vía completa falsamente perturbada. Además, se puede integrar el conocimiento acumulado sobre las vías bioquímicas (como la vía de señalización JAK-STAT ) utilizando este enfoque.

Avances bioinformáticos en bases de datos, minería de datos e interpretación biológica [ editar ]

El desarrollo de bases de datos biológicas permite el almacenamiento y la gestión de datos biológicos con la posibilidad de garantizar el acceso a usuarios de todo el mundo. Son útiles para los investigadores que depositan datos, recuperan información y archivos (sin procesar o procesados) originados en otros experimentos o indexando artículos científicos, como PubMed . Otra posibilidad es buscar el término deseado (un gen, una proteína, una enfermedad, un organismo, etc.) y verificar todos los resultados relacionados con esta búsqueda. Existen bases de datos dedicadas a los SNP ( dbSNP ), el conocimiento sobre la caracterización de genes y sus vías ( KEGG) y la descripción de la función génica clasificándola por componente celular, función molecular y proceso biológico ( Gene Ontology ). [21] Además de las bases de datos que contienen información molecular específica, hay otras que son amplias en el sentido de que almacenan información sobre un organismo o grupo de organismos. Como ejemplo de una base de datos dirigida a un solo organismo, pero que contiene muchos datos al respecto, se encuentra la base de datos genética y molecular de Arabidopsis thaliana : TAIR. [22] Fitozoma, [23]a su vez, almacena los archivos de ensamblajes y anotaciones de una docena de genomas de plantas, que también contienen herramientas de visualización y análisis. Además, hay una interconexión entre algunas bases de datos en el intercambio / intercambio de información y una iniciativa importante fue la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC) [24], que relaciona datos de DDBJ, [25] EMBL-EBI, [26] y NCBI . [27]

Hoy en día, el aumento de tamaño y complejidad de los conjuntos de datos moleculares conduce al uso de poderosos métodos estadísticos proporcionados por algoritmos informáticos desarrollados por el área de aprendizaje automático . Por tanto, la minería de datos y el aprendizaje automático permiten la detección de patrones en datos con una estructura compleja, como los biológicos, mediante el uso de métodos de aprendizaje supervisado y no supervisado , regresión, detección de clusters y minería de reglas de asociación , entre otros. [21] Para indicar algunos de ellos, los mapas autoorganizados y los k -medios son ejemplos de algoritmos de clúster; implementación de redes neuronales yLos modelos de máquinas vectoriales de soporte son ejemplos de algoritmos comunes de aprendizaje automático.

El trabajo colaborativo entre biólogos moleculares, bioinformáticos, estadísticos e informáticos es importante para realizar correctamente un experimento, pasando de la planificación, pasando por la generación y análisis de datos, y finalizando con la interpretación biológica de los resultados. [21]

Uso de métodos computacionalmente intensivos [ editar ]

Por otro lado, el advenimiento de la tecnología informática moderna y los recursos informáticos relativamente baratos han permitido métodos bioestadísticos con uso intensivo de computadoras, como los métodos de arranque y remuestreo .

En los últimos tiempos, los bosques aleatorios han ganado popularidad como método para realizar la clasificación estadística . Las técnicas de bosque aleatorio generan un panel de árboles de decisión. Los árboles de decisión tienen la ventaja de que puede dibujarlos e interpretarlos (incluso con un conocimiento básico de matemáticas y estadística). Por lo tanto, los bosques aleatorios se han utilizado para sistemas de apoyo a las decisiones clínicas. [ cita requerida ]

Aplicaciones [ editar ]

Salud pública [ editar ]

Salud pública , incluida la epidemiología , la investigación de los servicios de salud , la nutrición , la salud ambiental y la política y gestión de la atención de la salud. En estos contenidos de medicina , es importante considerar el diseño y análisis de los ensayos clínicos . Como ejemplo, existe la evaluación del estado de gravedad de un paciente con pronóstico de un resultado de una enfermedad.

Con las nuevas tecnologías y el conocimiento de la genética, la bioestadística ahora también se utiliza para la medicina de sistemas , que consiste en una medicina más personalizada. Para ello, se realiza una integración de datos de diferentes fuentes, incluidos datos de pacientes convencionales, parámetros clínico-patológicos, datos moleculares y genéticos, así como datos generados por tecnologías nuevas-ómicas adicionales. [28]

Genética cuantitativa [ editar ]

El estudio de la genética de poblaciones y la genética estadística con el fin de vincular la variación en el genotipo con una variación en el fenotipo . En otras palabras, es deseable descubrir la base genética de un rasgo medible, un rasgo cuantitativo, que está bajo control poligénico. Una región del genoma que es responsable de un rasgo continuo se denomina locus de rasgo cuantitativo (QTL). El estudio de QTL se vuelve factible mediante el uso de marcadores moleculares y la medición de rasgos en poblaciones, pero su mapeo necesita la obtención de una población a partir de un cruce experimental, como una F2 o cepas / líneas endogámicas recombinantes (RIL). Para buscar regiones de QTL en un genoma, unSe debe construir un mapa genético basado en la vinculación. Algunos de los algoritmos de mapeo QTL más conocidos son el mapeo de intervalo, el mapeo de intervalo compuesto y el mapeo de intervalo múltiple. [29]

Sin embargo, la resolución del mapeo de QTL se ve afectada por la cantidad de recombinación ensayada, un problema para las especies en las que es difícil obtener una gran descendencia. Además, la diversidad de alelos está restringida a individuos originados a partir de padres contrastantes, lo que limita los estudios de diversidad de alelos cuando tenemos un panel de individuos que representan una población natural. [30] Por esta razón, se propuso el estudio de asociación de todo el genoma para identificar los QTL basados ​​en el desequilibrio de ligamiento , es decir, la asociación no aleatoria entre rasgos y marcadores moleculares. Fue aprovechado por el desarrollo de genotipado de SNP de alto rendimiento . [31]

En la cría de animales y plantas , el uso de marcadores en la selección con el objetivo de mejorar, principalmente los moleculares, colaboró ​​con el desarrollo de la selección asistida por marcadores.. Si bien el mapeo QTL tiene una resolución limitada debido, GWAS no tiene suficiente potencia cuando hay variantes raras de pequeño efecto que también están influenciadas por el entorno. Entonces, surge el concepto de Selección Genómica (GS) con el fin de utilizar todos los marcadores moleculares en la selección y permitir la predicción del desempeño de los candidatos en esta selección. La propuesta es genotipar y fenotipar una población de entrenamiento, desarrollar un modelo que pueda obtener los valores genómicos estimados de reproducción (GEBV) de individuos pertenecientes a una población genotipada pero no fenotipada, llamada población de prueba. [32] Este tipo de estudio también podría incluir una población de validación, pensando en el concepto de validación cruzada., en el que los resultados del fenotipo real medidos en esta población se comparan con los resultados del fenotipo basados ​​en la predicción, lo que se utiliza para verificar la precisión del modelo.

A modo de resumen, algunos puntos sobre la aplicación de la genética cuantitativa son:

  • Se ha utilizado en agricultura para mejorar cultivos ( fitomejoramiento ) y ganadería ( cría de animales ).
  • En la investigación biomédica, este trabajo puede ayudar a encontrar alelos de genes candidatos que puedan causar o influir en la predisposición a enfermedades en la genética humana.

Datos de expresión [ editar ]

Los estudios para la expresión diferencial de genes a partir de datos de RNA-Seq , como para RT-qPCR y microarrays , exigen la comparación de condiciones. El objetivo es identificar genes que tienen un cambio significativo en abundancia entre diferentes condiciones. Luego, los experimentos se diseñan de manera apropiada, con réplicas para cada condición / tratamiento, aleatorización y bloqueo, cuando sea necesario. En RNA-Seq, la cuantificación de la expresión utiliza la información de lecturas mapeadas que se resumen en alguna unidad genética, como exones que forman parte de una secuencia genética. Como los resultados de los microarrays pueden aproximarse mediante una distribución normal, los datos de recuentos de RNA-Seq se explican mejor mediante otras distribuciones. La primera distribución utilizada fue laPoisson uno, pero subestima el error muestral, lo que da lugar a falsos positivos. Actualmente, la variación biológica se considera mediante métodos que estiman un parámetro de dispersión de una distribución binomial negativa . Se utilizan modelos lineales generalizados para realizar las pruebas de significación estadística y, dado que el número de genes es elevado, es necesario considerar la corrección de múltiples pruebas. [33] Algunos ejemplos de otros análisis de datos genómicos provienen de experimentos de microarrays o proteómica . [34] [35] A menudo en relación con enfermedades o etapas de la enfermedad. [36]

Otros estudios [ editar ]

  • Ecología , previsión ecológica
  • Análisis de secuencia biológica [37]
  • Biología de sistemas para inferencia de redes de genes o análisis de rutas. [38]
  • Dinámica de la población , especialmente en lo que respecta a la ciencia pesquera .
  • Filogenética y evolución

Herramientas [ editar ]

Hay muchas herramientas que se pueden utilizar para realizar análisis estadísticos en datos biológicos. La mayoría de ellos son útiles en otras áreas del conocimiento, cubriendo un gran número de aplicaciones (alfabéticamente). Aquí hay breves descripciones de algunos de ellos:

  • ASReml : Otro software desarrollado por VSNi [39] que se puede utilizar también en el entorno R como paquete. Está desarrollado para estimar los componentes de la varianza bajo un modelo lineal mixto general utilizando la máxima verosimilitud restringida (REML). Se permiten modelos con efectos fijos y efectos aleatorios y anidados o cruzados. Da la posibilidad de investigar diferentes estructuras matriciales de varianza-covarianza .
  • CycDesigN: [40] Un paquete de computadora desarrollado por VSNi [39] que ayuda a los investigadores a crear diseños experimentales y analizar datos provenientes de un diseño presente en una de las tres clases manejadas por CycDesigN. Estas clases son diseños que se pueden resolver, no se pueden resolver, se replican parcialmente y se cruzan . Incluye diseños menos usados ​​los latinizados, como diseño t-latinizado. [41]
  • Naranja : una interfaz de programación para procesamiento de datos de alto nivel, minería de datos y visualización de datos. Incluya herramientas para la expresión genética y la genómica. [21]
  • R : Un entorno de código abierto y un lenguaje de programación dedicado a la computación estadística y los gráficos. Es una implementación del lenguaje S mantenido por CRAN. [42] Además de sus funciones para leer tablas de datos, tomar estadísticas descriptivas, desarrollar y evaluar modelos, su repositorio contiene paquetes desarrollados por investigadores de todo el mundo. Esto permite el desarrollo de funciones escritas para hacer frente al análisis estadístico de datos que provienen de aplicaciones específicas. En el caso de la Bioinformática, por ejemplo, existen paquetes ubicados en el repositorio principal (CRAN) y en otros, como Bioconductor . También es posible utilizar paquetes en desarrollo que se comparten en servicios de alojamiento como GitHub..
  • SAS : Un software de análisis de datos ampliamente utilizado, pasando por universidades, servicios e industria. Desarrollado por una empresa del mismo nombre ( SAS Institute ), utiliza el lenguaje SAS para la programación.
  • PLA 3.0: [43] Es un software de análisis bioestadístico para entornos regulados (por ejemplo, pruebas de drogas) que admite ensayos de respuesta cuantitativa (línea paralela, logística paralela, relación de pendiente) y ensayos dicotómicos (respuesta cuántica, ensayos binarios). También admite métodos de ponderación para cálculos de combinación y la agregación automática de datos de datos de ensayos independientes.
  • Weka : un software Java para el aprendizaje automático y la minería de datos , que incluye herramientas y métodos para visualización, agrupación en clústeres, regresión, regla de asociación y clasificación. Hay herramientas para validación cruzada, bootstrapping y un módulo de comparación de algoritmos. Weka también se puede ejecutar en otros lenguajes de programación como Perl o R. [21]

Programas de alcance y formación [ editar ]

Casi todos los programas educativos en bioestadística son de posgrado . Se encuentran con mayor frecuencia en las escuelas de salud pública, afiliadas a las escuelas de medicina, silvicultura o agricultura, o como foco de aplicación en los departamentos de estadística.

En los Estados Unidos, donde varias universidades tienen departamentos dedicados a la bioestadística, muchas otras universidades de primer nivel integran la facultad de bioestadística en estadísticas u otros departamentos, como epidemiología . Por lo tanto, los departamentos que llevan el nombre de "bioestadística" pueden existir bajo estructuras bastante diferentes. Por ejemplo, se han fundado departamentos de bioestadística relativamente nuevos con un enfoque en bioinformática y biología computacional , mientras que los departamentos más antiguos, típicamente afiliados a escuelas de salud pública , tendrán líneas de investigación más tradicionales que involucren estudios epidemiológicos y ensayos clínicos.así como bioinformática. En las universidades más grandes de todo el mundo, donde existen tanto un departamento de estadística como un departamento de bioestadística, el grado de integración entre los dos departamentos puede variar desde el mínimo indispensable hasta una colaboración muy estrecha. En general, la diferencia entre un programa de estadística y un programa de bioestadística es doble: (i) los departamentos de estadística suelen albergar investigaciones teóricas / metodológicas que son menos comunes en los programas de bioestadística y (ii) los departamentos de estadística tienen líneas de investigación que pueden incluir aplicaciones biomédicas. pero también otras áreas como la industria ( control de calidad ), negocios y economía y áreas biológicas distintas de la medicina.

Revistas especializadas [ editar ]

Ver también: Lista de revistas de bioestadística
  • Bioestadística [44]
  • Revista Internacional de Bioestadística [45]
  • Revista de epidemiología y bioestadística [46]
  • Bioestadística y salud pública [47]
  • Biometría [48]
  • Biometrika [49]
  • Diario biométrico [50]
  • Comunicaciones en biometría y ciencias de los cultivos [51]
  • Aplicaciones estadísticas en genética y biología molecular [52]
  • Métodos estadísticos en la investigación médica [53]
  • Estadísticas farmacéuticas [54]
  • Estadística en Medicina [55]

Ver también [ editar ]

  • Bioinformática
  • Método epidemiológico
  • Epidemiología
  • Medidas del tamaño del grupo
  • Indicador de salud
  • Biología matemática y teórica

Referencias [ editar ]

  1. ^ Gunter, Chris (10 de diciembre de 2008). "Genética cuantitativa" . Naturaleza . 456 (7223): 719. Bibcode : 2008Natur.456..719G . doi : 10.1038 / 456719a . PMID  19079046 .
  2. Charles T. Munger (3 de octubre de 2003). "Economía académica: fortalezas y fallas después de considerar las necesidades interdisciplinarias" (PDF) .
  3. ↑ a b c Nizamuddin, Sarah L .; Nizamuddin, Junaid; Mueller, Ariel; Ramakrishna, Harish; Shahul, Sajid S. (octubre de 2017). "Elaboración de una hipótesis y planificación estadística". Revista de Anestesia Cardiotorácica y Vascular . 31 (5): 1878–1882. doi : 10.1053 / j.jvca.2017.04.020 . PMID 28778775 . 
  4. ^ a b c d Overholser, Brian R; Sowinski, Kevin M (2017). "Cartilla de bioestadística: Parte I". Nutrición en la práctica clínica . 22 (6): 629–35. doi : 10.1177 / 0115426507022006629 . PMID 18042950 . 
  5. ^ Szczech, Lynda Anne; Coladonato, Joseph A .; Owen, William F. (4 de octubre de 2002). "Conceptos clave en bioestadística: uso de estadísticas para responder a la pregunta" ¿Existe alguna diferencia? " ". Seminarios de Diálisis . 15 (5): 347–351. doi : 10.1046 / j.1525-139X.2002.00085.x . PMID 12358639 . S2CID 30875225 .  
  6. ^ Sandelowski, Margarete (2000). "Combinación de muestreo cualitativo y cuantitativo, recopilación de datos y técnicas de análisis en estudios de método mixto". Investigación en Enfermería y Salud . 23 (3): 246-255. CiteSeerX 10.1.1.472.7825 . doi : 10.1002 / 1098-240X (200006) 23: 3 <246 :: AID-NUR9> 3.0.CO; 2-H . PMID 10871540 .  
  7. ^ Matemáticas, Sangaku. "Tablas estadísticas y de frecuencia absoluta, relativa, acumulada - Probabilidad y Estadística" . www.sangakoo.com . Consultado el 10 de abril de 2018 .
  8. ^ a b "DATASUS: TabNet Win32 3.0: Nascidos vivos - Brasil" . DATOS: Tecnologia da Informação a Serviço do SUS .
  9. ^ a b c d Forthofer, Ronald N .; Lee, Eun Sul (1995). Introducción a la bioestadística. Una guía de diseño, análisis y descubrimiento . Prensa académica. ISBN 978-0-12-262270-0.
  10. Pearson, Karl (1 de enero de 1895). "X. Contribuciones a la teoría matemática de la evolución. — II. Variación sesgada en material homogéneo" . Phil. Trans. R. Soc. Lond. Una . 186 : 343–414. Código bibliográfico : 1895RSPTA.186..343P . doi : 10.1098 / rsta.1895.0010 . ISSN 0264-3820 . 
  11. ^ Utts, Jessica M. (2005). Ver a través de las estadísticas (3ª ed.). Belmont, CA: Thomson, Brooks / Cole. ISBN 978-0534394028. OCLC  56568530 .
  12. ^ B., Jarrell, Stephen (1994). Estadísticas básicas . Dubuque, Iowa: Wm. C. Brown Pub. ISBN 978-0697215956. OCLC  30301196 .
  13. ^ Gujarati, Damodar N. (2006). Econometría . McGraw-Hill Irwin.
  14. ^ "Fundamentos de bioestadística en salud pública y fundamentos del libro de bioestadística: Computación estadística con Excel". Revista de Salud Pública de Australia y Nueva Zelanda . 33 (2): 196-197. 2009. doi : 10.1111 / j.1753-6405.2009.00372.x . ISSN 1326-0200 . 
  15. ^ Baker, Monya (2016). "Los estadísticos emiten advertencia sobre el uso indebido de los valores de P" . Naturaleza . 531 (7593): 151. Bibcode : 2016Natur.531..151B . doi : 10.1038 / nature.2016.19503 . PMID 26961635 . 
  16. ^ Benjamini, Y. & Hochberg, Y. Control de la tasa de falsos descubrimientos: un enfoque práctico y poderoso para pruebas múltiples. Revista de la Royal Statistical Society. Serie B (metodológica) 57, 289–300 (1995).
  17. ^ "Hipótesis nula" . www.statlect.com . Consultado el 8 de mayo de 2018 .
  18. ^ Hayden, Erika Check (8 de febrero de 2012). "Bioestadística: análisis revelador" . Naturaleza . 482 (7384): 263–265. doi : 10.1038 / nj7384-263a . PMID 22329008 . 
  19. ^ Efron, Bradley (febrero de 2008). "Microarrays, Bayes empíricos y el modelo de dos grupos". Ciencia estadística . 23 (1): 1–22. arXiv : 0808.0572 . doi : 10.1214 / 07-STS236 . S2CID 8417479 . 
  20. ^ Subramanian, A .; Tamayo, P .; Mootha, VK; Mukherjee, S .; Ebert, BL; Gillette, MA; Paulovich, A .; Pomeroy, SL; Golub, TR; Lander, ES; Mesirov, JP (30 de septiembre de 2005). "Análisis de enriquecimiento de conjuntos de genes: un enfoque basado en el conocimiento para interpretar los perfiles de expresión de todo el genoma" . Actas de la Academia Nacional de Ciencias . 102 (43): 15545-15550. Código bibliográfico : 2005PNAS..10215545S . doi : 10.1073 / pnas.0506580102 . PMC 1239896 . PMID 16199517 .  
  21. ↑ a b c d e Moore, Jason H (2007). "Bioinformática". Revista de fisiología celular . 213 (2): 365–9. doi : 10.1002 / jcp.21218 . PMID 17654500 . S2CID 221831488 .  
  22. ^ "TAIR - Página de inicio" . www.arabidopsis.org .
  23. ^ "Fitozoma" . phytozome.jgi.doe.gov .
  24. ^ "Colaboración internacional de base de datos de secuencia de nucleótidos - INSDC" . www.insdc.org .
  25. ^ "Arriba" . www.ddbj.nig.ac.jp .
  26. ^ "El Instituto Europeo de Bioinformática <EMBL-EBI" . www.ebi.ac.uk .
  27. ^ Información, Centro Nacional de Biotecnología; Pike, Biblioteca Nacional de Medicina de EE. UU. 8600 Rockville; MD, Bethesda; Usa, 20894. "Centro Nacional de Información Biotecnológica" . www.ncbi.nlm.nih.gov .CS1 maint: numeric names: authors list (link)
  28. ^ Apweiler, Rolf; et al. (2018). "¿Adónde la medicina de sistemas? . Medicina molecular . 50 (3): e453. doi : 10.1038 / emm.2017.290 . PMC 5898894 . PMID 29497170 .  
  29. ^ Zeng, Zhao-Bang (2005). "Mapeo QTL y la base genética de la adaptación: desarrollos recientes". Genetica . 123 (1–2): 25–37. doi : 10.1007 / s10709-004-2705-0 . PMID 15881678 . S2CID 1094152 .  
  30. ^ Korte, Arthur; Farlow, Ashley (2013). "Las ventajas y limitaciones del análisis de rasgos con GWAS: una revisión" . Métodos vegetales . 9 : 29. doi : 10.1186 / 1746-4811-9-29 . PMC 3750305 . PMID 23876160 .  
  31. ^ Zhu, Chengsong; Gore, Michael; Buckler, Edward S; Yu, Jianming (2008). "Situación y perspectivas del mapeo asociativo en plantas" . El genoma vegetal . 1 : 5-20. doi : 10.3835 / plantgenome2008.02.0089 .
  32. ^ Crossa, José; Pérez-Rodríguez, Paulino; Cuevas, Jaime; Montesinos-López, Osval; Jarquín, Diego; De Los Campos, Gustavo; Burgueño, Juan; González-Camacho, Juan M; Pérez-Elizalde, Sergio; Beyene, Yoseph; Dreisigacker, Susanne; Singh, Ravi; Zhang, Xuecai; Gowda, Manje; Roorkiwal, Manish; Rutkoski, Jessica; Varshney, Rajeev K (2017). "Selección genómica en fitomejoramiento: métodos, modelos y perspectivas" (PDF) . Tendencias en ciencia de las plantas . 22 (11): 961–975. doi : 10.1016 / j.tplants.2017.08.011 . PMID 28965742 .  
  33. ^ Oshlack, Alicia; Robinson, Mark D; Joven, Matthew D (2010). "De lecturas de RNA-seq a resultados de expresión diferencial" . Biología del genoma . 11 (12): 220. doi : 10.1186 / gb-2010-11-12-220 . PMC 3046478 . PMID 21176179 .  
  34. ^ Helen Causton; John Quackenbush; Alvis Brazma (2003). Análisis estadístico de datos de microarrays de expresión génica . Wiley-Blackwell.
  35. ^ Terry Speed ​​(2003). Análisis de datos de expresión génica de microarrays: una guía para principiantes . Chapman y Hall / CRC.
  36. ^ Frank Emmert-Streib; Matthias Dehmer (2010). Bioestadística médica para enfermedades complejas . Wiley-Blackwell. ISBN 978-3-527-32585-6.
  37. ^ Warren J. Ewens; Gregory R. Grant (2004). Métodos estadísticos en bioinformática: una introducción . Saltador.
  38. ^ Matthias Dehmer; Frank Emmert-Streib; Armin Graber; Armindo Salvador (2011). Estadística aplicada para biología de redes: métodos en biología de sistemas . Wiley-Blackwell. ISBN 978-3-527-32750-8.
  39. ^ a b "Inicio - VSN International" . www.vsni.co.uk .
  40. ^ "CycDesigN - VSN International" . www.vsni.co.uk .
  41. ^ Piepho, Hans-Peter; Williams, Emlyn R; Michel, Volker (2015). "Más allá de los cuadrados latinos: un breve recorrido por los diseños de columnas de fila". Revista de agronomía . 107 (6): 2263. doi : 10.2134 / agronj15.0144 .
  42. ^ "La red integral de archivos de R" . cran.r-project.org .
  43. Stegmann, Dr. Ralf (1 de julio de 2019). "PLA 3.0" . PLA 3.0 - Software para análisis bioestadístico . Consultado el 2 de julio de 2019 .
  44. ^ "Bioestadística - académico de Oxford" . OUP Académico .
  45. ^ https://www.degruyter.com/view/j/ijb
  46. ^ Personal, NCBI (15 de junio de 2018). "PubMed Journals se cerrará" .
  47. ^ https://ebph.it/ Epidemiología
  48. ^ "Biometría - Biblioteca en línea de Wiley" . onlinelibrary.wiley.com .
  49. ^ "Biometrika - académico de Oxford" . OUP Académico .
  50. ^ "Revista biométrica - Biblioteca en línea de Wiley" . onlinelibrary.wiley.com .
  51. ^ "Comunicaciones en biometría y ciencia de cultivos" . agrobiol.sggw.waw.pl .
  52. ^ "Aplicaciones estadísticas en genética y biología molecular" . www.degruyter.com . 1 de mayo de 2002.
  53. ^ "Métodos estadísticos en la investigación médica" . Revistas SAGE .
  54. ^ "Estadísticas farmacéuticas - Biblioteca en línea de Wiley" . onlinelibrary.wiley.com .
  55. ^ "Estadísticas en medicina - Biblioteca en línea de Wiley" . onlinelibrary.wiley.com .

Enlaces externos [ editar ]

Medios relacionados con la bioestadística en Wikimedia Commons

  • La Sociedad Biométrica Internacional
  • Archivo de la colección de investigación bioestadística
  • Guía de bioestadística (MedPageToday.com)
  • Estadísticas biomédicas