Puntuación poligénica

En genética , un puntaje poligénico ( PGS ), también llamado puntaje de riesgo poligénico ( PRS ), puntaje de riesgo genético o puntaje de todo el genoma , es un número que resume el efecto estimado de muchas variantes genéticas en el fenotipo de un individuo , generalmente calculado como una suma ponderada de alelos asociados a rasgos . ^[1]^[2]^[3] Refleja la predisposición genética estimada de un individuo para un rasgo dado y puede usarse como predictor de ese rasgo. ^[4]^[5]^[6]^[7]^[8]En otras palabras, da una estimación de la probabilidad de que un individuo tenga un rasgo determinado solo en función de la genética, sin tener en cuenta los factores ambientales. Las puntuaciones poligénicas se utilizan ampliamente en la cría de animales y plantas (generalmente denominada predicción genómica o selección genómica ) debido a su eficacia para mejorar la cría de ganado y los cultivos. ^[9] En los seres humanos, las puntuaciones poligénicas suelen generarse a partir de datos de estudios de asociación del genoma completo (GWAS).

El progreso reciente en genética ha permitido la creación de predictores poligénicos de rasgos humanos complejos, incluido el riesgo de muchas enfermedades complejas importantes , ^[10]^[11] que normalmente se ven afectadas por muchas variantes genéticas que confieren un pequeño efecto sobre el riesgo general. ^[12]^[13] En un predictor de riesgo poligénico, el riesgo de por vida (o rango de edad) de la enfermedad es una función numérica capturada por la puntuación que depende de los estados de miles de variantes genéticas individuales (es decir, polimorfismos de un solo nucleótido , o SNP).

Las puntuaciones poligénicas son un área de intensa investigación científica: cada año se escriben cientos de artículos sobre temas como algoritmos de aprendizaje para predicción genómica, entrenamiento de nuevos predictores, pruebas de validación de predictores, aplicación clínica de PRS. ^[14]^[15]^[16]^[6]^[11] En 2018, la American Heart Association nombró las puntuaciones de riesgo poligénico como uno de los principales avances en la investigación de enfermedades cardíacas y accidentes cerebrovasculares. ^[17]

El ADN en los organismos vivos es el libro de recetas para crear vida. En los seres humanos, el ADN es una cadena de cuatro bases de nucleótidos (timina, guanina, citosina y adenosina) que se encuentran en 23 cromosomas. En total, cada célula del cuerpo humano contiene alrededor de 3 mil millones de bases. El genoma humano se puede separar ampliamente en secuencias codificantes y no codificantes. El genoma codificante constituye una pequeña porción de todas las bases y codifica instrucciones para genes , algunos de los cuales codifican proteínas . Los científicos continúan estudiando la función de las partes no codificantes restantes y otras partes del genoma humano. Estudios de asociación del genoma completopermitir el mapeo de fenotipos o rasgos en humanos o especies no humanas a la variación en las bases de nucleótidos en poblaciones humanas. Las mejoras en la metodología y los estudios con grandes cohortes han permitido mapear muchos rasgos, algunos de los cuales son enfermedades, con el genoma humano. El conocimiento de qué variaciones y con qué fuerza influyen en rasgos específicos constituye el componente clave para la construcción de puntajes poligénicos en humanos.

Aunque las puntuaciones de riesgo poligénico ganaron una mayor atención entre los humanos, la idea básica se introdujo por primera vez para la cría selectiva de plantas y animales. ^[19] De manera similar a los enfoques modernos de construcción de una puntuación de riesgo poligénico, el valor genético de un individuo era la suma del peso del polimorfismo de un solo nucleótido por su efecto en un rasgo. ^[20] Estos métodos se aplicaron por primera vez a humanos a fines de la década de 2000, comenzando con una propuesta en 2007 de que estos puntajes podrían usarse en genética humana para identificar individuos con alto riesgo de enfermedad. ^[21] Esto se aplicó con éxito en la investigación empírica por primera vez en 2009 por investigadores que organizaron un estudio de asociación del genoma completo (GWAS) de la esquizofrenia .para construir puntajes de propensión al riesgo. Este estudio también fue el primero en utilizar el término puntuación poligénica para una predicción extraída de una combinación lineal de genotipos de polimorfismo de un solo nucleótido (SNP), que pudo explicar el 3 % de la varianza en la esquizofrenia. ^[22]

Una ilustración de la capacidad de distribución y estratificación de una puntuación de riesgo poligénico. El panel izquierdo muestra cómo en las predicciones de riesgo de enfermedad, la PRS en el eje x puede separar los casos (es decir, las personas con enfermedades) de los controles (personas sin la enfermedad). El eje y describe a cuántos de cada grupo se les asigna una determinada PRS. A la derecha, la misma población se divide en tres grupos según el riesgo previsto, su PRS asignado. El riesgo observado se muestra en el eje y y la separación de los grupos está en correspondencia con los riesgos pronosticados.

Un ejemplo temprano (2006) de una puntuación de riesgo genético aplicada a la diabetes tipo 2 en humanos. Las personas con diabetes tipo 2 (barras blancas) tienen una puntuación más alta que los controles (barras negras). ^[18]

Altura prevista frente a altura real utilizando una puntuación de riesgo poligénico

El rendimiento del predictor de PGS aumenta con el tamaño de muestra del conjunto de datos disponible para el entrenamiento. Aquí ilustrado para hipertensión, hipotiroidismo y diabetes tipo 2. El eje x etiqueta el número de casos (es decir, personas con la enfermedad) presentes en los datos de entrenamiento y utiliza una escala logarítmica. La gama completa es desde 1.000 cajas hasta más de 100.000 cajas. El número de controles (es decir, individuos sin la enfermedad) en los datos de entrenamiento fue mucho mayor que el número de casos. Estos predictores particulares fueron entrenados usando el algoritmo LASSO . ^[dieciséis]