De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

Los datos biológicos se refieren a un compuesto o información derivada de organismos vivos y sus productos. Un compuesto medicinal elaborado a partir de organismos vivos, como un suero o una vacuna, podría caracterizarse como datos biológicos. Los datos biológicos son muy complejos en comparación con otras formas de datos. Hay muchas formas de datos biológicos, incluidos texto, datos de secuencia, estructura de proteínas, datos genómicos y aminoácidos, y enlaces, entre otros.

La ARN polimerasa (violeta) es una enzima compleja en el corazón de la transcripción. Durante este proceso, la enzima desenrolla la doble hélice de ADN y utiliza una hebra (naranja más oscura) como plantilla para crear el ARN mensajero de una hebra (verde), que luego utilizan los ribosomas para la síntesis de proteínas.

Datos biológicos y bioinformática [ editar ]

Los datos biológicos trabajan en estrecha colaboración con la bioinformática , que es una disciplina reciente que se centra en abordar la necesidad de analizar e interpretar grandes cantidades de datos genómicos.

En las últimas décadas, los avances en la investigación genómica han dado lugar a cantidades masivas de datos biológicos. Como resultado, la bioinformática se creó como la convergencia de la genómica, la biotecnología y la tecnología de la información, mientras se concentraba en datos biológicos.

Los datos biológicos también han sido difíciles de definir, ya que la bioinformática es un campo muy amplio. Además, la cuestión de qué constituye un organismo vivo ha sido polémica, ya que "vivo" representa un término nebuloso que abarca la evolución molecular, el modelado biológico, la biofísica y la biología de sistemas. Desde la última década en adelante, la bioinformática y el análisis de datos biológicos han prosperado como resultado de los avances tecnológicos necesarios para gestionar e interpretar los datos. Actualmente es un campo próspero, ya que la sociedad se ha concentrado más en la adquisición, transferencia y explotación de datos bioinformáticos y biológicos.

Tipos de datos biológicos [ editar ]

Datos biológicos se puede extraer para su uso en los dominios de omics , bio-de formación de imágenes , y las imágenes médicas . Los científicos de la vida valoran los datos biológicos para proporcionar detalles moleculares en los organismos vivos. Las herramientas para la secuenciación del ADN, la expresión génica (GE), la bioimagen, la neuroimagen y las interfaces cerebro-máquina son todos dominios que utilizan datos biológicos y modelan sistemas biológicos con alta dimensionalidad. [1]

Además, los datos de secuencia biológica sin procesar generalmente se refieren a ADN , ARN y aminoácidos . [1]

Los datos biológicos también se pueden describir como datos sobre entidades biológicas. [2] Por ejemplo, características tales como: secuencias, gráficos, información geométrica, campos escalares y vectoriales, patrones, restricciones, imágenes e información espacial pueden caracterizarse como datos biológicos, ya que describen características de seres biológicos. En muchos casos, los datos biológicos están asociados con varias de estas categorías. Por ejemplo, como se describe en el informe del National Institute of Health sobre Catalizar la investigación en la interfaz de la informática y la biología, una estructura de proteína puede estar asociada con una secuencia unidimensional, una imagen bidimensional y una estructura tridimensional, y así en. [2]

CATH - Base de datos de clasificación de estructuras de proteínas

Bases de datos biomédicas [ editar ]

Las bases de datos biomédicas a menudo se denominan bases de datos de registros médicos electrónicos (EHR) , datos genómicos en sistemas de bases de datos federales descentralizados y datos biológicos, incluidos datos genómicos, recopilados de estudios clínicos a gran escala . [3] [4]

Amenazas de privacidad y piratería biológica [ editar ]

Hackeo biológico [ editar ]

Los ataques de bioinformática se han vuelto más comunes a medida que estudios recientes han demostrado que las herramientas comunes pueden permitir que un atacante sintetice información biológica que puede usarse para secuestrar información de análisis de ADN. [5] La amenaza del biohacking se ha vuelto más evidente a medida que aumenta la similitud del análisis de ADN en campos como la ciencia forense, la investigación clínica y la genómica.

El biohacking se puede llevar a cabo sintetizando ADN malicioso e insertado en muestras biológicas. Los investigadores han establecido escenarios que demuestran la amenaza del biohacking, como un pirata informático que alcanza una muestra biológica al ocultar ADN malicioso en superficies comunes, como batas de laboratorio, bancos o guantes de goma, que luego contaminarían los datos genéticos. [5]

Sin embargo, la amenaza de biohacking puede mitigarse mediante el uso de técnicas similares que se utilizan para prevenir los ataques de inyección convencionales. Los médicos y los investigadores pueden mitigar un ataque biológico extrayendo información genética de muestras biológicas y comparando las muestras para identificar materiales desconocidos. Los estudios han demostrado que comparar información genética con muestras biológicas, para identificar el código de piratería biológica, ha sido hasta un 95% eficaz en la detección de inserciones de ADN maliciosas en ataques de piratería biológica. [5]

Muestras genéticas como datos personales [ editar ]

Las preocupaciones sobre la privacidad en la investigación genómica han surgido en torno a la noción de si las muestras genómicas contienen o no datos personales, o deben considerarse como materia física. [6] Además, surgen preocupaciones porque algunos países reconocen los datos genómicos como datos personales (y aplican reglas de protección de datos) mientras que otros países consideran las muestras en términos de materia física y no aplican las mismas leyes de protección de datos a las muestras genómicas. El próximo Reglamento de Protección de Datos ( GDPR ) ha sido citado como un instrumento legal potencial que pueda aplicar mejor las normas de privacidad en bio-banca y la investigación genómica. [6]

Sin embargo, la ambigüedad en torno a la definición de "datos personales" en el texto del RGPD, especialmente en lo que respecta a los datos biológicos, ha generado dudas sobre si se hará cumplir la regulación para las muestras genéticas. El artículo 4 (1) establece que los datos personales se definen como "Cualquier información relacionada con una persona física identificada o identificable ('interesado')" [7].

Aplicaciones del aprendizaje profundo a los datos biológicos [ editar ]

Como resultado de los rápidos avances en la ciencia de datos y el poder computacional, los científicos de la vida han podido aplicar métodos de aprendizaje automático intensivos en datos a los datos biológicos, como el aprendizaje profundo (DL), el aprendizaje por refuerzo (RL) y su combinación (RL profundo ). Estos métodos, junto con los aumentos en el almacenamiento de datos y la computación, han permitido a los científicos de la vida extraer datos biológicos y analizar conjuntos de datos que antes eran demasiado grandes o complejos. El aprendizaje profundo (DL) y el aprendizaje por refuerzo (RL) se han utilizado en el campo de la investigación ómica [1](que incluye genómica, proteómica o metabolómica). Normalmente, los datos de secuencias biológicas sin procesar (como ADN, ARN y aminoácidos) se extraen y utilizan para analizar características, funciones, estructuras y dinámica molecular a partir de los datos biológicos. A partir de ese momento, se pueden realizar diferentes análisis, como la predicción de la unión de empalme y empalme de perfiles de GE, y se puede realizar la evaluación de la interacción proteína-proteína. [1]

El aprendizaje por refuerzo, un término derivado de la psicología del comportamiento, es un método de resolución de problemas mediante el aprendizaje de cosas mediante ensayo y error. El aprendizaje por refuerzo se puede aplicar a datos biológicos, en el campo de la ómica, mediante el uso de RL para predecir genomas bacterianos. [8]

Otros estudios han demostrado que el aprendizaje por refuerzo se puede utilizar para predecir con precisión la anotación de secuencias biológicas. [9]

Las arquitecturas de aprendizaje profundo (DL) también son útiles para entrenar datos biológicos. Por ejemplo, se han utilizado arquitecturas DL que se dirigen a niveles de píxeles de imágenes biológicas para identificar el proceso de mitosis en imágenes histológicas de la mama. Las arquitecturas DL también se han utilizado para identificar núcleos en imágenes de células de cáncer de mama. [10]

Desafíos para la minería de datos en informática biomédica [ editar ]

Complejidad [ editar ]

El principal problema al que se enfrentan los modelos de datos biomédicos ha sido típicamente la complejidad, ya que los científicos de la vida en entornos clínicos e investigación biomédica enfrentan la posibilidad de una sobrecarga de información. Sin embargo, la sobrecarga de información ha sido un fenómeno debatido en los campos médicos. [11] Los avances computacionales han permitido que se formen comunidades separadas bajo diferentes filosofías. Por ejemplo, los investigadores de minería de datos y aprendizaje automático buscan patrones relevantes en datos biológicos y la arquitectura no depende de la intervención humana. Sin embargo, existen riesgos al modelar artefactos cuando se reduce la intervención humana, como la comprensión y el control del usuario final. [12]

Los investigadores han señalado que con el aumento de los costos de la atención médica y la enorme cantidad de datos infrautilizados, las tecnologías de la información médica pueden ser la clave para mejorar la eficiencia y la calidad de la atención médica. [11]

Errores y abusos de la base de datos [ editar ]

Los registros de salud electrónicos (HCE) pueden contener datos genómicos de millones de pacientes, y la creación de estas bases de datos ha generado tanto elogios como preocupación. [4]

Los académicos legales han señalado tres preocupaciones principales para aumentar los litigios relacionados con las bases de datos biomédicas. Primero, los datos contenidos en las bases de datos biomédicas pueden ser incorrectos o estar incompletos. En segundo lugar, los sesgos sistémicos, que pueden surgir de los sesgos de los investigadores o de la naturaleza de los datos biológicos, pueden amenazar la validez de los resultados de la investigación. En tercer lugar, la presencia de la minería de datos en las bases de datos biológicas puede facilitar que las personas con agendas políticas, sociales o económicas manipulen los resultados de la investigación para influir en la opinión pública. [13] [4]

Un ejemplo de mal uso de la base de datos ocurrió en 2009 cuando el Journal of Psychiatric Research publicó un estudio que asociaba el aborto a los trastornos psiquiátricos. [14] El propósito del estudio fue analizar las asociaciones entre el historial de abortos y los trastornos psiquiátricos, como los trastornos de ansiedad (incluido el trastorno de pánico, el trastorno de estrés postraumático y la agorafobia) junto con los trastornos por abuso de sustancias y los trastornos del estado de ánimo.

Sin embargo, el estudio fue desacreditado en 2012 cuando los científicos examinaron la metodología del estudio y la encontraron muy defectuosa. [15] Los investigadores habían utilizado "conjuntos de datos nacionales con antecedentes reproductivos y variables de salud mental" [14] para producir sus hallazgos. Sin embargo, los investigadores no habían podido comparar a las mujeres (que habían tenido embarazos no planificados y habían tenido abortos) con el grupo de mujeres que no habían tenido abortos, mientras se centraban en los problemas psiquiátricos que ocurrían después de los embarazos interrumpidos. Como resultado, los hallazgos que parecían dar credibilidad científica, dieron lugar a que varios estados promulgaran leyes [16] que requerían que las mujeres buscaran asesoramiento antes del aborto, debido al potencial de consecuencias a largo plazo para la salud mental.

Otro artículo, publicado en el New York Times, demostró cómo los médicos pueden manipular los sistemas de registros médicos electrónicos (EHR) para exagerar la cantidad de atención que brindan a los fines del reembolso de Medicare. [17] [4]

Un informe del Servicio de Investigación del Congreso sobre la seguridad de la información de salud bajo HIPAA

Intercambio de datos biomédicos [ editar ]

El intercambio de datos biomédicos se ha promocionado como una forma eficaz de mejorar la reproducibilidad de la investigación y el descubrimiento científico. [13] [18]

Si bien los investigadores luchan con problemas tecnológicos al compartir datos, los problemas sociales también son una barrera para compartir datos biológicos. Por ejemplo, los médicos y los investigadores enfrentan desafíos únicos para compartir datos biológicos o de salud dentro de sus comunidades médicas, como preocupaciones de privacidad y leyes de privacidad del paciente como HIPAA. [19]

Actitudes hacia el intercambio de datos [ editar ]

Según un estudio de 2015 [19] centrado en las actitudes de las prácticas de los médicos y el personal de investigación científica, la mayoría de los encuestados informaron que compartir datos era importante para su trabajo, pero indicaron que su experiencia en el tema era baja. De los 190 que respondieron a la encuesta, 135 se identificaron como científicos de investigación clínica o básica, y la población de la encuesta incluyó científicos de investigación clínica y básica en el Programa de Investigación Intramural del Instituto Nacional de Salud. El estudio también encontró que, entre los encuestados, compartir datos directamente con otros médicos era una práctica común, pero los sujetos del estudio tenían poca práctica para cargar datos en un repositorio.

En el campo de la investigación biomédica, se ha promovido el intercambio de datos [20] como una forma importante para que los investigadores compartan y reutilicen datos con el fin de capturar plenamente los beneficios de la medicina personalizada y de precisión . [19]

Desafíos para el intercambio de datos [ editar ]

El intercambio de datos en el ámbito de la asistencia sanitaria sigue siendo un desafío por varias razones. A pesar de los avances de la investigación en el intercambio de datos en la atención médica, muchas organizaciones de atención médica siguen siendo reacias o no están dispuestas a divulgar datos médicos debido a las leyes de privacidad, como la Ley de Responsabilidad y Portabilidad de Seguros de Salud (HIPAA) . Además, compartir datos biológicos entre instituciones requiere proteger la confidencialidad de los datos que pueden abarcar varias organizaciones. Lograr la sintaxis de los datos y la heterogeneidad semántica al tiempo que se cumplen los diversos requisitos de privacidad son factores que plantean barreras para el intercambio de datos. [21]

Referencias [ editar ]

  1. ^ a b c d Mahmud, Mufti; Kaiser, Mohammed Shamim; Hussain, Amir; Vassanelli, Stefano (junio de 2018). "Aplicaciones del Aprendizaje Profundo y Aprendizaje por Refuerzo a Datos Biológicos" . Transacciones IEEE en redes neuronales y sistemas de aprendizaje . 29 (6): 2063–2079. doi : 10.1109 / tnnls.2018.2790388 . hdl : 1893/26814 . ISSN  2162-237X . PMID  29771663 . S2CID  9823884 .
  2. ^ a b Wooley, John C .; Lin, Herbert S .; Biología, Comité de Fronteras en la Interfaz de la Computación del Consejo Nacional de Investigación (EE. UU.) Y (2005). Sobre la naturaleza de los datos biológicos . Prensa de Academias Nacionales (EE. UU.).
  3. ^ Nadkarni, PM; Brandt, C .; Frawley, S .; Sayward, FG; Einbinder, R .; Zelterman, D .; Schacter, L .; Miller, PL (1 de marzo de 1998). "Gestión de datos de ensayos clínicos de valor atributo mediante el sistema de base de datos cliente-servidor ACT / DB" . Revista de la Asociación Estadounidense de Informática Médica . 5 (2): 139-151. doi : 10.1136 / jamia.1998.0050139 . ISSN 1067-5027 . PMC 61285 . PMID 9524347 .   
  4. ^ a b c d Hoffman, Sharona; Podgurski, Andy (2013). "El uso y mal uso de datos biomédicos: ¿es más grande realmente mejor?" . Revista estadounidense de derecho y medicina . 39 (4): 497–538. doi : 10.1177 / 009885881303900401 . ISSN 0098-8588 . PMID 24494442 . S2CID 35371353 .   
  5. ^ a b c Islam, Mohd Siblee; Ivanov, S .; Robson, E .; Dooley-Cullinane, T .; Coffey, L .; Doolin, K .; Balasubramaniam, S. (2019). "Similitud genética de muestras biológicas para contrarrestar el bio-pirateo de la funcionalidad de secuenciación de ADN" . Informes científicos . 9 (1): 8684. Código Bibliográfico : 2019NatSR ... 9.8684I . doi : 10.1038 / s41598-019-44995-6 . PMC 6581904 . PMID 31213619 . S2CID 190652460 .   
  6. ^ a b Hallinan, Dara; De Hert, Paul (2016), Mittelstadt, Brent Daniel; Floridi, Luciano (eds.), "Muchos se equivocan: las muestras contienen datos personales: el Reglamento de protección de datos como marco superior para proteger los intereses de los donantes en biobancos e investigación genómica" , La ética de los macrodatos biomédicos , la legislación, la gobernanza y Serie de tecnología, Cham: Springer International Publishing, págs. 119-137, doi : 10.1007 / 978-3-319-33525-4_6 , ISBN 978-3-319-33525-4, consultado 2020-12-09
  7. ^ "Statewatch.org" (PDF) . StateWatch.org . Consultado el 3 de julio de 2015 .
  8. ^ Chuang, Li-Yeh; Tsai, Jui-Hung; Yang, Cheng-Hong (julio de 2010). "Optimización de enjambre de partículas binarias para la predicción del operón" . Investigación de ácidos nucleicos . 38 (12): e128. doi : 10.1093 / nar / gkq204 . ISSN 0305-1048 . PMC 2896535 . PMID 20385582 .   
  9. ^ Ralha, CG; Schneider, HW; Walter, MEMT; Bazzan, AL (octubre de 2010). "Método de aprendizaje por refuerzo para BioAgents" . 2010 XI Simposio Brasileño de Redes Neuronales : 109-114. doi : 10.1109 / SBRN.2010.27 . ISBN 978-1-4244-8391-4. S2CID  14685651 .
  10. ^ Xu, junio; Xiang, Lei; Liu, Qingshan; Gilmore, Hannah; Wu, Jianzhong; Tang, Jinghai; Madabhushi, Anant (enero de 2016). "Autoencoder disperso apilado (SSAE) para la detección de núcleos en imágenes de histopatología de cáncer de mama" . Transacciones IEEE sobre imágenes médicas . 35 (1): 119–130. doi : 10.1109 / TMI.2015.2458702 . ISSN 0278-0062 . PMC 4729702 . PMID 26208307 .   
  11. ↑ a b Holzinger, Andreas; Jurisica, Igor (2014), Holzinger, Andreas; Jurisica, Igor (eds.), "Descubrimiento de conocimiento y minería de datos en informática biomédica: el futuro está en soluciones de aprendizaje de máquina interactivas e integradoras" , Descubrimiento de conocimiento interactivo y minería de datos en informática biomédica: estado del arte y desafíos futuros , Lecture Notes in Computer Science, Berlín, Heidelberg: Springer, págs. 1-18, doi : 10.1007 / 978-3-662-43968-5_1 , ISBN 978-3-662-43968-5, consultado 2020-12-09
  12. ^ Shneiderman, Ben (marzo de 2002). "Inventar herramientas de descubrimiento: combinar visualización de información con minería de datos" . Visualización de información . 1 (1): 5–12. doi : 10.1057 / palgrave.ivs.9500006 . hdl : 1903/6484 . ISSN 1473-8716 . S2CID 208272047 .  
  13. ↑ a b Mittelstadt, Brent Daniel; Floridi, Luciano (abril de 2016). "La ética del Big Data: cuestiones actuales y previsibles en contextos biomédicos" . Ética de la ciencia y la ingeniería . 22 (2): 303–341. doi : 10.1007 / s11948-015-9652-2 . ISSN 1471-5546 . PMID 26002496 . S2CID 23142795 .   
  14. ↑ a b Coleman, Priscilla K .; Coyle, Catherine T .; Shuping, Martha; Rue, Vincent M. (mayo de 2009). "Aborto inducido y trastornos de ansiedad, estado de ánimo y abuso de sustancias: aislamiento de los efectos del aborto en la encuesta nacional de comorbilidad" . Revista de Investigación Psiquiátrica . 43 (8): 770–776. doi : 10.1016 / j.jpsychires.2008.10.009 . ISSN 1879-1379 . PMID 19046750 .  
  15. ^ Kessler, Ronald C .; Schatzberg, Alan F. (marzo de 2012). "Comentario sobre estudios sobre el aborto de Steinberg y Finer (Ciencias sociales y medicina 2011; 72: 72-82) y Coleman (Journal of Psychiatric Research 2009; 43: 770-6 y Journal of Psychiatric Research 2011; 45: 1133-4)" . Revista de Investigación Psiquiátrica . 46 (3): 410–411. doi : 10.1016 / j.jpsychires.2012.01.021 .
  16. ^ "Períodos de espera y asesoramiento para el aborto" . Instituto Guttmacher . 2016-03-14 . Consultado el 9 de diciembre de 2020 .
  17. ^ Abelson, Reed; Creswell, Julie; Palmer, Griff (22 de septiembre de 2012). "Las facturas de Medicare aumentan a medida que los registros se vuelven electrónicos (publicado en 2012)" . The New York Times . ISSN 0362-4331 . Consultado el 9 de diciembre de 2020 . 
  18. ^ Kalkman, Shona; Mostert, Menno; Gerlinger, Christoph; van Delden, Johannes JM; van Thiel, Ghislaine JMW (28 de marzo de 2019). "Intercambio responsable de datos en la investigación sanitaria internacional: una revisión sistemática de principios y normas" . Ética Médica de BMC . 20 (1): 21. doi : 10.1186 / s12910-019-0359-9 . ISSN 1472-6939 . PMC 6437875 . PMID 30922290 .   
  19. ^ a b c Federer, Lisa M .; Lu, Ya-Ling; Joubert, Douglas J .; Galés, Judith; Brandys, Barbara (24 de junio de 2015). Kanungo, Jyotshna (ed.). "Intercambio y reutilización de datos biomédicos: actitudes y prácticas del personal de investigación clínica y científica" . PLOS ONE . 10 (6): e0129506. Código bibliográfico : 2015PLoSO..1029506F . doi : 10.1371 / journal.pone.0129506 . ISSN 1932-6203 . PMC 4481309 . PMID 26107811 .   
  20. Shneiderman, Ben (21 de julio de 2016). "Inventar herramientas de descubrimiento: combinar visualización de información con minería de datos1" . Visualización de información . 1 : 5-12. doi : 10.1057 / palgrave.ivs.9500006 . hdl : 1903/6484 . S2CID 208272047 . 
  21. ^ Wimmer, Hayden; Yoon, Victoria Y .; Sugumaran, Vijayan (1 de agosto de 2016). "Un sistema de agentes múltiples para apoyar la medicina basada en la evidencia y la toma de decisiones clínicas a través del intercambio de datos y la privacidad de los datos" . Sistemas de apoyo a la toma de decisiones . 88 : 51–66. doi : 10.1016 / j.dss.2016.05.008 . ISSN 0167-9236 .