Warren Richard Gish es el propietario de Advanced Biocomputing LLC. Se unió a la Universidad de Washington en St. Louis como miembro de la facultad junior en 1994, y fue profesor asociado de investigación de genética de 2002 a 2007. [2] [3]
Warren Richard Gish | |
---|---|
Nacionalidad | americano |
alma mater | Universidad de California, Berkeley |
Conocido por | EXPLOSIÓN |
Carrera científica | |
Campos | Bioinformática |
Instituciones | Centro Nacional de Información Biotecnológica Universidad de Washington en St. Louis Advanced Biocomputing LLC Universidad de California, Berkeley |
Tesis | I. Mutantes de SV40 aislados de células humanas transformadas. II. Métodos de análisis de secuencias (1988) |
Asesor de doctorado | Michael Botchan [1] |
Educación
Después de estudiar inicialmente la física, Gish obtuvo un AB grado en Bioquímica de la Universidad de California, Berkeley , y completó el trabajo por su Ph.D. Licenciada en Biología Molecular en la misma institución en 1988. [1]
Investigar
Gish es principalmente conocido por sus contribuciones a NCBI BLAST , [4] [5] su creación de BLAST Network Service y bases de datos nr (no redundantes), su lanzamiento en 1996 del BLAST original con huecos ( WU-BLAST 2.0 ), y la mayoría de recientemente su desarrollo y soporte de AB-BLAST . En la Universidad de Washington en St. Louis , Gish también dirigió el grupo de análisis del genoma que anotó todos los datos terminados del genoma de humanos, ratones y ratas producidos por el Centro de secuenciación del genoma de la Universidad desde 1995 hasta 2002.
Como estudiante de posgrado, Gish aplicó el algoritmo de Quine-McCluskey al análisis de secuencias de reconocimiento de sitios de empalme. En 1985, con miras a la rápida identificación de la enzima de restricción sitios de reconocimiento en el ADN, Gish desarrolló un DFA biblioteca de funciones en el lenguaje C . La idea de aplicar una máquina de estados finitos a este problema había sido sugerida por un compañero de estudios de posgrado y desarrollador de BSD UNIX, Mike Karels . La implementación de DFA de Gish fue la de una arquitectura de máquina Mealy , que es más compacta que una máquina Moore equivalente y, por lo tanto, más rápida. La construcción del DFA fue O ( n ), donde n es la suma de las longitudes de las secuencias de consulta. Luego, el DFA podría usarse para escanear secuencias de sujetos en una sola pasada sin retroceso en el tiempo O ( m ), donde m es la longitud total de los sujetos. El método de construcción de DFA fue reconocido más tarde como una consolidación de dos algoritmos, los algoritmos 3 y 4 descritos por Alfred V. Aho y Margaret J. Corasick . [6]
Mientras trabajaba para UC Berkeley en diciembre de 1986, Gish aceleró el programa FASTP [7] (más tarde conocido como FASTA [8] ) de William R. Pearson y David J. Lipman de 2 a 3 veces sin alterar los resultados. Cuando se comunicaron las modificaciones de rendimiento a Pearson y Lipman, Gish sugirió además que un DFA (en lugar de una tabla de búsqueda) produciría una identificación de k-tuplas más rápida y mejoraría la velocidad general del programa quizás hasta en un 10% en algunos casos; sin embargo, los autores consideraron que tal mejora marginal, incluso en el mejor de los casos, no valía la pena la complejidad adicional del código. Gish también imaginó en este momento un servicio de búsqueda centralizado, en el que todas las secuencias de nucleótidos de GenBank se mantendrían en la memoria para eliminar los cuellos de botella de E / S, y se almacenarían en forma comprimida para conservar la memoria, con clientes que invocarían búsquedas FASTN de forma remota a través de Internet.
Las primeras contribuciones de Gish a BLAST se realizaron mientras trabajaba en el NCBI , a partir de julio de 1989. Incluso en los primeros prototipos, BLAST era típicamente mucho más rápido que FASTA . Gish reconoció el beneficio adicional potencial en esta aplicación de usar un DFA para el reconocimiento de palabras clave. Él transformó su código DFA anterior en una forma flexible que incorporó en todos los modos de búsqueda BLAST . Otras de sus contribuciones a BLAST incluyen: el uso de secuencias de nucleótidos comprimidas, tanto como un formato de almacenamiento eficiente como un formato de búsqueda nativo rápido; procesamiento en paralelo; E / S mapeadas en memoria; el uso de bytes centinela y palabras centinela al principio y al final de las secuencias para mejorar la velocidad de extensión de palabras clave; las implementaciones originales de BLASTX , [9] TBLASTN [4] y TBLASTX (no publicado); el uso transparente de programas externos (plug-in) como seg , xnu y dust para enmascarar regiones de baja complejidad en secuencias de consulta en tiempo de ejecución; el servicio de correo electrónico NCBI BLAST con comunicaciones encriptadas con clave pública opcional; el servicio de red NCBI Experimental BLAST; las bases de datos de secuencias de nucleótidos y proteínas no redundantes ( nr ) del NCBI , normalmente actualizadas a diario con todos los datos de GenBank , Swiss-Prot y PIR . Gish desarrolló la primera API BLAST , que se utilizó en la anotación EST [10] y la producción de datos de Entrez , así como en la suite de aplicaciones NCBI BLAST versión 1.4 (Gish, no publicado). Gish también fue el creador y gerente de proyecto del primer Dispatcher de NCBI para servicios distribuidos (inspirado en el Object Request Broker de CORBA ). Abierto por primera vez a usuarios externos en diciembre de 1989, el NCBI Experimental BLAST Network Service, que ejecuta el último software BLAST en hardware SMP con las últimas versiones de las principales bases de datos de secuencias, estableció rápidamente el NCBI como una ventanilla única y conveniente para la búsqueda de similitudes de secuencias. .
En la Universidad de Washington en St. Louis , Gish revolucionó la búsqueda de similitudes al desarrollar el primer conjunto de programas BLAST para combinar la alineación rápida de secuencias con brechas con métodos de evaluación estadística apropiados para las puntuaciones de alineación con brechas. Los programas de búsqueda resultantes fueron significativamente más sensibles pero solo marginalmente más lentos que BLAST sin espacios , debido a la nueva aplicación de la puntuación X de caída de BLAST durante la extensión de alineación con espacios. La sensibilidad de BLAST con huecos se mejoró aún más mediante la nueva aplicación de las estadísticas de Karlin-Altschul Sum [11] para la evaluación de puntuaciones de alineación con huecos múltiples en todos los modos de búsqueda de BLAST . Las estadísticas de sumas se desarrollaron originalmente de forma analítica para la evaluación de múltiples puntuaciones de alineación sin huecos. El uso empírico de las estadísticas Sum en el tratamiento de las puntuaciones de alineación con huecos se validó en colaboración con Stephen Altschul , de 1994 a 1995. En mayo de 1996, la versión 2.0 de WU-BLAST con alineaciones con huecos se lanzó públicamente en forma de actualización directa para los usuarios existentes de NCBI BLAST y WU-BLAST sin huecos (ambos en la versión 1.4, después de haberse bifurcado en 1994). Se recibió poca financiación de los NIH para su desarrollo de WU-BLAST, con un promedio de 20% FTE a partir de noviembre de 1995 y finalizando poco después del lanzamiento en septiembre de 1997 del NCBI Gapped BLAST ("blastall"). Como una opción para WU-BLAST, Gish implementó un algoritmo BLAST de dos golpes más rápido, más eficiente en memoria y más sensible que el que utilizó el software NCBI durante muchos años. En 1999, Gish agregó soporte a WU-BLAST para el formato de base de datos extendido (XDF), el primer formato de base de datos BLAST capaz de representar con precisión la secuencia de borrador completa del genoma humano en objetos de secuencia de cromosomas de longitud completa. Esta fue también la primera vez que un paquete BLAST introdujo un nuevo formato de base de datos de forma transparente para los usuarios existentes, sin abandonar el soporte para formatos anteriores, como resultado de abstraer las funciones de E / S de la base de datos de las funciones de análisis de datos. WU-BLAST con XDF fue la primera suite BLAST que admitió la recuperación indexada de identificadores de secuencia de formato FASTA estándar de NCBI (incluida la gama completa de identificadores de NCBI); el primero en permitir la recuperación de secuencias individuales en parte o en su totalidad, de forma nativa, traducidas o complementadas a la inversa; y el primero capaz de volcar todo el contenido de una base de datos BLAST en formato FASTA legible por humanos . En 2000, se agregó un soporte único para la presentación de informes de enlaces (conjuntos consistentes de HSP; también llamados cadenas en algunos paquetes de software posteriores), junto con la capacidad para que los usuarios limiten la distancia entre los HSP permitidos en el mismo conjunto a una longitud biológicamente relevante ( por ejemplo, la longitud del intrón más largo esperado en la especie de interés) y con la limitación de distancia que entra en el cálculo de los valores E. Entre 2001 y 2003, Gish mejoró la velocidad del código DFA utilizado en WU-BLAST. Gish también propuso la multiplexación de secuencias de consulta para acelerar las búsquedas BLAST en un orden de magnitud o más (MPBLAST); implementó secuencias segmentadas con bytes centinela internos, en parte para ayudar a la multiplexación con MPBLAST y en parte para ayudar al análisis de secuencias de consulta segmentadas de ensamblajes de secuenciación de escopeta; y el uso dirigido de WU-BLAST como un motor de búsqueda rápido y flexible para identificar y enmascarar con precisión las secuencias del genoma de elementos repetitivos y secuencias de baja complejidad (el paquete MaskerAid [12] para RepeatMasker). Con el estudiante de doctorado Miao Zhang, Gish dirigió el desarrollo de EXALIN, [13] que mejoró significativamente la precisión de las predicciones de alineación empalmadas, mediante un enfoque novedoso que combinaba información de modelos de sitios de empalme de donantes y aceptores con información de conservación de secuencias. Aunque EXALIN realizaba una programación dinámica completa de forma predeterminada, podía utilizar opcionalmente la salida de WU-BLAST para generar la programación dinámica y acelerar el proceso aproximadamente 100 veces con poca pérdida de sensibilidad o precisión.
En 2008, Gish fundó Advanced Biocomputing, LLC, donde continúa mejorando y respaldando el paquete AB-BLAST. [ cita requerida ]
Referencias
- ↑ a b Gish, Warren Richard (1988). I. Mutantes de SV40 aislados de células humanas transformadas. II. Métodos de análisis de secuencias (tesis doctoral). Universidad de California, Berkeley. ProQuest 303669506 .
- ^ Lista de publicaciones de Microsoft Academic
- ^ Warren Gish en elservidor de bibliografía DBLP
- ^ a b Altschul, S .; Gish, W .; Miller, W .; Myers, E .; Lipman, D. (1990). "Herramienta básica de búsqueda de alineación local". Revista de Biología Molecular . 215 (3): 403–410. doi : 10.1016 / S0022-2836 (05) 80360-2 . PMID 2231712 .
- ^ Sentido de las secuencias: Stephen F. Altschul en Bettering BLAST
- ^ Aho, Alfred V .; Corasick, Margaret J. (junio de 1975). "Coincidencia de cadenas eficiente: una ayuda para la búsqueda bibliográfica". Comunicaciones de la ACM . 18 (6): 333–340. doi : 10.1145 / 360825.360855 . S2CID 207735784 .
- ^ Lipman, DJ; Pearson, WR (1985). "Búsquedas rápidas y sensibles de similitud de proteínas". Ciencia . 227 (4693): 1435–41. Código Bibliográfico : 1985Sci ... 227.1435L . doi : 10.1126 / science.2983426 . PMID 2983426 .
- ^ Pearson, WR; Lipman, DJ (1988). "Herramientas mejoradas para la comparación de secuencias biológicas" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 85 (8): 2444–2448. Código Bibliográfico : 1988PNAS ... 85.2444P . doi : 10.1073 / pnas.85.8.2444 . PMC 280013 . PMID 3162770 .
- ^ Gish, W .; Estados, DJ (1993). "Identificación de regiones codificantes de proteínas mediante búsqueda de similitud en la base de datos". Genética de la naturaleza . 3 (3): 266–272. doi : 10.1038 / ng0393-266 . PMID 8485583 . S2CID 15295142 .
- ^ Boguski, MS; Lowe, TM; Tolstoshev, CM (1993). "dbEST - base de datos para" etiquetas de secuencia expresadas " " . Genética de la naturaleza . 4 (4): 332–333. doi : 10.1038 / ng0893-332 . PMID 8401577 . S2CID 40138950 .
- ^ Karlin, S .; Altschul, SF (1993). "Aplicaciones y estadísticas para múltiples segmentos de alta puntuación en secuencias moleculares" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 90 (12): 5873–5877. Código Bibliográfico : 1993PNAS ... 90.5873K . doi : 10.1073 / pnas.90.12.5873 . PMC 46825 . PMID 8390686 .
- ^ Bedell, JA; Korf, I .; Gish, W. (2000). "MaskerAid: una mejora del rendimiento de RepeatMasker" . Bioinformática . 16 (11): 1040–1041. doi : 10.1093 / bioinformatics / 16.11.1040 . PMID 11159316 .
- ^ Zhang, M .; Gish, W. (2005). "Mejora de la alineación empalmada desde un enfoque teórico de la información" . Bioinformática . 22 (1): 13-20. doi : 10.1093 / bioinformatics / bti748 . PMID 16267086 .