La espectrometría de masas es una técnica científica para medir la relación masa-carga de los iones. A menudo se combina con técnicas cromatográficas como la cromatografía de gases o de líquidos y ha encontrado una adopción generalizada en los campos de la química analítica y la bioquímica, donde se puede utilizar para identificar y caracterizar pequeñas moléculas y proteínas ( proteómica). El gran volumen de datos producidos en un experimento típico de espectrometría de masas requiere que se utilicen computadoras para el almacenamiento y procesamiento de datos. A lo largo de los años, diferentes fabricantes de espectrómetros de masas han desarrollado varios formatos de datos patentados para manejar dichos datos, lo que dificulta que los científicos académicos manipulen directamente sus datos. Para hacer frente a esta limitación, varios abiertos , XML formatos de datos basados recientemente han sido desarrollados por el Trans-proteómico de la tubería en el Instituto de Biología de Sistemas para facilitar la manipulación de datos y la innovación en el sector público. [1] Estos formatos de datos se describen aquí.
Formatos abiertos
JCAMP-DX
Este formato fue uno de los primeros intentos de proporcionar un formato de archivo estandarizado para el intercambio de datos en espectrometría de masas. JCAMP -DX se desarrolló inicialmente para espectrometría infrarroja. JCAMP-DX es un formato basado en ASCII y, por lo tanto, no es muy compacto a pesar de que incluye estándares para la compresión de archivos. JCAMP fue lanzado oficialmente en 1988. [2] Junto con la Sociedad Estadounidense de Espectrometría de Masas, se desarrolló un formato JCAMP-DX para espectrometría de masas con el objetivo de preservar los datos heredados. [3]
ANDI-MS o netCDF
El formato de intercambio de datos analíticos para espectrometría de masas es un formato para intercambiar datos. Muchos paquetes de software de espectrometría de masas pueden leer o escribir archivos ANDI. ANDI se especifica en la norma ASTM E1947. [4] ANDI se basa en netCDF, que es una biblioteca de herramientas de software para escribir y leer archivos de datos. ANDI se desarrolló inicialmente para datos de cromatografía-MS y, por lo tanto, no se utilizó en la fiebre del oro de la proteómica , donde se desarrollaron nuevos formatos basados en XML . [5]
mzData
mzData fue el primer intento de la Proteomics Standards Initiative (PSI) de la Human Proteome Organization (HUPO) para crear un formato estandarizado para datos de espectrometría de masas. [6] Este formato ahora está obsoleto y reemplazado por mzML. [7]
mzXML
mzXML es un formato de archivo común basado en XML (eXtensible Markup Language) para datos de espectrometría de masas proteómica . [8] [9] Este formato se desarrolló en el Seattle Proteome Center / Institute for Systems Biology mientras HUPO-PSI intentaba especificar el formato estandarizado mzData, y todavía se utiliza en la comunidad proteómica.
mzML
Como dos formatos (mzData y mzXML) para representar la misma información es un estado indeseable, HUPO-PSI, el SPC / ISB y los proveedores de instrumentos establecieron un esfuerzo conjunto para crear un estándar unificado tomando prestados los mejores aspectos de mzData y mzXML, y destinado a reemplazarlos. Originalmente llamado dataXML, fue anunciado oficialmente como mzML. [10] La primera especificación se publicó en junio de 2008. [11] Este formato se lanzó oficialmente en la reunión de la Sociedad Estadounidense de Espectrometría de Masas de 2008 , y desde entonces es relativamente estable con muy pocas actualizaciones. El 1 de junio de 2009, se lanzó mzML 1.1.0. No hay más cambios previstos a partir de 2013.
mz5
El formato mz5 aborda los problemas de rendimiento de los formatos anteriores basados en XML. Utiliza la ontología mzML, pero guarda los datos con el backend HDF5 para reducir los requisitos de espacio de almacenamiento y mejorar la velocidad de lectura / escritura. [12]
mzMLb
mzMLb es otra versión del uso de un backend HDF5 para un ahorro de datos sin procesar de alto rendimiento. Sin embargo, conserva la estructura de datos XML de mzML y sigue cumpliendo con el estándar existente. [13]
Caramelo
Toffee es un formato de archivo abierto sin pérdidas para espectrometría de masas de adquisición independiente de datos . Aprovecha HDF5 y tiene como objetivo lograr tamaños de archivo similares a los de los formatos propietarios y de proveedores cerrados. [14]
imzML
Se propuso el estándar imzML para intercambiar datos de imágenes de espectrometría de masas en un archivo XML estandarizado basado en la ontología mzML. Divide datos experimentales en XML y datos espectrales en un archivo binario. Ambos archivos están vinculados por un identificador único universal . [15]
Formatos propietarios
A continuación se muestra una tabla de diferentes extensiones de formato de archivo.
Empresa Extensión Tipo de archivo Agilent
Bruker.D (carpeta) Formato de datos Agilent MassHunter, Agilent ChemStation o Bruker BAF / YEP / TDF Agilent / Bruker .SÍ formato de datos del instrumento Bruker .BAF formato de datos del instrumento Bruker .DEFENSOR formato de datos del instrumento Bruker .TDF formato de datos del instrumento timsTOF ABI / Sciex .WIFF formato de datos del instrumento ABI / Sciex .t2d Formato de archivo 4700 y 4800 Aguas .PKL Formato de lista de picos de MassLynx Thermo
PerkinElmer.CRUDO* Thermo Xcalibur
PerkinElmer TurboMassMicromasa ** / Aguas .RAW * (carpeta) Aguas MassLynx Chromtech
Finnigan ***
VG.DAT Formato de archivo Finnigan ITDS; Formato de datos del instrumento
MAT95 Formato de datos MassLabFinnigan *** .SRA Formato de datos del instrumento ITS40 Shimadzu .QGD Formato GCMSSolution Shimadzu .qgd formato de datos del instrumento Shimadzu .lcd Formato de datos del instrumento QQQ / QTOF Shimadzu .spc formato de datos de biblioteca Bruker / Varian .SMS formato de datos del instrumento Bruker / Varian .XMS formato de datos del instrumento ION-TOF .itm datos de medición sin procesar ION-TOF .ita datos de análisis Electrónica física / ULVAC-PHI .crudo* datos de medición sin procesar Electrónica física / ULVAC-PHI .tdc datos del espectro
(*) Tenga en cuenta que los formatos RAW de cada proveedor no son intercambiables; el software de uno no puede manejar los archivos RAW de otro.
(**) Micromass fue adquirida por Waters en 1997
(***) Finnigan es una división de Thermo
Software
Espectadores
Hay varios visores para mzXML, mzML y mzData: MZmine, [16] PEAKS, [17] Insilicos , [18] MS-Spectre, [19] TOPPView (mzXML, mzML y mzData), [20] Spectra Viewer, [21 ] SeeMS, [22] msInspect, [23] jmzML [24] y Mascot Distiller. [25]
Hay un visor de imágenes ITA. [26] Las imágenes ITA e ITM se pueden analizar con la biblioteca python pySPM. [27]
Convertidores
Convertidores conocidos de mzData a mzXML:
- Hermes: un convertidor Java "mzData, mzXML, mzML" a todas las direcciones: disponible públicamente, se ejecuta con una interfaz gráfica de usuario, por el Instituto de Biología de Sistemas Moleculares, ETH Zurich [28] [29]
- FileConverter: una herramienta de línea de comandos que convierte a / desde varios formatos de espectrometría de masas, [30] parte de TOPP [31]
Convertidores conocidos para mzXML:
- El Instituto de Biología de Sistemas mantiene una lista de convertidores [32]
Convertidores conocidos para mzML:
- msConvert: [33] [34] Una herramienta de línea de comandos que convierte a / desde varios formatos de espectrometría de masas. Una GUI también está disponible para usuarios de Windows.
- ReAdW: [35] El conversor de línea de comandos del Instituto de Biología de Sistemas para archivos Thermo RAW, parte de TransProteomicPipeline. [36] La última actualización de esta herramienta se realizó en septiembre de 2009. El equipo de desarrollo de TPP ahora redirige a los usuarios para que utilicen el software msConvert (ver más arriba).
- FileConverter: una herramienta de línea de comandos que convierte a / desde varios formatos de espectrometría de masas, [30] parte de TOPP [31]
Convertidores para formatos propietarios:
- msConvert: [33] [34] Una herramienta de línea de comandos que convierte a / desde varios formatos de espectrometría de masas, incluidos múltiples formatos propietarios. Una GUI también está disponible para usuarios de Windows.
- CompassXport, la herramienta gratuita de Bruker que genera archivos mzXML (y ahora mzData) [ cita requerida ] para muchos de sus formatos de archivo nativos (.baf).
- MASSTransit, un software para cambiar datos entre formatos propietarios, de Palisade Corporation y distribuido por Scientific Instrument Services, Inc [37] y PerkinElmer [38]
- Aston, [39] soporte nativo para varios formatos de archivo Agilent Chemstation, Agilent Masshunter y Thermo Isodat
- unfinnigan, [40] soporte nativo para formatos de archivo Finnigan (* .RAW)
- OpenChrom , un software de código abierto compatible con la conversión de varios formatos de archivo nativos, incluido su propio formato .ocb abierto para almacenar cromatogramas, picos y resultados de identificación [41]
Los convertidores disponibles actualmente son:
- MassWolf, para Micromass MassLynx .Formato crudo
- mzStar, para el formato SCIEX / ABI SCIEX / ABI Analyst
- wiff2dta [42] para el formato SCIEX / ABI SCIEX / ABI Analyst a mzXML, DTA, MGF y PMF
Ver también
- Software de espectrometría de masas
Referencias
- ^ Deutsch EW (diciembre de 2012). "Formatos de archivo de uso común en la proteómica de espectrometría de masas" . Proteómica molecular y celular . 11 (12): 1612–21. doi : 10.1074 / mcp.R112.019695 . PMID 22956731 .
- ^ RS McDonald y PA Wilks; " JCAMP-DX: un formulario estándar para el intercambio de espectros infrarrojos en formato legible por computadora "; Espectroscopia aplicada , vol. 42, núm. 1, enero de 1988, págs. 151-162.
- ^ Lampen P, Hillig H, Davies AN, Linscheid M (diciembre de 1994). "JCAMP-DX para espectrometría de masas" . Espectroscopia aplicada . 48 (12): 1545–52.
- ^ ASTM E1947 - 98 (2009) Especificación estándar para el protocolo de intercambio de datos analíticos para datos cromatográficos
- ^ Mayer G, Jones AR, Binz PA, Deutsch EW, Orchard S, Montecchi-Palazzi L, et al. (Enero 2014). "Vocabularios controlados y ontologías en proteómica: descripción general, principios y práctica" . Biochimica et Biophysica Acta . 1844 (1 Pt A): 98–107. doi : 10.1016 / j.bbapap.2013.02.017 . PMID 23429179 .
- ^ Orchard S, Montechi-Palazzi L, Deutsch EW, Binz PA, Jones AR, Paton N, et al. (Octubre de 2007). "Cinco años de progreso en la estandarización de datos proteómicos 4to taller anual de primavera de la iniciativa de estándares de proteómica HUPO 23-25 de abril de 2007 Ecole Nationale Supérieure (ENS), Lyon, Francia". Proteómica . 7 (19): 3436–40. doi : 10.1002 / pmic.200700658 . PMID 17907277 . S2CID 22837325 .
- ^ "mzData" . HUPO-PSI. Archivado desde el original el 7 de julio de 2018 . Consultado el 26 de abril de 2021 .
- ^ Pedrioli PG, Eng JK, Hubley R, Vogelzang M, Deutsch EW, Raught B, et al. (Noviembre de 2004). "Una representación abierta común de datos de espectrometría de masas y su aplicación a la investigación proteómica". Biotecnología de la naturaleza . 22 (11): 1459–66. doi : 10.1038 / nbt1031 . PMID 15529173 . S2CID 25734712 .
- ^ Lin SM, Zhu L, Winter AQ, Sasinowski M, Kibbe WA (diciembre de 2005). "¿Para qué sirve mzXML?". Revisión de expertos de proteómica . 2 (6): 839–45. doi : 10.1586 / 14789450.2.6.839 . PMID 16307524 . S2CID 24914725 .
- ^ "mzML" . Iniciativa HUPO-Proteomics Standards . Consultado el 19 de abril de 2013 .
- ^ Deutsch E (julio de 2008). "mzML: un formato de datos único y unificador para la salida del espectrómetro de masas" . Proteómica . 8 (14): 2776–7. doi : 10.1002 / pmic.200890049 . PMID 18655045 . S2CID 28297899 .
- ^ Wilhelm M, Kirchner M, Steen JA, Steen H (enero de 2012). "mz5: almacenamiento eficiente en tiempo y espacio de conjuntos de datos de espectrometría de masas" . Proteómica molecular y celular . 11 (1): O111.011379. doi : 10.1074 / mcp.O111.011379 . PMC 3270111 . PMID 21960719 .
- ^ Bhamber RS, Jankevics A, Deutsch EW, Jones AR, Dowsey AW (enero de 2021). "mzMLb: un formato de datos de espectrometría de masas sin procesar a prueba de futuro basado en mzML compatible con estándares y optimizado para requisitos de velocidad y almacenamiento" . Revista de investigación del proteoma . 20 (1): 172-183. doi : 10.1021 / acs.jproteome.0c00192 . PMC 7871438 . PMID 32864978 .
- ^ Tully B (junio de 2020). "Toffee: un formato de archivo sin pérdidas altamente eficiente para DIA-MS" . Informes científicos . 10 (1): 8939. doi : 10.1038 / s41598-020-65015-y . PMID 32488104 .
- ^ Schramm T, Hester Z, Klinkert I, Both JP, Heeren RM, Brunelle A, et al. (Agosto 2012). "imzML: un formato de datos común para el intercambio flexible y el procesamiento de datos de imágenes de espectrometría de masas". Revista de proteómica . 75 (16): 5106–5110. doi : 10.1016 / j.jprot.2012.07.026 . PMID 22842151 .
- ^ "Sitio web de MZmine" .
- ^ "Sitio web de BSI: PEAKS" . Bioinfor.com . Consultado el 29 de noviembre de 2011 .
- ^ "Sitio web de Insilicos" . Archivado desde el original el 20 de diciembre de 2014 . Consultado el 28 de marzo de 2020 .
- ^ "Sitio web de MS-Spectre" . Ms-spectre.sourceforge.net . Consultado el 29 de noviembre de 2011 .
- ^ "Sitio web de OpenMS y TOPP" . Open-ms.sourceforge.net . Consultado el 29 de noviembre de 2011 .
- ^ "Un visor de código abierto desarrollado bajo proyectos académicos" . Staff.icar.cnr.it . Consultado el 29 de noviembre de 2011 .
- ^ "Un visor de código abierto desarrollado por Matt Chambers en Vanderbilt" . Proteowizard.sourceforge.net . Consultado el 29 de noviembre de 2011 .
- ^ "Un visor de código abierto desarrollado por Fred Hutchinson Cancer Center" . Proteomics.fhcrc.org . Consultado el 29 de noviembre de 2011 .
- ^ "jmzML" . Consultado el 29 de noviembre de 2011 .
- ^ Matrix Science Limited. "Software comercial con modo de visor gratuito para mzXML y muchos formatos propietarios" . Matrixscience.com . Consultado el 29 de noviembre de 2011 .
- ^ "ITAviewer en línea" .
"Fuente de ITAviewer" . - ^ "sitio web de pySPM" .
- ^ Hermes Archivado el 3 de marzo de 2016 en la Wayback Machine.
- ^ "Sitio web de Hermes" . Icecoffee.ch . Consultado el 29 de noviembre de 2011 .
- ^ a b "FileConverter" . Open-ms.sourceforge.net . Consultado el 29 de noviembre de 2011 .
- ^ a b TOPP Archivado el 15 de abril de 2008 en Wayback Machine.
- ^ "mzXML" . Consultado el 30 de junio de 2008 .
- ^ a b "msconvert" . ProteoWizard . Consultado el 20 de abril de 2013 .
- ^ a b "ProteoWizard" . Consultado el 20 de abril de 2013 .
- ^ "ReAdW" . Tools.proteomecenter.org . Consultado el 29 de noviembre de 2011 .
- ^ "TransProteomicPipeline" . Tools.proteomecenter.org. 25 de mayo de 2011 . Consultado el 29 de noviembre de 2011 .
- ^ MASSTransit por Palisade Archivado el 9 de mayo de 2008 en la Wayback Machine.
- ^ "Cromatografía de gases (GC)" . PerkinElmer . Consultado el 29 de noviembre de 2011 .
- ^ aston - Software de cromatografía y espectrometría de masas de código abierto - Alojamiento de proyectos de Google
- ^ unfinnigan - Extracción indolora de espectros de masas de archivos Thermo "sin procesar" - Alojamiento de proyectos de Google
- ^ Dąbrowski Ł (7 de agosto de 2015). "Revisión de software de procesamiento de datos gratuito para cromatografía" . Revista Mediterránea de Química . 4 (4): 193–200. doi : 10.13171 / mjc.4.4.2015.15.09.16.35 / dabrowski .
- ^ wiff2dta en sourceforge