El archivo de tabla química ( archivo CT) es una familia de formatos de archivos químicos basados en texto que describen moléculas y reacciones químicas. Un formato, por ejemplo, enumera cada átomo de una molécula, las coordenadas xyz de ese átomo y los enlaces entre los átomos.
Formatos de archivo
Hay varios formatos de archivo en la familia.
Los formatos fueron creados por MDL Information Systems (MDL) , que fue adquirida por Symyx Technologies y luego se fusionó con Accelrys Corp., y ahora se llama BIOVIA, una subsidiaria de Dassault Systemes de Dassault Group . [1]
CT File es un formato abierto , BIOVIA publica su especificación. [2] BIOVIA requiere que los usuarios se registren para descargar las especificaciones del formato CTFile. [3]
Molfile
Extensión de nombre de archivo | .mol |
---|---|
Tipo de medio de Internet | químico / x-mdl-molfile |
Tipo de formato | formato de archivo químico |
Un MDL Molfile es un formato de archivo para contener información sobre los átomos, enlaces, conectividad y coordenadas de una molécula.
El archivo mol consta de información de encabezado, la tabla de conexiones (CT) que contiene información sobre los átomos, luego las conexiones y los tipos de enlaces, seguidos de secciones para obtener información más compleja.
El archivo mol es lo suficientemente común como para que la mayoría, si no todos, los sistemas / aplicaciones de software de química informática sean capaces de leer el formato, aunque no siempre en el mismo grado. También es compatible con algunos programas informáticos como Mathematica .
La versión estándar de facto actual es molfile V2000, aunque, más recientemente, el formato V3000 ha estado circulando lo suficiente como para presentar un posible problema de compatibilidad para aquellas aplicaciones que aún no son compatibles con V3000.
Los Molfiles también se utilizan en algunos juegos de PlayStation 3, específicamente en la serie LittleBigPlanet para modelos. Estos archivos mol son completamente diferentes y difíciles de convertir.
L-alanina | Línea de título (puede estar en blanco pero debe existir una línea) | Bloque de encabezado (3 líneas) |
---|---|---|
ABCDEFGH09071717443D | Línea de marca de tiempo del programa / archivo (Nombre del programa fuente y marca de tiempo del archivo) | |
Exportado | Línea de comentario (puede estar en blanco pero debe existir una línea) | |
6 5 0 0 1 0 3 V2000 | Línea de recuentos | Tabla de conexiones |
-0,6622 0,5342 0,0000 C 0 0 2 0 0 0 0,6622 -0,3000 0,0000 C 0 0 0 0 0 0-0,7207 2,0817 0,0000 C 1 0 0 0 0 0-1,8622 -0,3695 0,0000 N 0 3 0 0 0 0 0,6220 -1,8037 0,0000 O 0 0 0 0 0 0 1.9464 0.4244 0.0000 O 0 5 0 0 0 0 | Bloque de átomos (1 línea para cada átomo): x, y, z (en angstroms ), elemento, etc. | |
1 2 1 0 0 01 3 1 1 0 01 4 1 0 0 02 5 2 0 0 02 6 1 0 0 0 | Bloque de enlace (1 línea por cada enlace): 1er átomo, 2do átomo, tipo, etc. | |
M CHG 2 4 1 6 -1M ISO 1 3 13 | Bloque de propiedades | |
ARREGLAR | Línea final (NOTA: a algunos programas no les gusta una línea en blanco antes de M END) | FINAL |
Cuenta la especificación del bloque de línea
Valor | 6 | 6 | 0 | 0 | 0 | 1 | V2000 |
---|---|---|---|---|---|---|---|
Descripción | número de átomos | número de bonos | número de lista de átomos | Bandera quiral, 1 = quiral; 0 = no quiral | número de entradas stext | número de líneas de propiedades adicionales | versión mol |
Tipo | [Genérico] | [Genérico] | [Consulta] | [Genérico] | [ISIS / Escritorio] | [Genérico] |
Especificación del bloque de enlace
El Bond Block está formado por líneas de enlace, una línea por enlace, con el siguiente formato:
111222 ttt sss xxx rrr ccc
donde los valores se describen en la siguiente tabla:
Campo | Significado | Valores |
---|---|---|
111 | primer número de átomo | |
222 | segundo número de átomo | |
ttt | tipo de enlace | 1 = Sencillo, 2 = Doble, 3 = Triple, 4 = Aromático, 5 = Sencillo o Doble, 6 = Sencillo o Aromático, 7 = Doble o Aromático, 8 = Cualquiera |
sss | enlace estéreo | Para enlaces simples: 0 = no estéreo; 1 = arriba; 4 = cualquiera, 6 = abajo Para dobles enlaces: 0 = Utilice las coordenadas x, y, z del bloque de átomos para determinar cis o trans; 3 = doble enlace cis o trans (cualquiera) |
xxx | no utilizado | |
rrr | topología de enlace | 0 = Cualquiera, 1 = Anillo, 2 = Cadena |
ccc | estado del centro de reacción | 0 = sin marcar, 1 = un centro, -1 = no un centro, Adicional: 2 = sin cambios, 4 = enlace hecho / roto, 8 = cambios en el orden de enlace 12 = 4 + 8 (ambos hechos / rotos y cambios); 5 = (4 + 1), 9 = (8 + 1) y 13 = (12 + 1) también son posibles |
Tabla de conexión ampliada (V3000)
El archivo mol extendido (V3000) consiste en un archivo mol regular "sin estructura" seguido de un único apéndice del archivo mol que contiene el cuerpo de la tabla de conexiones (Ctab). La siguiente figura muestra tanto una estructura de alanina como el archivo mol extendido correspondiente.
Tenga en cuenta que la "sin estructura" está marcada con el sello de versión "V3000" en lugar del sello de versión "V2000". Hay otros dos cambios en el encabezado además de la versión:
- El número de líneas del apéndice siempre se escribe como 999, independientemente de cuántas haya realmente. (Todos los lectores actuales ignorarán el recuento y se detendrán en M END).
- El "código dimensional" se mantiene de forma más explícita. Por lo tanto, "3D" realmente significa 3D, aunque "2D" se interpretará como 3D si se encuentran coordenadas Z distintas de cero.
A diferencia del archivo mol V2000, el archivo mol Rgroup extendido V3000 tiene el mismo formato de encabezado que un archivo mol que no es de Rgroup.
L-alanina | Descripción | Bloque de encabezado |
---|---|---|
GSMACCS-II07189510252D 1 0,00366 0,00000 0 | Encabezado con marca de tiempo | |
Figura 1, J. Chem. Inf. Computación. Sci., Vol 32, No. 3., 1992 | Línea de comentario | |
0 0 0 0 0999 V3000 | Línea de compatibilidad V2000 | |
M V30 COMIENZA CTAB | Tabla de conexiones | |
M V30 CUENTAS 6 5 0 0 1 | Línea de recuentos | |
M V30 BEGIN ATOMM V30 1 C -0,6622 0,5342 0 0 CFG = 2M V30 2 C 0,6622 -0,3 0 0M V30 3 C -0,7207 2,0817 0 0 MASA = 13M V30 4 N -1,8622 -0,3695 0 0 CHG = 1M V30 5 O 0,622 -1,8037 0 0M V30 6 O 1.9464 0.4244 0 0 CHG = -1ÁTOMO FINAL M V30 | Bloque de átomos | |
M V30 COMIENZO BONOM V30 1 1 1 2M V30 2 1 1 3 CFG = 1M V30 3 1 1 4M V30 4 2 2 5M V30 5 1 2 6BONO EXTREMO M V30 | Bloque de enlace | |
M V30 END CTABARREGLAR |
Línea de recuentos
Se requiere una línea de conteo y debe ser la primera. Especifica el número de átomos, enlaces, objetos 3D y grupos. También especifica si está activada o no la bandera CHIRAL. Opcionalmente, la línea de conteos puede especificar molregno. Esto solo se usa cuando el regno excede 999999 (el límite del formato en la línea de encabezado de molfile). El formato de la línea de recuentos es:
M V30 CUENTAS | n / A | nótese bien | NS G | n3d | quiral | [REGNO = regno] |
M V30 CUENTAS | 6 | 5 | 0 | 0 | 1 | |
SDF
Extensión de nombre de archivo | .sd , .sdf |
---|---|
Tipo de medio de Internet | químico / x-mdl-sdfile |
Tipo de formato | formato de archivo químico |
SDF pertenece a una familia de formatos de archivo de datos químicos desarrollados por MDL; está destinado especialmente a información estructural. "SDF" significa archivo de datos de estructura, y los archivos SDF en realidad envuelven el formato molfile ( MDL Molfile ). Los compuestos múltiples están delimitados por líneas que constan de cuatro signos de dólar ($$$$). Una característica del formato SDF es su capacidad para incluir datos asociados.
Los elementos de datos asociados se indican de la siguiente manera:
> XCA3464366 > 5.825 > Sigma> 499.611
También se admiten elementos de datos de varias líneas. La especificación de formato MDL SDF requiere que se inserte un carácter de retorno de carro fijo si una sola línea de cualquier campo de texto supera los 200 caracteres. Este requisito se infringe con frecuencia en la práctica, ya que muchas cadenas de SMILES e InChI superan esa longitud.
Otros formatos de la familia
Hay otros formatos de la familia menos utilizados:
- RXNFile : para representar una sola reacción química;
- RDFile : para representar una lista de registros con datos asociados. Cada registro puede contener estructuras químicas, reacciones, datos textuales y tabulares;
- RGFile : para representar las estructuras de Markush (en desuso, Molfile V3000 puede representar estructuras de Markush);
- XDFile : para representar información química en formato XML .
Ver también
Referencias
- ^ Dalby, A .; Nourse, JG; Hounshell, WD; Gushurst, AKI; Grier, DL; Leland, BA; Laufer, J. (1992). "Descripción de varios formatos de archivo de estructura química utilizados por programas informáticos desarrollados en Molecular Design Limited". Revista de información química y modelado . 32 (3): 244. doi : 10.1021 / ci00007a012 .
- ^ "Formatos de archivo CT" (PDF) . Biovia. Agosto de 2020. Archivado (PDF) desde el original el 19 de febrero de 2021 . Consultado el 19 de febrero de 2021 .
- ^ "Formulario de registro" . Biovia. Archivado desde el original el 1 de octubre de 2020 . Consultado el 19 de febrero de 2021 .
enlaces externos
- Software gratuito SDF Toolkit para procesar archivos SD (SDF).
- NCI / CADD Chemical Identifier Resolver genera archivos SD (SDF) a partir de nombres químicos, números de registro CAS, SMILES, InChI, InChIKey, ....
- El software gratuito KNIME para manipular datos y hacer minería de datos, también puede leer y escribir archivos SD (SDF).
- Servicio de Tablero de Toxicología Comparativa proporcionado por la Agencia de Protección Ambiental (EPA) que genera archivos SD (SDF) a partir de nombres químicos, Números de Registro CAS, SMILES, InChI, InChIKey, ...