El Enron Corpus es una base de datos de más de 600.000 mensajes de correo electrónico generados por 158 empleados [1] de la Enron Corporation en los años previos al colapso de la compañía en diciembre de 2001. El corpus se genera a partir de servidores de correo electrónico de Enron por parte de la Comisión Federal Reguladora de Energía (FERC ) durante su investigación posterior. [2] Andrew McCallum , científico informático de la Universidad de Massachusetts Amherst, compró posteriormente una copia de la base de datos de correo electrónico por 10.000 dólares . [3] Lanzó esta copia a los investigadores, proporcionando una gran cantidad de datos que se han utilizado para estudios sobreredes sociales y comunicación por computadora .
Creación
En la investigación legal sobre el colapso de Enron, el proceso de descubrimiento requirió recopilar y preservar grandes cantidades de datos, para lo cual la FERC contrató a Aspen Systems (ahora parte de Lockheed Martin ). Los correos electrónicos fueron recopilados en la sede de Enron Corporation en Houston durante dos semanas en mayo de 2002 por Joe Bartling, [4] un contratista de análisis de datos y soporte de litigios para Aspen. Además de los correos electrónicos de los empleados de Enron, todos los sistemas de bases de datos empresariales de Enron, [5] alojados en bases de datos Oracle en servidores Sun Microsystems , fueron capturados y preservados, incluida su plataforma de comercio de energía en línea , EnronOnline .
Una vez recopilados, los correos electrónicos de Enron se procesaron y alojaron en plataformas de descubrimiento electrónico patentadas (primero Concordance, luego iCONECT) para su revisión por investigadores de la FERC, la Comisión de Comercio de Futuros de Productos Básicos y el Departamento de Justicia . Al concluir la investigación, y tras la emisión del informe del personal de la FERC, [6] se consideró que los correos electrónicos y la información recopilada eran de dominio público , para ser utilizados con fines académicos y de investigación histórica . El archivo de correo electrónico se puso a disposición del público y se puede buscar a través de la web utilizando iCONECT 24/7, pero el gran volumen de correo electrónico de más de 160 GB hizo que su uso no fuera práctico. Se pusieron a disposición en discos duros copias de los correos electrónicos y bases de datos recopilados .
Jitesh Shetty y Jafar Adibi de la Universidad del Sur de California procesaron los datos en 2004 y lanzaron una versión de MySQL . [7] En 2010, EDRM.net publicó una versión 2 revisada y ampliada del corpus, [8] que contiene más de 1,7 millones de mensajes, que se ha puesto a disposición en Amazon S3 para facilitar el acceso a los investigadores.
Explotación
El corpus se valora como una de las pocas colecciones masivas de correos electrónicos reales disponibles públicamente y fácilmente disponibles para su estudio; Estas colecciones suelen estar sujetas a numerosas restricciones legales y de privacidad que hacen que su acceso sea prohibitivo, como los acuerdos de no divulgación y la desinfección de datos . [3] Shetty y Adibi, basándose en su versión de MySQL, publicaron un análisis de enlaces de qué cuentas de usuario enviaron correos electrónicos. [9] La comparación lingüística con los corpus de correo electrónico más recientes muestra cambios en el registro de correo electrónico del inglés. También se utiliza como datos de prueba o entrenamiento para la investigación en el procesamiento del lenguaje natural y el aprendizaje automático . [10]
Referencias
- ^ Klimt, Bryan; Yiming Yang (2004). "The Enron Corpus: Un nuevo conjunto de datos para la investigación de clasificación de correo electrónico": 217–226. CiteSeerX 10.1.1.61.1645 . Cite journal requiere
|journal=
( ayuda ) - ^ " The Enron Email Corpus Archivado 2011-03-08 en Wayback Machine " Consultado el 5 de marzo de 2011.
- ^ a b Markoff, John. " Ejércitos de abogados caros, reemplazados por software más barato ". New York Times 5 de marzo de 2011. p A1.
- ^ Bartling, Joe (3 de septiembre de 2015). "El conjunto de datos de Enron: ¿de dónde vino?" . Bartling Forense y Asesor . Consultado el 3 de septiembre de 2015 .
- ^ "FERC: Industrias - Proceso de negocio de comercio de energía de Enron y bases de datos" . www.ferc.gov . Consultado el 2 de septiembre de 2015 .
- ^ Informe del personal de la FERC - Manipulación de precios en los mercados occidentales - Hallazgos de un vistazo (26-3-2003)
- ^ " Base de datos procesada de Enron "
- ^ Socha, George. "EDRM Enron Email Data Set v2 ya disponible" . EDRM.net. Archivado desde el original el 4 de septiembre de 2011 . Consultado el 3 de septiembre de 2012 .
- ^ Shetty, Jitesh; Adibi, Jafar (2005). "Descubriendo nodos importantes a través de la entropía gráfica el caso de la base de datos de correo electrónico de Enron". Actas del 3er taller internacional sobre descubrimiento de enlaces - LinkKDD '05 . págs. 74–81. doi : 10.1145 / 1134271.1134282 . ISBN 978-1595932150.
- ^ Friginal, Eric; Hardy, Jack (2013). Sociolingüística basada en corpus: una guía para estudiantes . Routledge. pag. 167. ISBN 978-1-136-29277-4. Consultado el 29 de mayo de 2020 .
enlaces externos
- Conjunto de datos de Nuix limpiado de PII (requiere registro)
- Tutorial sobre modelado de datos con Enron Corpus
- Descarga del conjunto de datos de correo electrónico enron de Shetty y Adibi en S3 (178 MB)
- Nathan Heller: Lo que dicen los correos electrónicos de Enron sobre nosotros The New Yorker, 24 de julio de 2017
- Base de datos de correo electrónico de Enron con capacidad de búsqueda (requiere registro)
- Open Test Search Corpus con capacidad de búsqueda de todos los archivos adjuntos de correo electrónico que se utilizan para comparar diferentes motores de búsqueda empresariales.