AbrirRefinar


OpenRefine es una aplicación de escritorio de código abierto para la limpieza y transformación de datos a otros formatos, una actividad comúnmente conocida como disputa de datos . [3] Es similar a las aplicaciones de hoja de cálculo y puede manejar formatos de archivo de hoja de cálculo como CSV, pero se comporta más como una base de datos.

Opera en filas de datos que tienen celdas debajo de columnas, de manera similar a como operan las tablas de bases de datos relacionales . Los proyectos de OpenRefine constan de una tabla, cuyas filas se pueden filtrar mediante facetas que definen criterios (por ejemplo, mostrar filas donde una columna determinada no está vacía).

A diferencia de las hojas de cálculo, la mayoría de las operaciones en OpenRefine se realizan en todas las filas visibles, por ejemplo, la transformación de todas las celdas en todas las filas en una columna, [4] o la creación de una nueva columna basada en datos existentes. Las acciones realizadas en un conjunto de datos se almacenan en el proyecto y se pueden "reproducir" en otros conjuntos de datos. Las fórmulas no se almacenan en celdas, pero se utilizan para transformar los datos. La transformación se realiza una sola vez. [5] Las expresiones de fórmula se pueden escribir en General Refine Expression Language (GREL) , [6] en Jython (es decir, Python) y en Clojure . [7]

El programa funciona como una aplicación web local: inicia un servidor web y abre el navegador predeterminado en 127.0.0.1:3333 .

Si los datos de entrada están en un formato de texto no estándar, se pueden importar como líneas completas, sin dividirlas en columnas, y luego extraer las columnas más tarde con las herramientas de OpenRefine. Se admiten archivos archivados y comprimidos (.zip, .tar.gz, .tgz, .tar.bz2, .gz o .bz2) y Refine puede descargar archivos de entrada desde una URL . Para usar páginas web como entrada, es posible importar una lista de URL y luego invocar una función de obtención de URL.

OpenRefine comenzó su vida como Freebase Gridworks, desarrollado por Metaweb y está disponible como código abierto desde enero de 2010. [17] El 16 de julio de 2010, Google adquirió Metaweb, [18] los creadores de Freebase , y el 10 de noviembre de 2010 pasó a llamarse Freebase Gridwords Google Refine , lanzando la versión 2.0. [19] El 2 de octubre de 2012, el autor original David Huynh anunció que Google pronto dejaría de brindar soporte activo a Google Refine. [20] [21] [22] Desde entonces, el código base ha estado en transición a un proyecto de código abierto llamado OpenRefine. [23]