OpenRefine , antes llamado Google Refine y antes Freebase Gridworks , es una aplicación de escritorio de código abierto independiente para la limpieza y transformación de datos a otros formatos, la actividad conocida como disputa de datos . [3] Es similar a las aplicaciones de hoja de cálculo (y puede funcionar con formatos de archivo de hoja de cálculo); sin embargo, se comporta más como una base de datos.
Desarrollador (es) | Freebase , luego Google , ahora comunidad de código abierto |
---|---|
Versión inicial | 10 de noviembre de 2010 |
Lanzamiento estable | 3.4.1 [1] / 24 de septiembre de 2020 |
Repositorio | |
Escrito en | Java [2] |
Plataforma | Microsoft Windows , Linux , macOS |
Disponible en | Inglés, italiano, chino, japonés, francés, alemán |
Tipo | |
Licencia | Licencia BSD |
Sitio web | openrefine |
Opera en filas de datos que tienen celdas debajo de columnas, lo cual es muy similar a las tablas de bases de datos relacionales . Un proyecto de OpenRefine consta de una tabla. El usuario puede filtrar las filas para mostrar utilizando facetas que definen criterios de filtrado (por ejemplo, mostrar filas donde una columna determinada no está vacía). A diferencia de las hojas de cálculo, la mayoría de las operaciones en OpenRefine se realizan en todas las filas visibles: transformación de todas las celdas en todas las filas de una columna, [4] creación de una nueva columna basada en los datos de la columna existente, etc. Todas las acciones que se realizaron en un conjunto de datos son almacenados en un proyecto y pueden reproducirse en otro conjunto de datos.
A diferencia de las hojas de cálculo, no se almacenan fórmulas en las celdas, pero las fórmulas se utilizan para transformar los datos y la transformación se realiza solo una vez. [5] Las expresiones de transformación se pueden escribir en General Refine Expression Language (GREL) , [6] Jython (es decir, Python) y Clojure . [7]
El programa tiene una interfaz de usuario web . Sin embargo, no está alojado en la web ( SAAS ), pero está disponible para su descarga y uso en la máquina local. Al iniciar OpenRefine, inicia un servidor web y un navegador para abrir la interfaz de usuario web impulsada por este servidor web.
Posibles usos del software
- Limpieza de datos desordenados : por ejemplo, si trabaja con un archivo de texto con algunos datos semiestructurados, se puede editar mediante transformaciones, facetas y agrupaciones para que los datos estén estructurados de forma limpia. [8]
- Transformación de datos : conversión de valores a otros formatos, normalización y desnormalización.
- Análisis de datos de sitios web : OpenRefine tiene una función de recuperación de URL y un analizador HTML jsoup y un motor DOM. [9]
- Agregar datos al conjunto de datos recuperándolos de los servicios web (es decir, devolviendo json ). [10] Por ejemplo, se puede utilizar para codificar direcciones geográficas en coordenadas geográficas . [11]
- Alinearse con Wikidata (anteriormente Freebase [12] ): esto implica reconciliación - mapear valores de cadena en celdas a entidades en Wikidata. [13]
Formatos admitidos de importación y exportación
La importación es compatible con los siguientes formatos: [14]
- TSV , CSV
- Archivo de texto con separadores personalizados o columnas divididas por ancho fijo
- XML
- Triples RDF ( formatos de serialización RDF / XML y Notation3 )
- JSON
- Hojas de cálculo de Google [15]
Si los datos de entrada están en un formato de texto no estándar, se pueden importar como líneas completas, sin dividir en columnas, y luego las columnas se extraen más tarde con las herramientas de OpenRefine. Se admiten archivos comprimidos y archivados (.zip, .tar.gz, .tgz, .tar.bz2, .gz o .bz2) y Refine puede descargar archivos de entrada desde una URL . Para utilizar páginas web como entrada, es posible importar una lista de URL y luego invocar una función de recuperación de URL.
La exportación se admite en los siguientes formatos: [16]
- TSV
- CSV
- Microsoft Excel
- Tabla HTML
- Hojas de cálculo de Google
- Exportador de plantillas: es posible definir una plantilla personalizada para la salida de datos, por ejemplo, como tabla MediaWiki .
Los proyectos completos de OpenRefine en formato nativo se pueden exportar como un archivo .tar.gz .
Historia
OpenRefine comenzó su vida como Freebase Gridworks desarrollado por Metaweb y ha estado disponible como código abierto desde enero de 2010. [17] El 16 de julio de 2010, Google adquirió Metaweb , [18] los creadores de Freebase , y el 10 de noviembre de 2010 cambió el nombre de Freebase Gridworks. software a Google Refine, lanzando la versión 2.0. [19] El 2 de octubre de 2012, el autor original David Huynh anunció que Google pronto dejaría de brindar apoyo activo a Google Refine. [20] [21] [22] Desde entonces, el código base ha estado en transición a un proyecto de código abierto llamado OpenRefine. [23]
Referencias
- ^ "Versión 3.4.1" . 24 de septiembre de 2020 . Consultado el 16 de octubre de 2020 .
- ^ "OpenRefine / OpenRefine - GitHub" . Consultado el 25 de junio de 2017 .
- ^ "openrefine.github.com" . openrefine.org .
- ^ "Edición por transformación: página wiki de edición de celdas de la documentación de Refinar" . Consultado el 18 de abril de 2012 .
- ^ "Comparación con el software de hoja de cálculo: página wiki de edición de celdas en la documentación de Refine" . Consultado el 18 de abril de 2012 .
- ^ General Refinar lenguaje de expresión OpenRefine / OpenRefine Wiki GitHub . Github.com (3 de abril de 2013). Consultado el 16 de agosto de 2013.
- ^ "Expresiones: refinar la documentación" . Consultado el 18 de abril de 2012 .
- ^ "Screencast: Google Refine 2.0 - Introducción (1 de 3) - edición de datos gubernamentales" . Consultado el 18 de abril de 2012 .
- ^ "Eliminación de HTML: refinar la página wiki de la documentación" . Consultado el 18 de abril de 2012 .
- ^ "Página wiki de FetchingURLsFromWebServices: refinar la documentación" . Consultado el 18 de abril de 2012 .
- ^ "Screencast: Google Refine 2.0 - Aumento de datos (3 de 3) - usando Openstreetmap Nominatim para geocodificación y Freebase para aumento" . Consultado el 18 de abril de 2012 .
- ^ "Alineación de esquema: refinar la página wiki de documentación" . Consultado el 18 de abril de 2012 .
- ^ "Documentación de OpenRefine: reconciliación" . Consultado el 12 de marzo de 2017 .
- ^ "Importadores: Refinar la página wiki de documentación" . Consultado el 18 de abril de 2012 .
- ^ "Registro de cambios para 2.5" . Consultado el 18 de abril de 2012 .
- ^ "Exportando: Refinar la página wiki de la documentación" . Consultado el 18 de abril de 2012 .
- ^ "Archivo de código de Google - almacenamiento a largo plazo para el alojamiento de proyectos de código de Google" . code.google.com .
- ^ "Blog oficial de Google: comprensión más profunda con Metaweb" . Consultado el 18 de abril de 2012 .
- ^ "Blog de Google Opensource: anunciando Google Refine 2.0, una herramienta poderosa para los manipuladores de datos" . Consultado el 18 de abril de 2012 .
- ^ "Grupos de Google" . groups.google.com .
- ^ "De Freebase Gridworks a Google Refine y ahora OpenRefine" .
- ^ OpenRefine Archivado el 25 de septiembre de 2016 en Wayback Machine . OpenRefine. Consultado el 16 de agosto de 2013.
- ^ google-refine - Google Refine, una poderosa herramienta para trabajar con datos desordenados (anteriormente Freebase Gridworks) - Google Project Hosting . Code.google.com. Consultado el 16 de agosto de 2013.
enlaces externos
- Página web oficial
- Tutorial para principiantes de OpenRefine por Emma Carroll