Taladro Apache

Apache Drill es un marco de software de código abierto que admite aplicaciones distribuidas con uso intensivo de datos para el análisis interactivo de conjuntos de datos a gran escala. Drill es la versión de código abierto del sistema Dremel de Google que está disponible como un servicio de infraestructura llamado Google BigQuery . Un objetivo de diseño declarado explícitamente es que Drill pueda escalar a 10,000 servidores o más y poder procesar petabytes de datos y billones de registros en segundos. Drill es un proyecto de nivel superior de Apache. ^[1]

Taladro Apache

Desarrollador (es)	Fundación de software Apache

Lanzamiento estable	1.18.0 / 5 de septiembre de 2020 ; Hace 10 meses ( 05-09-2020 )

Repositorio	Depósito de simulacros
Escrito en	Java
Sistema operativo	Multiplataforma
Licencia	Licencia Apache 2.0
Sitio web	taladrar .apache .org

Drill admite una variedad de bases de datos y sistemas de archivos NoSQL , incluidos Alluxio , HBase , MongoDB , MapR -DB, HDFS , MapR-FS , Amazon S3 , Azure Blob Storage , Google Cloud Storage , Swift , NAS y archivos locales. Una sola consulta puede unir datos de varios almacenes de datos. Por ejemplo, puede unirse a una colección de perfiles de usuario en MongoDB con un directorio de registros de eventos en Hadoop .

El optimizador consciente del almacén de datos de Drill reestructura automáticamente un plan de consultas para aprovechar las capacidades de procesamiento interno del almacén de datos. Además, Drill admite la localidad de datos , si Drill y el almacén de datos están en los mismos nodos. ^[2]

Apache Drill 1.9 agregó funciones dinámicas definidas por el usuario .

Apache Drill 1.11 agregó funciones relacionadas con la criptografía y compatibilidad con el formato de archivo PCAP.

Características

Modelo de documento JSON sin esquema similar a MongoDB y Elasticsearch , sin necesidad de declarar un esquema formal
API estándar de la industria: ANSI SQL, ODBC / JDBC, API RESTful
Extremadamente amigable para el usuario y el desarrollador
La arquitectura conectable permite la conectividad a múltiples almacenes de datos

Soporte de back-end

Drill se centra principalmente en almacenes de datos no relacionales, incluidos archivos de texto Apache Hadoop , NoSQL y almacenamiento en la nube. Una característica notable también incluye la consulta in situ de archivos JSON y Apache Parquet locales. Algunos almacenes de datos adicionales que admite incluyen:

Todas las distribuciones de Hadoop (HDFS API 2.3+), incluidas Apache Hadoop, MapR, CDH y Amazon EMR
NoSQL: MongoDB , Apache HBase , Apache Cassandra
Procesamiento analítico en línea: Apache Kudu , Apache Druid , OpenTSDB
Almacenamiento en la nube: Amazon S3 , Google Cloud Storage , Azure Blob Storage, Swift, IBM Cloud Object Storage
Diversos formatos de datos, incluidos Apache Avro , Apache Parquet y JSON
Complementos de almacenamiento de RDBM (uso de JDBC para conectarse a MySQL , PostgreSQL y otros)

Se puede agregar un nuevo almacén de datos desarrollando un complemento de almacenamiento. El modelo de datos JSON "sin esquema" de Drill le permite consultar almacenes de datos no relacionales in situ. ^[3]

Soporte de front-end

Drill se puede consultar a través de JDBC , ODBC o REST a través de una variedad de métodos y lenguajes, incluidos Python y Java. La instalación predeterminada incluye una interfaz web que permite a los usuarios finales ejecutar ANSI SQL directamente y exportar tablas de datos como archivos CSV sin ninguna programación.

La biblioteca de paneles, Apache Superset , es particularmente adecuada para la visualización de datos consultados con Drill.

Ver también

Computación en la nube
Big data
Computación intensiva en datos

Referencias

^ "La Apache Software Foundation anuncia Apache ™ Drill ™ como un proyecto de nivel superior" . Consultado el 2 de diciembre de 2014 .
^ "Apache Drill - SQL sin esquema para Hadoop, NoSQL y Cloud Storage" . drill.apache.org . Consultado el 29 de diciembre de 2015 .
^ "Preguntas frecuentes - Apache Drill" . drill.apache.org . Consultado el 29 de diciembre de 2015 .

Documentos

Algunos papeles influyeron en el nacimiento y el diseño. Aquí está una lista parcial:

2005 De bases de datos a espacios de datos: una nueva abstracción para la gestión de la información , los autores destacan la necesidad de que los sistemas de almacenamiento acepten todos los formatos de datos y proporcionen API para el acceso a los datos que evolucionen en función de la comprensión de los datos por parte del sistema de almacenamiento.
2010 Dremel: Análisis interactivo de conjuntos de datos a escala web

enlaces externos

Página web oficial
Apache Drill: seguimiento de su historia como comunidad de código abierto
SQL y Hadoop: es complicado

[1] "La Apache Software Foundation anuncia Apache ™ Drill ™ como un proyecto de nivel superior" . Consultado el 2 de diciembre de 2014 .

[2] "Apache Drill - SQL sin esquema para Hadoop, NoSQL y Cloud Storage" . drill.apache.org . Consultado el 29 de diciembre de 2015 .

[3] "Preguntas frecuentes - Apache Drill" . drill.apache.org . Consultado el 29 de diciembre de 2015 .

[1]