Apache Drill es un marco de software de código abierto que admite aplicaciones distribuidas con uso intensivo de datos para el análisis interactivo de conjuntos de datos a gran escala. Drill es la versión de código abierto del sistema Dremel de Google que está disponible como un servicio de infraestructura llamado Google BigQuery . Un objetivo de diseño declarado explícitamente es que Drill pueda escalar a 10,000 servidores o más y poder procesar petabytes de datos y billones de registros en segundos. Drill es un proyecto de nivel superior de Apache. [1]
![]() | |
Desarrollador (es) | Fundación de software Apache |
---|---|
Lanzamiento estable | 1.18.0 / 5 de septiembre de 2020 |
Repositorio | Depósito de simulacros |
Escrito en | Java |
Sistema operativo | Multiplataforma |
Licencia | Licencia Apache 2.0 |
Sitio web | taladrar |
Drill admite una variedad de bases de datos y sistemas de archivos NoSQL , incluidos Alluxio , HBase , MongoDB , MapR -DB, HDFS , MapR-FS , Amazon S3 , Azure Blob Storage , Google Cloud Storage , Swift , NAS y archivos locales. Una sola consulta puede unir datos de varios almacenes de datos. Por ejemplo, puede unirse a una colección de perfiles de usuario en MongoDB con un directorio de registros de eventos en Hadoop .
El optimizador consciente del almacén de datos de Drill reestructura automáticamente un plan de consultas para aprovechar las capacidades de procesamiento interno del almacén de datos. Además, Drill admite la localidad de datos , si Drill y el almacén de datos están en los mismos nodos. [2]
Apache Drill 1.9 agregó funciones dinámicas definidas por el usuario .
Apache Drill 1.11 agregó funciones relacionadas con la criptografía y compatibilidad con el formato de archivo PCAP.
Características
- Modelo de documento JSON sin esquema similar a MongoDB y Elasticsearch , sin necesidad de declarar un esquema formal
- API estándar de la industria: ANSI SQL, ODBC / JDBC, API RESTful
- Extremadamente amigable para el usuario y el desarrollador
- La arquitectura conectable permite la conectividad a múltiples almacenes de datos
Soporte de back-end
Drill se centra principalmente en almacenes de datos no relacionales, incluidos archivos de texto Apache Hadoop , NoSQL y almacenamiento en la nube. Una característica notable también incluye la consulta in situ de archivos JSON y Apache Parquet locales. Algunos almacenes de datos adicionales que admite incluyen:
- Todas las distribuciones de Hadoop (HDFS API 2.3+), incluidas Apache Hadoop, MapR, CDH y Amazon EMR
- NoSQL: MongoDB , Apache HBase , Apache Cassandra
- Procesamiento analítico en línea: Apache Kudu , Apache Druid , OpenTSDB
- Almacenamiento en la nube: Amazon S3 , Google Cloud Storage , Azure Blob Storage, Swift, IBM Cloud Object Storage
- Diversos formatos de datos, incluidos Apache Avro , Apache Parquet y JSON
- Complementos de almacenamiento de RDBM (uso de JDBC para conectarse a MySQL , PostgreSQL y otros)
Se puede agregar un nuevo almacén de datos desarrollando un complemento de almacenamiento. El modelo de datos JSON "sin esquema" de Drill le permite consultar almacenes de datos no relacionales in situ. [3]
Soporte de front-end
Drill se puede consultar a través de JDBC , ODBC o REST a través de una variedad de métodos y lenguajes, incluidos Python y Java. La instalación predeterminada incluye una interfaz web que permite a los usuarios finales ejecutar ANSI SQL directamente y exportar tablas de datos como archivos CSV sin ninguna programación.
La biblioteca de paneles, Apache Superset , es particularmente adecuada para la visualización de datos consultados con Drill.
Ver también
- Computación en la nube
- Big data
- Computación intensiva en datos
Referencias
- ^ "La Apache Software Foundation anuncia Apache ™ Drill ™ como un proyecto de nivel superior" . Consultado el 2 de diciembre de 2014 .
- ^ "Apache Drill - SQL sin esquema para Hadoop, NoSQL y Cloud Storage" . drill.apache.org . Consultado el 29 de diciembre de 2015 .
- ^ "Preguntas frecuentes - Apache Drill" . drill.apache.org . Consultado el 29 de diciembre de 2015 .
Documentos
Algunos papeles influyeron en el nacimiento y el diseño. Aquí está una lista parcial:
- 2005 De bases de datos a espacios de datos: una nueva abstracción para la gestión de la información , los autores destacan la necesidad de que los sistemas de almacenamiento acepten todos los formatos de datos y proporcionen API para el acceso a los datos que evolucionen en función de la comprensión de los datos por parte del sistema de almacenamiento.
- 2010 Dremel: Análisis interactivo de conjuntos de datos a escala web
enlaces externos
- Página web oficial
- Apache Drill: seguimiento de su historia como comunidad de código abierto
- SQL y Hadoop: es complicado