Apache Impala es un motor de consultas SQL de procesamiento masivo paralelo (MPP) de código abierto para datos almacenados en un clúster de computadoras que ejecuta Apache Hadoop . [2] Impala ha sido descrito como el equivalente de código abierto de Google F1 , que inspiró su desarrollo en 2012. [3]
Desarrollador (es) | Fundación de software Apache |
---|---|
Versión inicial | 28 de abril de 2013 |
Lanzamiento estable | 3.4.0 / 24 de abril de 2020 [1] |
Repositorio | Repositorio Impala |
Escrito en | C ++ , Java |
Sistema operativo | Multiplataforma |
Tipo | Hadoop relacional: análisis |
Licencia | Licencia Apache 2.0 |
Sitio web | impala |
Descripción
Apache Impala es un motor de consultas que se ejecuta en Apache Hadoop. El proyecto se anunció en octubre de 2012 con una distribución de prueba beta pública [4] [5] y estuvo disponible de forma generalizada en mayo de 2013. [6]
Impala trae tecnología de base de datos paralela escalable a Hadoop, lo que permite a los usuarios emitir consultas SQL de baja latencia a los datos almacenados en HDFS y Apache HBase sin requerir movimiento o transformación de datos. Impala está integrado con Hadoop para utilizar los mismos formatos de archivos y datos, metadatos, seguridad y marcos de gestión de recursos que utilizan MapReduce , Apache Hive , Apache Pig y otro software de Hadoop.
Impala se promociona para que los analistas y científicos de datos realicen análisis de los datos almacenados en Hadoop a través de SQL o herramientas de inteligencia empresarial . El resultado es que el procesamiento de datos a gran escala (a través de MapReduce) y las consultas interactivas se pueden realizar en el mismo sistema utilizando los mismos datos y metadatos, eliminando la necesidad de migrar conjuntos de datos a sistemas especializados y / o formatos propietarios simplemente para realizar análisis.
Las características incluyen:
- Admite almacenamiento HDFS , S3 , ABFS , Apache HBase y Apache Kudu ,
- Lee formatos de archivo Hadoop, incluidos texto, LZO , SequenceFile , Avro , RCFile , Parquet y ORC
- Admite la seguridad de Hadoop ( autenticación Kerberos , Ldap ),
- Autorización detallada y basada en roles con Apache Sentry y Apache Ranger
- Utiliza metadatos, controlador ODBC y sintaxis SQL de Apache Hive .
A principios de 2013, se anunció un formato de archivo orientado a columnas llamado Parquet para arquitecturas como Impala. [7] En diciembre de 2013, Amazon Web Services anunció la compatibilidad con Impala. [8] A principios de 2014, MapR agregó soporte para Impala. [9] En 2015, se anunció otro formato llamado Kudu , que Cloudera propuso donar a la Apache Software Foundation junto con Impala. [10] Impala se graduó en un proyecto de nivel superior Apache (TLP) el 28 de noviembre de 2017. [11]
Ver también
- Apache Drill : proyecto de código abierto similar inspirado en Dremel
- Dremel - herramienta similar de Google
- Presto : motor de consultas SQL de código abierto creado por Facebook y compatible con Teradata
Referencias
- ^ "Versión 3.4.0" . Consultado el 24 de abril de 2020 .
- ^ "Apache Impala" . Consultado el 15 de septiembre de 2017 .
- ^ Cade Metz (24 de octubre de 2012). "Hombre busca fuera de Google, reconstruye la máquina de consulta ultrasecreta" . Revista cableada . Consultado el 10 de octubre de 2016 .
- ^ Larry Digna (24 de octubre de 2012). "Cloudera tiene como objetivo llevar consultas en tiempo real a Hadoop, big data" . Blog entre líneas . ZDNet . Consultado el 20 de enero de 2014 .
- ^ Andrew Brust (25 de octubre de 2012). "Impala de Cloudera trae Hadoop a SQL y BI" . ZDNet . Consultado el 20 de enero de 2014 .
- ^ Marcel Kornacker, Justin Erickson (1 de mayo de 2013). "Cloudera Impala 1.0: está aquí, es real, ya es el estándar para SQL en Hadoop" . Archivado desde el original el 13 de abril de 2014 . Consultado el 10 de abril de 2014 .
- ^ "Parquet: Almacenamiento de columnas para Hadoop" . Sitio web del proyecto . 2013 . Consultado el 20 de enero de 2014 .
- ^ "Anuncio de soporte para Impala con Amazon Elastic MapReduce" . Amazon.com. 12 de diciembre de 2013 . Consultado el 20 de enero de 2014 .
- ^ "Impala para MapR" . MapR.com. 2 de febrero de 2014 . Consultado el 10 de abril de 2014 .
- ^ David Ramel (18 de noviembre de 2015). "Cloudera para donar proyectos de Big Data Impala y Kudu a Apache" . Tendencias de desarrollo de aplicaciones . Consultado el 10 de octubre de 2016 .
- ^ "La Apache Software Foundation anuncia Apache® Impala ™ como un proyecto de nivel superior" . 28 de noviembre de 2017 . Consultado el 30 de noviembre de 2017 .
enlaces externos
- Sitio web del proyecto Apache Impala
- Código fuente del proyecto Impala GitHub