Alluxio


Alluxio es un sistema de archivos distribuido virtual (VDFS) de código abierto . Inicialmente como proyecto de investigación "Taquiónica", Alluxio se creó en la Universidad de California, Berkeley 's AMPLab como Hao Yuan Li ' s Ph.D. Tesis, [2] asesorada por el profesor Scott Shenker y el profesor Ion Stoica . Alluxio se encuentra entre la computación y el almacenamiento en la pila de análisis de big data . Proporciona una capa de abstracción de datos para marcos de cálculo, lo que permite que las aplicaciones se conecten a numerosos sistemas de almacenamiento a través de una interfaz común. El software está publicado bajo la licencia Apache .

Las aplicaciones controladas por datos, como el análisis de datos, el aprendizaje automático y la inteligencia artificial, utilizan API (como la API de Hadoop HDFS, la API de S3, la API de FUSE) proporcionadas por Alluxio para interactuar con los datos de varios sistemas de almacenamiento a gran velocidad. Los marcos populares que se ejecutan sobre Alluxio incluyen Apache Spark , Presto , TensorFlow , Trino , Apache Hive y PyTorch , etc.

Alluxio se puede implementar en las instalaciones, en la nube (por ejemplo, Microsoft Azure , AWS , Google Compute Engine ) o en un entorno de nube híbrida. Puede ejecutarse en entornos bare-metal o en contenedores como Kubernetes , Docker , Apache Mesos .

Alluxio comenzó inicialmente por Hao Yuan Li en la Universidad de Berkeley AMPLab en 2013, y de código abierto en 2014. Alluxio tenía más de 1000 colaboradores en 2018, [3] lo que es uno de los proyectos más activos en los datos del eco-sistema.

En 2019, Alluxio está clasificado como los 100 repositorios más valiosos de GitHub entre 96 millones. [4] En 2020, Alluxio está clasificado como los 10 proyectos de código abierto basados ​​en Java más críticos del mundo. [5]