Alluxio学习

介绍

    Alluxio(之前名为Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外,Alluxio的以内存为中心的架构使得数据的访问速度能比现有常规方案快几个数量级。

    在大数据生态系统中,Alluxio介于计算框架(如Apache Spark,Apache MapReduce,Apache HBase,Apache Hive,Apache Flink)和现有的存储系统(如Amazon S3,OpenStack Swift,GlusterFS,HDFS,MaprFS,Ceph,NFS,OSS)之间。Alluxio为大数据软件栈带来了显著的性能提升。Alluxio与Hadoop是兼容的。现有的数据分析应用,如Spark和MapReduce程序,可以不修改代码直接在Alluxio上运行

    Alluxio是中国人开发的,好处就是中文文档很齐全,方便大家入门,具体科普就不做了,看官方入口

Alluxio 是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,类似Spark和 MapReduce。

通过利用lineage信息,积极地使用内存,Alluxio的吞吐量要比HDFS高300多倍。

Alluxio都是在内存中处理缓存文件,并且让不同的 Jobs/Queries以及框架都能内存的速度来访问缓存文件。

特性:

  • 类 Java 的文件 API

  • 兼容性:实现 Hadoop 文件系统接口

  • 可插入式的底层文件系统

  • 内建 Raw 原生表的支持

  • 基于 Web 的 UI 

  • 提供命令行接口

猜你喜欢

转载自www.cnblogs.com/lixgjob/p/10536011.html