alluxio vs ignite

前段时间一直在研究alluxio,不过alluxio似乎不太适合我们的使用场景。具体可以参考文章:采用alluxio提升MR job和Spark job性能的注意点来了解alluxio的应用场景。

这里并不是说alluxio不好。alluxio在符合其使用的场景下也有非常显著的性能提升。在国内也有百度、去哪儿、阿里这样的公司来使用。不过作为内存缓存层加速本地的spark或者mapreduce job方面可能并不是做的很完善。

ignite的开发者和alluxio的开发者也有过交集。和我标题一样的问题ignite的作者也同样问过。具体可以参考:

敢说 Apache Ign......

Effective Spark RDDs with Alluxio

1. 介绍

近期,作者给我推荐了一篇spark on alluxio的文章。原文地址:Effective Spark RDDs with Alluxio

本文不会全文翻译,主要提取一些文章的内容和观点结合自己的理解做下总结。

2. 引言

文章首先说了像百度、去哪儿这些企业都已经在生产上用上了alluxio,效果很好(spark streaming job提升15倍-300倍)。

在不使用alluxio之前,可能由于内存不足会导致spark job性能变差,甚至无法完成。本文也主要介绍alluxio是如何去改进spark性能,以及使用spark on alluxio......

spark on alluxio和MR on alluxio测试(改进版)

1. 介绍

之前我们进行过一次测试,见文章alluxio和spark以及mapreduce性能对比。但是由于硬件限制,alluxio的效果并没有体现出来。

本次我们将重新进行一番测试。我们采用的硬件配置如下所示:

注意注意!!!:最新的MR on alluxio测试请参考文章MapReduce on alluxio性能测试

ip

cpu

核数

内存

承担角色

10.8.12.16

Intel(R) Xeon(R) CPU E5-2650 v3 @ 2.30GHz

40核

128GB

namenode,alluxio-master,datanode,al......

alluxio使用非root用户启动集群的问题分析

1. 介绍

实际部署alluxio的时候,我们可能都是在非root用户下进行的。但是在其它集群的时候可能会有如下报错,导致无法启动worker.

2016-09-21 00:22:07,124

INFO MASTER Connecting to 10.81.12.166 as appadmin...

2016-09-21 00:22:07,126

INFO MASTER Connecting to 10.81.12.176 as appadmin...

Pseudo-terminal will not be allocated because stdin is not a term......

alluxio基于HDFS的master容错配置

1. 介绍

alluxio这种master-slave结构必然涉及到单点故障。所以配置master的容错是必须的。

如果alluxio还没装好请参考我的其他文章。

本文前提是你已经配好了HA的HDFS。

hadoop配置HA我没写文章,建议参考官方文档:HDFS High Availability

我们采用的实验配置如下:

hostname

role

a1(10.8.12.16)

alluxio-master,alluxio-worker,hadoop master,hadoop slave

a2(10.8.12.17)

allux......