您的位置: 江津信息港 > 养生

大数据混战谁将撼动Spark的地位

发布时间:2019-04-11 08:42:04

目前由于Apache Spark的不断发展,其已逐步成为大数据云时代的重要组成部分。但Spark远非那么完美,当然,它确实在逐步改善中,但正如2.0版所示,如果竞争者提供了一个比Spark更赞的处理方式,必然会吸引开发者的注意。

如下列出的四项很可能会撼动Spark的地位,Spark以对传统内存批处理和流处理的全新方法而闻名。并且,目前该方法也持续奏效。那接下来这四位又有哪些优势呢?

Apache Apex

Apache Apex初由DataTorrent开发出来,目前已作为孵化器项目被捐赠给Apache基金会。它可以在YARN下的Hadoop上执行流处理和批处理。

优点:Apex是真正的流处理,而Spark的流处理实际上只是一个微小的批处理而已。

缺点:虽然Apex经由Hadoop使其本身具备容错能力,但这意味着Apex和Hadoop是紧密耦合的。而Spark有没有Hadoop都可以。并且,Apex至今没有具备Spark的机器学习能力。

Heron

Twitter采用流处理系统Heron替代了Apache Storm,Heron现在作为一个开源项目,可以认为其是Spark的竞争者之一。

优点:Heron通过容器管理调度程序进行流处理。因此,它比其他解决方案更易集成,更易调试,部署和集群运行。为了吸引Storm用户,它同时兼容Storm API和共享Storm的很多概念。

Apache Flink

Apache Flink是一款大数据流处理引擎,这个目标看起来和Spark类似。

优点:和Apex一样,Flink是一款真正的流处理模型,而不像Spark那样只是微小的批处理。Flink对数据流中迭代或者重复的进程有明确规定,并且它有一些与Spark类似的特点,例如机器学习和图形处理。但是,Flink目前来说仍然是比较新的项目拉弯厂
,今年稍早些时候刚推出1.0版本。

Onyx

Onyx是一个无中心,支持云的,容错的高性能分布式计算系统。根据其官方介绍,Onyx同时具备批处理和流处理能力。

优点:它由基础语言Clojure而不是Scala编写而成,Onyx把流处理放在位贵阳松子公司
,批处理操作基本上是基于小的流处理操作实现的。Onyx允许开发人员使用Clojure或Java语言陶瓷防静电地板
,例如Clojure的向量和地图等,进一步定义如何处理数据。一旦Onyx流行起来,很可能是由于Java的受欢迎程度而不是Clojure的原因。

原文链接:

猜你会喜欢的
猜你会喜欢的