中培伟业IT资讯频道
您现在的位置:首页 > IT资讯 > 大数据 > Hadoop和Spark不能简单比较

Hadoop和Spark不能简单比较

2017-02-06 16:41:09 | 来源:中培企业IT培训网

Hadoop和Spark是目前大数据的两大架构系统,很多人都喜欢将二者进行比较。但是中培伟业《大数据平台搭建与高性能计算最佳实践》培训专家钟老师表示,在当前的情况下,简单地将Hadoop和Spark进行比较甚至二选一是不明智的。

钟老师认为,直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些方面又并不相互重叠。

比如说,Spark没有文件管理功能,因而必须依赖Hadoop分布式文件系统(HDFS)或另外某种解决方案。将Hadoop MapReduce与Spark作一番比较来得更明智,因为它们作为数据处理引擎更具有可比性。

过去几年,随着数据科学趋于成熟,也日益需要用一种不同的方法来处理大数据。Hadoop在一些业务应用领域的表现比后起之秀Spark更胜一筹, 不过Spark在大数据领域有其一席之地,这归功于它具有速度快、易于使用的优点。本文剖析了两大平台的一系列常见属性,包括性能、容错、成本、易用性、 数据处理、兼容性和安全性。

Hadoop和Spark方面要记住的最重要一点就是,它们并不是非此即彼的关系,因为它们不是相互排斥,也不是说一方是另一方的简易替代者。两者彼此兼容,这使得这对组合成为一种功能极其强大的解决方案,适合诸多大数据应用场合。

乍一看,对任何大数据应用而言,使用Spark似乎是默认选择。然而,事实并非如此。MapReduce已在大数据市场取得了进展,尤其受到这种公司企业的追捧:需要由商用系统对庞大数据集加以控制。Spark的速度、灵活性和相对易用性对MapReduce的低操作成本来说是绝对补充。

实际上,Spark与MapReduce是一种相互共生的关系。Hadoop提供了Spark所没有的功能特性,比如分布式文件系统,而Spark 为需要它的那些数据集提供了实时内存处理。完美的大数据场景正是设计人员当初预想的那样:让Hadoop和Spark在同一个团队里面协同运行。

标签: 大数据