您现在的位置：首页 > IT资讯 > 大数据 > Hadoop和Spark不能简单比较

Hadoop和Spark不能简单比较

2017-02-06 16:41:09　|　来源：中培企业IT培训网

Hadoop和Spark是目前大数据的两大架构系统，很多人都喜欢将二者进行比较。但是中培伟业《大数据平台搭建与高性能计算最佳实践》培训专家钟老师表示，在当前的情况下，简单地将Hadoop和Spark进行比较甚至二选一是不明智的。

钟老师认为，直接比较Hadoop和Spark有难度，因为它们处理的许多任务都一样，但是在一些方面又并不相互重叠。

比如说，Spark没有文件管理功能，因而必须依赖Hadoop分布式文件系统(HDFS)或另外某种解决方案。将Hadoop MapReduce与Spark作一番比较来得更明智，因为它们作为数据处理引擎更具有可比性。

过去几年，随着数据科学趋于成熟，也日益需要用一种不同的方法来处理大数据。Hadoop在一些业务应用领域的表现比后起之秀Spark更胜一筹，不过Spark在大数据领域有其一席之地，这归功于它具有速度快、易于使用的优点。本文剖析了两大平台的一系列常见属性，包括性能、容错、成本、易用性、数据处理、兼容性和安全性。

Hadoop和Spark方面要记住的最重要一点就是，它们并不是非此即彼的关系，因为它们不是相互排斥，也不是说一方是另一方的简易替代者。两者彼此兼容，这使得这对组合成为一种功能极其强大的解决方案，适合诸多大数据应用场合。

乍一看，对任何大数据应用而言，使用Spark似乎是默认选择。然而，事实并非如此。MapReduce已在大数据市场取得了进展，尤其受到这种公司企业的追捧：需要由商用系统对庞大数据集加以控制。Spark的速度、灵活性和相对易用性对MapReduce的低操作成本来说是绝对补充。

实际上，Spark与MapReduce是一种相互共生的关系。Hadoop提供了Spark所没有的功能特性，比如分布式文件系统，而Spark 为需要它的那些数据集提供了实时内存处理。完美的大数据场景正是设计人员当初预想的那样：让Hadoop和Spark在同一个团队里面协同运行。

标签：大数据