大数据生态两个计算引擎

时间：2024-11-14 08:00:54 数码科技

大数据计算生态之数据计算（一）

目前，在批处理领域，使用最多的计算引擎当属 HadoopMR 和 Spark 两者。HadoopMR 是最早的批处理引擎，是根据 Google 的”三驾马车“实现的开源计算框架，主要是解决海量数据的计算问题。由于 HadoopMR 在处理效率上的一系列问题，Spark 应运而生，Spark 针对 Hadoop MR2.0 存在的问题，对 MapReduce 做了大量优化。

1.MapReduce（Hadoop）。MapReduce 就是指我们常说的 Hadoop MapReduce，它是一个批处理计算引擎。每个 MapReduce 任务都包含两个过程：Map 过程和 Reduce 过程。

2. Spark。与 Hadoop MapReduce 不同的是，Spark 是基于内存的批处理计算引擎。SparkSpark 及其组件已经形成了一个大数据生态，Spark 基于这个引擎，提供了很多的高级应用模块解决不同场景中的业务需求。Spark 分为 Spark Core、SparkSQL、SparkStreaming、GraphX 以及 MLLib 等，SparkCore 为 Spark 的核心和基础，提供基本的批处理功能，其他的每个组件专注于不同的处理任务。

如有侵权请及时联系我们处理，转载请注明出处来自