大数据计算生态之数据计算(一)
目前,在批处理领域,使用最多的计算引擎当属 HadoopMR 和 Spark 两者。HadoopMR 是最早的批处理引擎,是根据 Google 的”三驾马车“实现的开源计算框架,主要是解决海量数据的计算问题。由于 HadoopMR 在处理效率上的一系列问题,Spark 应运而生,Spark 针对 Hadoop MR2.0 存在的问题,对 MapReduce 做了大量优化。
1.MapReduce(Hadoop)。MapReduce 就是指我们常说的 Hadoop MapReduce,它是一个批处理计算引擎。每个 MapReduce 任务都包含两个过程:Map 过程和 Reduce 过程。
2. Spark。与 Hadoop MapReduce 不同的是,Spark 是基于内存的批处理计算引擎。SparkSpark 及其组件已经形成了一个大数据生态,Spark 基于这个引擎,提供了很多的高级应用模块解决不同场景中的业务需求。Spark 分为 Spark Core、SparkSQL、SparkStreaming、GraphX 以及 MLLib 等,SparkCore 为 Spark 的核心和基础,提供基本的批处理功能,其他的每个组件专注于不同的处理任务。
如有侵权请及时联系我们处理,转载请注明出处来自
推荐文章