位置:有考网 > 计算机类>大数据> Spark引擎在大数据当中定位如何?  正文

Spark引擎在大数据当中定位如何?

发布时间:2022-01-19 16:23:25来源:转载

大数据发展至今,提起大数据计算引擎,Spark一定是不能忽视的一个。经过近年来的发展,Spark在大数据领域的市场占有率也在不断提升,可以自己独立支撑集群运行,也可以与Hadoop生态集成运行,因此广受欢迎。下面和大家讲讲,Spark在大数据生态当中的定位如何?

早期的大数据,Hadoop框架受到的重用是显而易见的,而随着大数据处理新的数据处理需求产生,Hadoop在实时数据流计算上的劣势开始显现出来。而Spark正是在这样的背景下诞生,可以看做是对于Hadoop MapReduce计算框架的替代和改进。

Spark同样基于分布式集群进行并行计算,完成计算任务,相对于MapReduce,很大的一个改变在于,将原本在磁盘上运行的任务转移到内存当中来进行,而基于内存计算的效率,相比基于磁盘计算,确实要快得多。

另外,相比于MapReduce固定只支持map和reduce两种任务类型,Spark继承了MapReduce的模式,但是支持更多的任务类型,也能适应更多的计算场合。Spark对分布式大数据处理的抽象处理,让用户不必像写MapReduce一样,太关注底层的实现逻辑,而是在处理层次上投入更多精力。Spark解决的核心问题,是数据计算任务的解决,对于数据存储以及任务调度,还需要依靠其他工具来执行。

Spark的工作需要配合存储层,例如Hadoop中的HDFS分布式文件存储或者MongoDB、Cassandra这类数据库来完成。同时,它还需要一个集群的管理器,比如YARN、Mesos等用来管理相应的数据处理任务。当然Spark自己也提供集群管理功能,这样集群的每个节点都需要安装Spark,用于进行任务的编排。

发展至今,Spark已经形成了相对完备的大数据处理生态,包括Spark ML用来处理基于大量数据的机器学习任务,Spark Streaming用于处理小批量的流式数据等。

Spark在大数据生态当中的定位如何?需要知道的是,Spark作为大数据处理引擎,虽然并不能解决所有环节的问题,但是对于绝大部分问题,都能给出合适的方案,不管是独立运行还是集成运行,Spark系统的可用性都很高。

上海大数据培训中心-学大数据需要基础吗
学大数据可以找什么工作?
珠海达内大数据培训价格是多少?
兰州达内大数据分析培训怎么报名
大数据技术学了能干什么?
大数据分析师和大数据工程师有什么区别?

更多培训课程: 深圳大数据 更多学校信息: 深圳龙华达内IT教育培训 咨询电话:

相关内容: 大数据 大数据引擎 Spark大数据

同类文章