大家好,今天小编来为大家解答以下的问题,关于spark和hive区别,不建议使用spark引擎这个很多人还不知道,现在让我们一起来看看吧!
本文目录
spark和hive区别
HIVE和SPARK的区别
1.hive是分布式又是数据仓库,同时又是查询引擎,SparkSQL只是取代的HIVE的。
2.hive的主要工作1>把HQL翻译长map-reduce的代码,并且有可能产生很多。
3.hive架构
4.hive默认情况下用derby存储元数据,所以在生产环境下一般会采用多用户的数据库进行元数据的存储,并可以读写分离和备份。
大数据Spark技术是否可以替代Hadoop
Spark技术从之前和当前的技术路线上看不是为了替代Hadoop,更多的是作为Hadoop生态圈(广义的Hadoop)中的重要一员来存在和发展的。
首先我们知道Hadoop(狭义的Hadoop)有几个重点技术HDFS、MR(MapReduce),YARN。
这几个技术分别对应分布式文件系统(负责存储),分布式计算框架(负责计算),分布式资源调度框架(负责资源调度)。
我们再来看Spark的技术体系,主要分为以下:
-SparkCore:提供核心框架和通用API接口等,如RDD等基础数据结构;
-SparkSQL:提供结构化数据处理的能力,分布式的类SQL查询引擎;
-Streaming:提供流式数据处理能力;
-MLLib:提供分布式机器学习常用的算法包;
-GraphX:提供图计算能力
从上面Spark的生态系统看,Spark主要是提供各种数据计算能力的(官方称之为全栈计算框架),本身并不过多涉足存储层和调度层(尽管它自身提供了一个调度器),它的设计是兼容流行的存储层和调度层。也就是说,Spark的存储层不仅可以对接HadoopHDFS,也可以对接AmazonS2;调度层不仅可以对接HadoopYARN也可以对接(ApacheMesos)。
因此,我们可以说Spark更多的是补充HadoopMR单一批处理计算能力,而不是完全替代Hadoop的。
【关注ABC(A:人工智能;B:BigData;C:CloudComputing)技术的攻城狮,Age:10+】
spark继承了什么分布式计算的优点
spark作为分布式计算引擎的一颗璀璨之星,继承了MapReduce分布式并行计算的优点,并改进了MapReduce明显的缺陷。
它使用一种面向对象、函数式编程语言Scala来实现,能够像操作本地集合对象一样轻松地操作分布式数据集,具有运行速度快、易用性好、通用性强、兼容性好等诸多优点
spark必知必会的基本概念
Spark,是一种通用的大数据计算框架,I正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等,
Spark包含了大数据领城常见的各种计算框架:比如SparkCore用于离线计算,SparkSQL用于交互式查询,SparkStreaming用于实时流式计算,SparkMILlib用于机器学习,SparkGraphX用于图计算。
Spark主要用于大数据的计算,而Hadoop以后主要用于大数据的存储(比如HDFS、Hive,HBase等),以及资源调度(Yarn)。
Spark+Hadoop的组合,是未来大数据领域最热门的组合,也是最有前景的组合
好了,本文到此结束,如果可以帮助到大家,还望关注本站哦!
声明:本文内容来自互联网不代表本站观点,转载请注明出处:https://bk.77788889.com/12/105236.html