spark和hive区别(sparksql和hive on spark性能对比)

Spark有什么特点 与Hadoop有哪些区别

大家好,今天小编来为大家解答以下的问题,关于spark和hive区别,不建议使用spark引擎这个很多人还不知道,现在让我们一起来看看吧!

本文目录

  1. spark和hive区别
  2. 大数据Spark技术是否可以替代Hadoop
  3. spark继承了什么分布式计算的优点
  4. spark必知必会的基本概念

spark和hive区别

HIVE和SPARK的区别

1.hive是分布式又是数据仓库,同时又是查询引擎,SparkSQL只是取代的HIVE的。

2.hive的主要工作1>把HQL翻译长map-reduce的代码,并且有可能产生很多。

3.hive架构

4.hive默认情况下用derby存储元数据,所以在生产环境下一般会采用多用户的数据库进行元数据的存储,并可以读写分离和备份。

大数据Spark技术是否可以替代Hadoop

Spark技术从之前和当前的技术路线上看不是为了替代Hadoop,更多的是作为Hadoop生态圈(广义的Hadoop)中的重要一员来存在和发展的。

首先我们知道Hadoop(狭义的Hadoop)有几个重点技术HDFS、MR(MapReduce),YARN。

这几个技术分别对应分布式文件系统(负责存储),分布式计算框架(负责计算),分布式资源调度框架(负责资源调度)。

我们再来看Spark的技术体系,主要分为以下:

-SparkCore:提供核心框架和通用API接口等,如RDD等基础数据结构;

-SparkSQL:提供结构化数据处理的能力,分布式的类SQL查询引擎;

-Streaming:提供流式数据处理能力;

-MLLib:提供分布式机器学习常用的算法包;

-GraphX:提供图计算能力

从上面Spark的生态系统看,Spark主要是提供各种数据计算能力的(官方称之为全栈计算框架),本身并不过多涉足存储层和调度层(尽管它自身提供了一个调度器),它的设计是兼容流行的存储层和调度层。也就是说,Spark的存储层不仅可以对接HadoopHDFS,也可以对接AmazonS2;调度层不仅可以对接HadoopYARN也可以对接(ApacheMesos)。

因此,我们可以说Spark更多的是补充HadoopMR单一批处理计算能力,而不是完全替代Hadoop的。

【关注ABC(A:人工智能;B:BigData;C:CloudComputing)技术的攻城狮,Age:10+】

spark继承了什么分布式计算的优点

spark作为分布式计算引擎的一颗璀璨之星,继承了MapReduce分布式并行计算的优点,并改进了MapReduce明显的缺陷。

它使用一种面向对象、函数式编程语言Scala来实现,能够像操作本地集合对象一样轻松地操作分布式数据集,具有运行速度快、易用性好、通用性强、兼容性好等诸多优点

spark必知必会的基本概念

Spark,是一种通用的大数据计算框架,I正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等,

Spark包含了大数据领城常见的各种计算框架:比如SparkCore用于离线计算,SparkSQL用于交互式查询,SparkStreaming用于实时流式计算,SparkMILlib用于机器学习,SparkGraphX用于图计算。

Spark主要用于大数据的计算,而Hadoop以后主要用于大数据的存储(比如HDFS、Hive,HBase等),以及资源调度(Yarn)。

Spark+Hadoop的组合,是未来大数据领域最热门的组合,也是最有前景的组合

好了,本文到此结束,如果可以帮助到大家,还望关注本站哦!

Spark SQL精华 及与Hive的集成

声明:本文内容来自互联网不代表本站观点,转载请注明出处:https://bk.77788889.com/12/105236.html

相关推荐