Linux安装ZooKeeper

Linux上搭建Zookeeper集群,ZooKeeper依赖于JDK的机制,Linux配置好相应的JDK环境。 这次准备使用三台主机配置ZooKeeper 第1步、修改三台主机的主机名称(三台主机都一样的配置,IP不对,运行时将会导致...

RDDs的特性

一 RDDs的血统关系图 Spark维护着RDDs之间的依赖关系和创建关系,叫做血统关系图。 Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据。 二 延迟计算(Lazy Evaluation) Spark对RD...

Spark计算模型

一 Spark程序示例 数据处理流水线: val file=sc.textFile("hdfs://XXX")          //1 输入与构造RDD...

Spark安装部署

一 下载Scala和Spark [root@master opt]# wget http://downloads.lightbend.com/scala/2.11.8/scala-2.1...

JDK8+Scala2.11+spark-2.0.0+Intellij2017.3.4开发wordcount程序并在集群中运行

一 安装JDK 下载地址 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html...

Spark介绍

一 Spark是什么 Spark是一个快速且通用的集群计算平台。 二 Spark的特点 1 Spark是快速的 Spark扩充了流行的Mapreduce计算模型 Sp...

Spark运行说明

一 Spark运行环境 Spark是Scala写的,运行在JVM上,所以运行环境Java7+ 如果使用Python API,需要安装Python 2.6+或者运行Python3.4+ Spar...

RDDs相关概念介绍

一 Driver program 包含程序的main()方法,RDDs的定义和操作。 它管理很多节点,我们称作executors 二 SparkContext 1...

RDDs基本操作之Transformations(一)

一 Transformations Transformations(转换):从之前的RDD构建一个新的RDD,像map()和filter() 二 逐元素Transformations 1 m...

RDDs基本操作之Transformations(二)

一 说明 RDDs支持数据集合的计算,例如并集,交集计算。 二实战 scala> val rdd1=sc.parallelize(Array("coffe","co...