我尝试在 Windows 10 上设置 spark,在堆栈溢出方面发现了很多好的解决方案。因此,我正在尝试结合所有解决方案并创建标准化的安装步骤
请您参考如下方法:
安装前需要下载以下内容:
JAVA JDK - http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
SBT 和 Scala - https://www.scala-lang.org/download/
Winutils.exe - https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1
下载完成后
安装和设置 java
当java安装完成后,则:
在C:\下创建文件夹BigData
从 "C:\Program Files\" 复制 “Java” 文件夹 --> "C:\"
然后创建名为“JAVA_HOME”的环境变量。
高级系统设置 --> 环境变量 --> 点击新建按钮
变量名:JAVA_HOME
变量值:C:\Java\jdk1.8.0_181
- 将bin添加到“路径”,进入高级系统设置-->环境变量-->点击路径-->点击新建-->写入
%JAVA_HOME%\bin
安装和设置 sbt 和 scala
安装sbt和scala,在文件夹C:\Bigdata下,安装完成后用sbt和scala
- 创建名为“SCALA_HOME”的环境变量。
高级系统设置 --> 环境变量 --> 点击新建按钮
变量名:SCALA_HOME
变量值:C:\BigData\scala
将bin添加到“路径”,进入高级系统设置-->环境变量-->点击路径-->点击新建- -> 写,
%SCALA_HOME%\bin
为 Windows 设置 Hadoop 库
从上面提到的 git 链接下载 zip,然后从 git 解压下载的文件,然后从 “winutils-master\hadoop-2.7”复制 winutils.exe .1\bin”文件夹到C:\Bigdata\hadoop\bin
创建名为“HADOOP_HOME”的环境变量,高级设置 --> 环境变量 --> 点击新建
变量名:HADOOP_HOME
变量值:C:\BigData\hadoop
- 将bin添加到“路径”,进入高级设置-->环境变量-->点击路径-->点击新建,然后写入<
%HADOOP_HOME%\bin
安装和设置 spark
解压下载的spark包,然后将文件夹复制到C:\Bigdata\,并将复制的文件夹重命名为“spark”。
- 创建名为“SPARK_HOME”的环境变量,
高级设置-->环境变量-->点击新建-->
变量名:SPARK_HOME
变量值:C:\BigData\spark
- 添加bin到Path,高级设置-->环境变量-->点击路径-->点击新建-->写入
%SPARK_HOME%\bin
- 现在在C:\下创建/tmp/hive目录,并通过以下命令设置权限:
打开cmd提示符:
mkdir c:\tmp
mkdir c:\tmp\hive
winutils chmod 777/tmp/hive
至此,设置完成。
转到 cmd 提示符并键入“spark-shell”以运行 spark。
我遇到的一些事情,它给出了问题:
您的计算机名称不应包含下划线,这会给我带来错误。
需要安装Java JDK,版本为Java 1.8.0_181
配置了多个 Java 版本,这给我带来了问题,应该只有一个 Java 版本需要配置。