在本教程中,我们将向您展示如何安装 Apache Spark on Debian 11。对于那些不知道的人, Apache Spark 是一个免费的、开源的、通用的集群计算框架。 它专为提高速度而设计,用于机器学习以流式处理复杂的 SQL 查询。 它支持多种用于流式处理、图形处理的 API,包括 Java、Python、Scala 和 R。Spark 主要安装在 Hadoop 集群中,但您也可以在独立模式下安装和配置 spark。
本文假设您至少具备 Linux 的基本知识,知道如何使用 shell,最重要的是,您将网站托管在自己的 VPS 上。 安装非常简单,假设您在 root 帐户下运行,如果不是,您可能需要添加 ‘sudo
‘ 到命令以获取 root 权限。 我将向您展示逐步安装 Apache Spark 在 Debian 11 (Bullseye) 上。
安装 Apache Debian 11 Bullseye 上的 Spark
第 1 步。在我们安装任何软件之前,重要的是通过运行以下命令确保您的系统是最新的 apt
终端中的命令:
sudo apt update sudo apt upgrade
步骤 2. 安装 Java。
运行以下命令以安装 Java 和其他依赖项:
sudo apt install default-jdk scala git
使用以下命令验证 Java 安装:
java --version
步骤 3. 安装 Apache Debian 11 上的 Spark。
现在我们下载最新版本 Apache Spark 从官方页面使用 wget
命令:
wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
接下来,解压下载的文件:
tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz mv spark-3.1.2-bin-hadoop3.2/ /opt/spark
之后,编辑 ~/.bashrc
文件并添加 Spark 路径变量:
nano ~/.bashrc
添加以下行:
SPARK_HOME=/opt/spark PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Save 和 close 文件,然后使用以下命令激活 Spark 环境变量:
source ~/.bashrc
步骤 3. 开始 Apache 火花主服务器。
这一点, Apache 火花已安装。 现在让我们通过运行它的脚本来启动它的独立主服务器:
start-master.sh
默认情况下, Apache Spark 监听 8080 端口。您可以使用以下命令进行检查:
ss -tunelp | grep 8080
步骤 4. 访问 Apache 火花网络界面。
配置成功后,现在访问 Apache 使用 URL 的 Spark Web 界面 https://your-server-ip-address:8080
. 你应该看到 Apache 在以下屏幕上 Spark 主从服务:
在这个单服务器独立设置中,我们将启动一个从属服务器和主服务器。 这 start-slave.sh
该命令用于启动 Spark Worker Process:
start-slave.sh spark://ubuntu1:7077
现在一个 worker 已经启动并运行了,如果你重新加载 Spark Master 的 Web UI,你应该会在列表中看到它:
完成配置后,启动主从服务器,测试 Spark shell 是否工作:
spark-shell
你会得到如下界面:
Spark session available as 'spark'. Welcome to ____ __ / __/__ ___ _____/ /__ _ / _ / _ `/ __/ '_/ /___/ .__/_,_/_/ /_/_ version 3.1.2 /_/ Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12) Type in expressions to have them evaluated. Type :help for more information. scala>
恭喜! 您已成功安装 Apache 火花。 感谢您使用本教程安装最新版本的 Apache Debian 11 Bullseye 上的 Spark。 如需更多帮助或有用信息,我们建议您查看 官方 Apache 星火网站.