如何安装 Apache Debian 11 上的 Spark

在本教程中,我们将向您展示如何安装 Apache Spark on Debian 11。对于那些不知道的人, Apache Spark 是一个免费的、开源的、通用的集群计算框架。 它专为提高速度而设计,用于机器学习以流式处理复杂的 SQL 查询。 它支持多种用于流式处理、图形处理的 API,包括 Java、Python、Scala 和 R。Spark 主要安装在 Hadoop 集群中,但您也可以在独立模式下安装和配置 spark。

本文假设您至少具备 Linux 的基本知识,知道如何使用 shell,最重要的是,您将网站托管在自己的 VPS 上。 安装非常简单,假设您在 root 帐户下运行,如果不是,您可能需要添加 ‘sudo‘ 到命令以获取 root 权限。 我将向您展示逐步安装 Apache Spark 在 Debian 11 (Bullseye) 上。

安装 Apache Debian 11 Bullseye 上的 Spark

第 1 步。在我们安装任何软件之前,重要的是通过运行以下命令确保您的系统是最新的 apt 终端中的命令:

sudo apt update sudo apt upgrade

步骤 2. 安装 Java。

运行以下命令以安装 Java 和其他依赖项:

sudo apt install default-jdk scala git

使用以下命令验证 Java 安装:

java --version

步骤 3. 安装 Apache Debian 11 上的 Spark。

现在我们下载最新版本 Apache Spark 从官方页面使用 wget 命令:

wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

接下来,解压下载的文件:

tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz mv spark-3.1.2-bin-hadoop3.2/ /opt/spark

之后,编辑 ~/.bashrc 文件并添加 Spark 路径变量:

nano ~/.bashrc

添加以下行:

 SPARK_HOME=/opt/spark  PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Save 和 close 文件,然后使用以下命令激活 Spark 环境变量:

source ~/.bashrc

步骤 3. 开始 Apache 火花主服务器。

这一点, Apache 火花已安装。 现在让我们通过运行它的脚本来启动它的独立主服务器:

start-master.sh

默认情况下, Apache Spark 监听 8080 端口。您可以使用以下命令进行检查:

ss -tunelp | grep 8080

步骤 4. 访问 Apache 火花网络界面。

配置成功后,现在访问 Apache 使用 URL 的 Spark Web 界面 https://your-server-ip-address:8080. 你应该看到 Apache 在以下屏幕上 Spark 主从服务:

在这个单服务器独立设置中,我们将启动一个从属服务器和主服务器。 这 start-slave.sh 该命令用于启动 Spark Worker Process:

start-slave.sh spark://ubuntu1:7077

现在一个 worker 已经启动并运行了,如果你重新加载 Spark Master 的 Web UI,你应该会在列表中看到它:

安装 Apache Debian 11 Bullseye 上的 Spark

完成配置后,启动主从服务器,测试 Spark shell 是否工作:

spark-shell

你会得到如下界面:

Spark session available as 'spark'. Welcome to       ____              __      / __/__  ___ _____/ /__     _ / _ / _ `/ __/  '_/    /___/ .__/_,_/_/ /_/_   version 3.1.2       /_/           Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12) Type in expressions to have them evaluated. Type :help for more information.  scala>

恭喜! 您已成功安装 Apache 火花。 感谢您使用本教程安装最新版本的 Apache Debian 11 Bullseye 上的 Spark。 如需更多帮助或有用信息,我们建议您查看 官方 Apache 星火网站.