본문 바로가기
프로그래밍/리눅스

프로그래밍 「 리눅스 편」우분투에 아파치 스파크 설치

by grapedoukan 2023. 6. 16.
728x90

무화과. 아파치 스파크 로고.

Apache Spark는 대규모 데이터 처리를 위한 오픈 소스, 범용, 다국어 분석 엔진입니다. 클러스터의 RAM을 활용하여 단일 노드와 다중 노드 모두에서 작동하여 대량의 데이터에 대해 빠른 데이터 쿼리를 수행합니다.

필수 구성 요소

AWS에서 ubuntu EC2 m4.xlarge 인스턴스를 생성하고 SSH 및 Http 포트를 엽니다.

OS — Linux/ubuntu는 개발 및 배포 플랫폼으로 지원됩니다.
스토리지: 최소 20GB의 여유 공간.
RAM: 최소 8GB의 RAM이 필요합니다.

Spark 아키텍처

Apache Spark는 두 개의 기본 데몬과 클러스터 관리자가 있는 마스터/슬레이브 아키텍처를 따릅니다.

  • 마스터 데몬 — (마스터/드라이버 프로세스)
  • 작업자 데몬 –(슬레이브 프로세스)
  • 클러스터 관리자

무화과. Spark 아키텍처

Spark 아키텍처

Spark 클러스터에는 단일 마스터와 임의 개수의 슬레이브/작업자가 있습니다. 드라이버와 실행기는 개별 Java 프로세스를 실행하며 사용자는 동일한 수평 Spark 클러스터 또는 별도의 시스템(예: 수직 Spark 클러스터 또는 혼합 시스템 구성)에서 실행할 수 있습니다.

아파치 스파크를 설치하는 단계.

1. Java 설치

시스템 패키지를 업데이트합니다.

$ sudo apt update

Java를 설치합니다.

$ sudo apt install default-jdk -y

Java 버전을 확인합니다.

$ java -version

2. Apache Spark 설치

필요한 패키지를 설치합니다.

$ sudo apt install curl mlocate git scala -y
$ curl -O https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz

Spark tarball을 추출합니다.

$ sudo tar xvf spark-3.2.0-bin-hadoop3.2.tgz

설치 디렉토리를 만듭니다.
또한 압축을 푼 파일을 설치 디렉토리로 이동하고 사용 권한을 변경합니다./opt/spark

$ sudo mkdir /opt/spark
$ sudo mv spark-3.2.0-bin-hadoop3.2/* /opt/spark
$ sudo chmod -R 777 /opt/spark

를 편집합니다. 구성 파일을 사용하여 Apache Spark 설치 디렉터리를 시스템 경로에 추가할 수 있습니다.bashrc

$ sudo vim ~/.bashrc

파일 끝에 아래 줄을 추가하고 파일을 저장하고 종료합니다.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

변경 사항을 저장하여 적용합니다.

$ source ~/.bashrc

독립 실행형 마스터 서버를 시작합니다.

$ start-master.sh

Apache Spark 작업자 프로세스를 시작합니다.

$ start-slave.sh

설치 테스트:
CLI에서 테스트할 RDD를 만듭니다.

무화과. 스파크 CLI

Spark 웹 UI

Spark UI를 탐색하여 작업자 노드, 실행 중인 애플리케이션, 클러스터 리소스에 대해 알아봅니다.

쓰다 http://server public IP:8080

무화과. Spark 마스터 UI.

728x90