무화과. 아파치 스파크 로고.
Apache Spark는 대규모 데이터 처리를 위한 오픈 소스, 범용, 다국어 분석 엔진입니다. 클러스터의 RAM을 활용하여 단일 노드와 다중 노드 모두에서 작동하여 대량의 데이터에 대해 빠른 데이터 쿼리를 수행합니다.
필수 구성 요소
AWS에서 ubuntu EC2 m4.xlarge 인스턴스를 생성하고 SSH 및 Http 포트를 엽니다.
OS — Linux/ubuntu는 개발 및 배포 플랫폼으로 지원됩니다.
스토리지: 최소 20GB의 여유 공간.
RAM: 최소 8GB의 RAM이 필요합니다.
Spark 아키텍처
Apache Spark는 두 개의 기본 데몬과 클러스터 관리자가 있는 마스터/슬레이브 아키텍처를 따릅니다.
- 마스터 데몬 — (마스터/드라이버 프로세스)
- 작업자 데몬 –(슬레이브 프로세스)
- 클러스터 관리자
무화과. Spark 아키텍처
Spark 아키텍처
Spark 클러스터에는 단일 마스터와 임의 개수의 슬레이브/작업자가 있습니다. 드라이버와 실행기는 개별 Java 프로세스를 실행하며 사용자는 동일한 수평 Spark 클러스터 또는 별도의 시스템(예: 수직 Spark 클러스터 또는 혼합 시스템 구성)에서 실행할 수 있습니다.
아파치 스파크를 설치하는 단계.
1. Java 설치
시스템 패키지를 업데이트합니다.
$ sudo apt update
Java를 설치합니다.
$ sudo apt install default-jdk -y
Java 버전을 확인합니다.
$ java -version
2. Apache Spark 설치
필요한 패키지를 설치합니다.
$ sudo apt install curl mlocate git scala -y
$ curl -O https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
Spark tarball을 추출합니다.
$ sudo tar xvf spark-3.2.0-bin-hadoop3.2.tgz
설치 디렉토리를 만듭니다.
또한 압축을 푼 파일을 설치 디렉토리로 이동하고 사용 권한을 변경합니다./opt/spark
$ sudo mkdir /opt/spark
$ sudo mv spark-3.2.0-bin-hadoop3.2/* /opt/spark
$ sudo chmod -R 777 /opt/spark
를 편집합니다. 구성 파일을 사용하여 Apache Spark 설치 디렉터리를 시스템 경로에 추가할 수 있습니다.bashrc
$ sudo vim ~/.bashrc
파일 끝에 아래 줄을 추가하고 파일을 저장하고 종료합니다.
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
변경 사항을 저장하여 적용합니다.
$ source ~/.bashrc
독립 실행형 마스터 서버를 시작합니다.
$ start-master.sh
Apache Spark 작업자 프로세스를 시작합니다.
$ start-slave.sh
설치 테스트:
CLI에서 테스트할 RDD를 만듭니다.
무화과. 스파크 CLI
Spark 웹 UI
Spark UI를 탐색하여 작업자 노드, 실행 중인 애플리케이션, 클러스터 리소스에 대해 알아봅니다.
쓰다 http://server public IP:8080
무화과. Spark 마스터 UI.
'프로그래밍 > 리눅스' 카테고리의 다른 글
프로그래밍 「 리눅스 편」명령줄 마스터하기: 초보자를 위한 필수 Linux 명령 (0) | 2023.06.15 |
---|---|
프로그래밍 「 리눅스 편」DevOps 엔지니어를 위한 Linux 마스터하기: 성공을 위한 필수 명령 및 사례 (0) | 2023.06.15 |
프로그래밍 「 리눅스 편」Dockerfile : 지침에 따라 Docker 이미지 빌드 및 관리 (0) | 2023.06.15 |
프로그래밍 「 리눅스 편」프로토타입 코드를 사용한 비동기 프로그래밍의 기본 사항 이해 (1) | 2023.06.15 |
프로그래밍 「 리눅스 편」[윈도우] Excel에서 수식을 사용하여 파일 이름 바꾸기 (0) | 2023.06.15 |