본문 바로가기

Data Engineering/Apache Spark

[Spark] Docker Ubuntu 컨테이너에 Apache Spark를 설치해보자

우분투 설치

docker pull ubuntu
docker images

 

* 도커 이미지 삭제하기: docker rmi [IMAGE ID]

 

컨테이너 실행

docker run -itd --name spark ubuntu /bin/sh

 

컨테이너 실행 시 docker run -itd 옵션을 사용

  • -i (--interactive): 컨테이너의 표준입력(stdin) 활성화 (주로 -it 와 같이 사용)
  • -t (--tty): TTY 모드 사용. 키보드를 통해 표준입력(stdin) 전달 (주로 -it 와 같이 사용)
  • -d (--detach): 컨테이너를 백그라운드로 실행 

 

 

docker exec 명령어 실행

docker exec -it spark /bin/bash

 

* 재시작시 docker start [name] 사용 ex) docker start spark

 

파이썬 설치

apt-get update

# 빌드를 위한 파일 추가 
apt install -y build-essential zlib1g-dev libncurses5-dev libgdbm-dev libnss3-dev libssl-dev libreadline-dev libffi-dev wget

# python 3.7.9 버전 설치 
# 다운로드 후 압축을 풀고, 빌드를 실행 
wget https://www.python.org/ftp/python/3.7.9/Python-3.7.9.tgz 
tar xzf Python-3.7.9.tgz
cd Python-3.7.9
./configure --enable-optimizations
make altinstall

 

🐍 파이썬 버전 확인

python3.7 --version

버전 확인 결과

🐍 파이썬 버전 변경

update-alternatives --install /usr/bin/python python /usr/local/bin/python3.7 1

*/usr/bin/python에 심볼릭 링크된 python명령어를 /usr/bin/python3.7로 대체(우선순위 1)

 

자바 설치

apt-get install default-jdk

 

 

자바 경로 확인

which java
# /usr/bin/java

ll /usr/bin/java
# lrwxrwxrwx 1 root root 22 Sep  6 07:23 /usr/bin/java -> /etc/alternatives/java*

ll /etc/alternatives/java
# lrwxrwxrwx 1 root root 43 Sep  6 07:23 /etc/alternatives/java -> /usr/lib/jvm/java-11-openjdk-amd64/bin/java*

 

 

환경변수 추가

vim /etc/environment
# vim command not found시 apt-get으로 설치
# JAVA_HOME="/usr/lib/jvm/java-11-openjdk-amd64" 추가

source /etc/environment

 

PATH 확인

 

🙋‍♂️ 스파크 설치

wget https://mirror.navercorp.com/apache/spark/spark-3.2.4/spark-3.2.4-bin-hadoop2.7.tgz
tar xzf spark-3.2.4-bin-hadoop2.7.tgz

 

 

🙋‍♂️ 스파크 실행

cd /spark-3.2.4-bin-hadoop2.7/bin
./pyspark

 

 


참고자료

 

[python] 우분투에 파이썬 3.7 설치

우분투(ubuntu)에 파이썬 특정 버전을 설치 하는 방법입니다. 우분투는 apt를 이용해 파이썬을 설치할 수 있습니다. 하지만 특정 버전을 설치 하기 위해서는 파이썬 홈페이지에서 binary 파일을 다운

118k.tistory.com

 

 

Docker로 Spark 환경 구성하기

스파크 설치할 os 설치 - 우분투로 선택docker search ubunut docker pull ubuntu docker run -itd --name spark ubuntu docker exec -itu 0 spark /bin/bashubuntu 컨테이너 생성 실행bash에서 python 설치 전 필요한 라이브러리 다운

whereisend.tistory.com