우분투 설치
docker pull ubuntu
docker images
* 도커 이미지 삭제하기: docker rmi [IMAGE ID]
컨테이너 실행
docker run -itd --name spark ubuntu /bin/sh
컨테이너 실행 시 docker run -itd 옵션을 사용
- -i (--interactive): 컨테이너의 표준입력(stdin) 활성화 (주로 -it 와 같이 사용)
- -t (--tty): TTY 모드 사용. 키보드를 통해 표준입력(stdin) 전달 (주로 -it 와 같이 사용)
- -d (--detach): 컨테이너를 백그라운드로 실행
docker exec 명령어 실행
docker exec -it spark /bin/bash
* 재시작시 docker start [name] 사용 ex) docker start spark
파이썬 설치
apt-get update
# 빌드를 위한 파일 추가
apt install -y build-essential zlib1g-dev libncurses5-dev libgdbm-dev libnss3-dev libssl-dev libreadline-dev libffi-dev wget
# python 3.7.9 버전 설치
# 다운로드 후 압축을 풀고, 빌드를 실행
wget https://www.python.org/ftp/python/3.7.9/Python-3.7.9.tgz
tar xzf Python-3.7.9.tgz
cd Python-3.7.9
./configure --enable-optimizations
make altinstall
🐍 파이썬 버전 확인
python3.7 --version
🐍 파이썬 버전 변경
update-alternatives --install /usr/bin/python python /usr/local/bin/python3.7 1
*/usr/bin/python에 심볼릭 링크된 python명령어를 /usr/bin/python3.7로 대체(우선순위 1)
자바 설치
apt-get install default-jdk
자바 경로 확인
which java
# /usr/bin/java
ll /usr/bin/java
# lrwxrwxrwx 1 root root 22 Sep 6 07:23 /usr/bin/java -> /etc/alternatives/java*
ll /etc/alternatives/java
# lrwxrwxrwx 1 root root 43 Sep 6 07:23 /etc/alternatives/java -> /usr/lib/jvm/java-11-openjdk-amd64/bin/java*
환경변수 추가
vim /etc/environment
# vim command not found시 apt-get으로 설치
# JAVA_HOME="/usr/lib/jvm/java-11-openjdk-amd64" 추가
source /etc/environment
🙋♂️ 스파크 설치
wget https://mirror.navercorp.com/apache/spark/spark-3.2.4/spark-3.2.4-bin-hadoop2.7.tgz
tar xzf spark-3.2.4-bin-hadoop2.7.tgz
🙋♂️ 스파크 실행
cd /spark-3.2.4-bin-hadoop2.7/bin
./pyspark
참고자료
'Data Engineering > Apache Spark' 카테고리의 다른 글
[Spark] Apache Spark의 Hint에 대해서 알아보자 (Partitioning Hint 편) 🙋♂️ (0) | 2024.03.18 |
---|---|
[Spark] Apache Spark에 대해 알아보자 🙋♂️ (0) | 2024.03.15 |
[Spark] Ubuntu 컨테이너에서 PySpark로 Amazon S3 데이터 읽어오기 (0) | 2024.02.02 |
[Spark] Apache Spark의 Execution Plan에 대해 알아보자 🙋♂️ (0) | 2023.11.10 |