[Spark] Apache Spark의 Execution Plan에 대해 알아보자 🙋♂️
Apache Spark 빅데이터 처리를 위한 통합 컴퓨팅 엔진이다. 하드 디스크가 아닌 RAM에 데이터를 보관하고 병렬로 처리하는 인메모리 기반 연산이 가능하다. 다양한 언어(파이썬, 자바, 스칼라,R, SQL)를 지원한다. 자세한 내용은 이 글에서 확인 💡 Spark의 실행 계획이란? Spark에서 SQL 쿼리, 데이터 프레임, 데이터 셋을 최적화해 처리하는 방식을 설명한다. Spark에서 최적화 프로그램의 이름은 Catalyst이며 아래 과정과 같이 나타낼 수 있다. 각 과정에서는 논리적 계획과 물리적 계획을 만들며 이는 마스터 노드(Driver)에서 생성한다. 1) Logical Plan 사용자가 작성한 쿼리를 논리적인 단계로 표현. ✔ Unresolved Logical Plan 쿼리 분석 과정에서..
2023.11.10