[Spark] Apache Spark에 대해 알아보자 🙋♂️
1. Apache Spark란 무엇인가? 스파크는 인메모리 기반의 통합 컴퓨팅 엔진이며 클러스터 환경에서 데이터를 병렬 처리하는 라이브러리 집합이다. 1) 인메모리 기반이기 때문에 처리 속도가 빠르고 2) 클러스터 환경을 통해 높은 성능, 고가용성, 확장성을 가진다. 3) 프로그래밍 언어로 R, 파이썬, 자바, 스칼라 등을 지원하고 3) 라이브러리인 SPARK SQL, MLIib, GraphX, Streaming 등을 제공한다. 사진에서와 같이 스파크는 통합이라는 관점을 중시하며 기능의 범위를 컴퓨팅 엔진으로 제한한다. 저장소 역할은 HDFS, AWS S3 등을 지원하며 서로 다른 저장소를 유사하게 볼 수 있도록 사용자 API를 제공한다. 2. Spark는 어떻게 등장했을까? 2000년대 초에는 발열, ..