본문 바로가기

Data Engineering/Apache Airflow

(3)
[Airflow] Amazon S3에 파일 업로드하기 (+📚 알라딘 Open API 예제) Airflow DAG를 사용해 파일을 Amazon s3에 업로드해보자. *Docker로 Apache Airflow 설치하는 방법은 아래 글 참고 Docker로 Apache Airflow 설치하기 (with 공식 문서🧐) 데이터 파이프라인의 자동화를 구현해보고 싶어 Airflow에 대해 알아보았다. Apache Airflow Airflow is a platform to programmatically author, schedule and monitor workflows. Airflow는 Python 프로그래밍 언어를 통해 워크 donghae0230.tistory.com 1) AWS S3 버킷 생성 2) Airflow Connection 생성 Amazon Web Services를 선택한 후 Extra 필드에 ..
[Airflow] 튜토리얼 따라하기 (with 공식 문서🧐) Airflow 공식문서의 튜토리얼을 따라해보자. 오늘 따라할 코드는 다음과 같다. airflow/example_dags/tutorial.py from datetime import datetime, timedelta from textwrap import dedent # The DAG object; we'll need this to instantiate a DAG from airflow import DAG # Operators; we need this to operate! from airflow.operators.bash import BashOperator with DAG( 'tutorial', # These args will get passed on to each operator # You can over..
[Airflow] Docker로 Apache Airflow 설치하기 (with 공식 문서🧐) 데이터 파이프라인의 자동화를 구현해보고 싶어 Airflow에 대해 알아보았다. Apache Airflow Airflow is a platform to programmatically author, schedule and monitor workflows. Airflow는 Python 프로그래밍 언어를 통해 워크플로우를 작성하고 스케줄링, 모니터링하는 플랫폼이다. 💡 데이터 파이프라인 내에서는 데이터가 이동하며 정해진 처리를 반복한다. 이때 각각의 처리를 태스크라고 부르는데 데이터 파이프라인이 복잡해지거나, 태스크 수가 증가할수록 테스크 실행에 문제가 생길 수 있다. Airflow와 같은 워크플로우 관리 도구는 1) 정기적으로 태스크를 실행하고 2) 비정상적인 상태를 감지하여 이를 해결하는 역할을 한다. Ar..