Donghae Blog

Donghae Blog

  • Category (121)
    • Computer Science (28)
      • Computational thinking (7)
      • Algorithem (10)
      • Data structure (6)
      • Operating system (5)
    • Programming (25)
      • C (20)
      • Python (3)
      • SQL (2)
    • Data Engineering (3)
      • Linux (1)
      • Docker (1)
      • Apache Airflow (3)
      • Apache Spark (5)
      • BigQuery (5)
      • Datahub (1)
    • Problem Solving (26)
      • Baekjoon Online Judge (13)
      • Programmers (10)
      • CodeUp (2)
    • Conference (2)
    • Code States AI (4)
    • LIKELION 9th (12)
    • Writing (5)
  • 홈
  • 태그
  • 방명록
  • 글쓰기
RSS 피드
로그인
로그아웃 글쓰기 관리

Donghae Blog

컨텐츠 검색

태그

배열 문자열 스택 코딩테스트 글또 알고리즘 c언어 파이썬 장고 bigquery 백준 포인터 네이버 Django 자료구조 cs50 시간복잡도 프로그래머스 부스트코스 멋쟁이사자처럼

최근글

댓글

공지사항

아카이브

kafka(1)

  • Kafka와 BigQuery를 활용한 데이터 파이프라인을 개선해보자☘️ (feat. MERGE문)

    들어가며 현재 제가 속한 데이터 팀에서는 준실시간 분석 요청에 대응하기 위해 Kafka와 BigQuery를 활용한 CDC 기반 데이터 파이프라인을 구축하고 있습니다. 그러나 Kafka 커넥터를 사용하는 과정에서 데이터 규모 증가로 인한 비용 문제 발생 가능성이 제기되었습니다. 이번 글에서는 Kafka 커넥터와 BigQuery MERGE 문을 사용한 기존 파이프라인의 한계를 살펴보고, 이를 개선하기 위해 테스트한 과정을 공유하고자합니다.   ✔️ CDC(Change Data Capture) 이름 그대로 데이터 베이스의 변경 사항을 실시간으로 추적하고 캡처하는 기술입니다. 데이터 웨어하우스 등 시스템으로의 동기화에 사용됩니다. 실시간 분석, 이벤트 기반 아키텍처 등에 활용할 수 있습니다. 1. 기존 구조Ka..

    2025.01.19
이전
1
다음
티스토리
© 2018 TISTORY. All rights reserved.

티스토리툴바