코스 개요

Apache Airflow 소개

  • 워크플로우 오케스트레이션이란 무엇인가?
  • Apache Airflow의 주요 기능과 이점
  • Airflow 2.x의 개선 사항과 생태계 개요

아키텍처 및 기본 개념

  • 스케줄러, 웹 서버, 그리고 워커 프로세스
  • DAG, 작업, 그리고 연산자
  • 실행자 및 백엔드 (Local, Celery, Kubernetes)

설치 및 설정

  • 로컬 및 클라우드 환경에서 Airflow 설치
  • 다양한 실행자로 Airflow 구성
  • 메타데이터 데이터베이스 및 연결 설정

Airflow UI와 CLI 탐색

  • Airflow 웹 인터페이스 탐색
  • DAG 실행, 작업, 그리고 로그 모니터링
  • Airflow CLI를 관리를 위해 사용

DAG 작성 및 관리

  • TaskFlow API를 사용하여 DAG 생성
  • 연산자, 센서 및 훅 사용
  • 의존성 및 스케줄링 간격 관리

Airflow와 데이터 및 클라우드 서비스 통합

  • 데이터베이스, API, 메시지 큐 연결
  • Airflow로 ETL 파이프라인 실행
  • 클라우드 통합: AWS, GCP, Azure 연산자

모니터링 및 가시성

  • 작업 로그 및 실시간 모니터링
  • Prometheus 및 Grafana로 메트릭 관리
  • 이메일 또는 Slack으로 경고 및 알림

Apache Airflow 보안

  • 역할 기반 접근 제어 (RBAC)
  • LDAP, OAuth 및 SSO로 인증
  • Vault 및 클라우드 비밀 저장소로 비밀 관리

Apache Airflow 확장

  • 병렬 처리, 동시성, 작업 큐
  • CeleryExecutor 및 KubernetesExecutor 사용
  • Helm을 사용하여 Kubernetes에 Airflow 배포

생산 환경에서의 최선 방법

  • DAG에 대한 버전 관리 및 CI/CD
  • DAG 테스트 및 디버깅
  • 규모에서 신뢰성과 성능 유지

문제 해결 및 최적화

  • 실패한 DAG 및 작업 디버깅
  • DAG 성능 최적화
  • 일반적인 함정 및 피하기

요약 및 다음 단계

요건

  • Python 프로그래밍 경험
  • 데이터 엔지니어링 또는 DevOps 개념에 대한 이해
  • ETL 또는 워크플로우 오케스트레이션 이해

대상 청중

  • 데이터 과학자
  • 데이터 엔지니어
  • DevOps 및 인프라 엔지니어
  • 소프트웨어 개발자
 21 시간

참가자 수


참가자당 가격

회원 평가 (7)

예정된 코스

관련 카테고리