코스 개요

소개, 목표 및 마이그레이션 전략

  • 코스 목표, 참가자 프로필 맞춤, 성공 기준
  • 고위 수준의 마이그레이션 접근 방식 및 위험 고려 사항
  • 작업 공간, 저장소 및 실험용 데이터셋 설정

1일차 — 마이그레이션 기초 및 아키텍처

  • 레이크하우스 개념, Delta Lake 개요, Databricks 아키텍처
  • SMP vs MPP 차이 및 마이그레이션에 대한 영향
  • Medallion (Bronze→Silver→Gold) 설계 및 Unity Catalog 개요

1일차 실험 — 저장 프로시저 변환

  • 샘플 저장 프로시저를 노트북으로 실습적으로 마이그레이션합니다.
  • 임시 테이블과 커서를 DataFrame 변환으로 매핑합니다.
  • 원본 출력과의 검증 및 비교

2일차 — 고급 Delta Lake & 증분 적재

  • ACID 트랜잭션, 커밋 로그, 버전 관리 및 타임 트래블
  • Auto Loader, MERGE INTO 패턴, 업serts, 스키마 진화
  • OPTIMIZE, VACUUM, Z-ORDER, 파티셔닝 및 저장 최적화

2일차 실험 — 증분 적재 & 최적화

  • Auto Loader 적재 및 MERGE 워크플로 구현
  • OPTIMIZE, Z-ORDER, VACUUM 적용; 결과 검증
  • 읽기/쓰기 성능 향상 측정

3일차 — Databricks에서 SQL, 성능 & 디버깅

  • 분석용 SQL 기능: 윈도우 함수, 고차 함수, JSON/배열 처리
  • Spark UI 읽기, DAGs, 셔플, 단계, 작업 및 병목 현상 진단
  • 쿼리 최적화 패턴: 브로드캐스트 조인, 힌트, 캐싱, 스플릴 감소

3일차 실험 — SQL 리팩터링 & 성능 최적화

  • 무거운 SQL 프로세스를 최적화된 Spark SQL로 리팩터링합니다.
  • Spark UI 추적을 사용하여 스키프 및 셔플 문제 식별 및 수정
  • 성능 개선 전후 벤치마킹 및 최적화 단계 문서화

4일차 — 전략적 PySpark: 절차적 로직 대체

  • Spark 실행 모델: 드라이버, 엑큐터, 지연 평가 및 파티셔닝 전략
  • 루프와 커서를 벡터화된 DataFrame 작업으로 변환
  • 모듈화, UDFs/pandas UDFs, 위젯 및 재사용 가능한 라이브러리

4일차 실험 — 절차적 스크립트 리팩터링

  • 절차적 ETL 스크립트를 모듈화된 PySpark 노트북으로 리팩터링합니다.
  • 매개변수화, 단위 테스트 형식의 테스트 및 재사용 가능한 함수 도입
  • 코드 리뷰 및 베스트 프랙티스 체크리스트 적용

5일차 — 오케스트레이션, end-to-end 파이프라인 & 베스트 프랙티스

  • Databricks 워크플로: 작업 설계, 작업 의존성, 트리거 및 오류 처리
  • 품질 규칙 및 스키마 검증과 함께 증분 Medallion 파이프라인 설계
  • Git(GitHub/Azure DevOps), CI, PySpark 로직에 대한 테스트 전략과의 통합

5일차 실험 — 완전한 end-to-end 파이프라인 구축

  • Workflows로 조정된 Bronze→Silver→Gold 파이프라인 집합
  • 로깅, 감사, 재시도 및 자동 검증 구현
  • 전체 파이프라인 실행, 출력 검증 및 배포 노트 준비

운영화, 거버넌스 및 프로덕션 대비

  • Unity Catalog 거버넌스, 라인지, 접근 제어 베스트 프랙티스
  • 비용, 클러스터 크기, 오토스케일링 및 작업 동시성 패턴
  • 배포 체크리스트, 롤백 전략, 런북 생성

최종 검토, 지식 전달 및 다음 단계

  • 참가자들의 마이그레이션 작업 및 배운 내용 발표
  • 갭 분석, 추천 후속 활동, 교육 자료 인수인계
  • 참고 자료, 추가 학습 경로 및 지원 옵션

요건

  • 데이터 엔지니어링 개념에 대한 이해
  • SQL 및 저장 프로시저(Synapse / SQL Server) 경험
  • ETL 오케스트레이션 개념(ADF 또는 유사)에 대한 익숙함

대상자

  • 데이터 엔지니어링 배경을 가진 기술 관리자
  • 절차적 OLAP 로직을 레이크하우스 패턴으로 전환하는 데이터 엔지니어
  • Databricks 도입에 책임이 있는 플랫폼 엔지니어
 35 시간

참가자 수


참가자당 가격

예정된 코스

관련 카테고리