코스 개요

소개, 목표, 마이그레이션 전략

  • 강의 목표, 참가자 프로필 조정, 성공 기준
  • 고차원적인 마이그레이션 접근 방식 및 위험 고려 사항
  • 작업 공간, 저장소, 실습 데이터셋 설정

Day 1 — 마이그레이션 기초 및 아키텍처

  • Lakehouse 개념, Delta Lake 개요, Databricks 아키텍처
  • SMP vs MPP 차이점 및 마이그레이션에 대한 영향
  • Medallion (Bronze→Silver→Gold) 설계 및 Unity Catalog 개요

Day 1 실습 — 저장 프로시저 변환

  • 샘플 저장 프로시저를 노트북으로 실습 마이그레이션
  • 임시 테이블 및 커서를 DataFrame 변환으로 매핑
  • 원본 출력과의 검증 및 비교

Day 2 — 고급 Delta Lake & 증분 로딩

  • ACID 트랜잭션, 커밋 로그, 버전 관리, 타임 트래블
  • Auto Loader, MERGE INTO 패턴, 업serts 및 스키마 진화
  • OPTIMIZE, VACUUM, Z-ORDER, 파티셔닝 및 저장 최적화

Day 2 실습 — 증분 흡수 & 최적화

  • Auto Loader 흡수 및 MERGE 워크플로 구현
  • OPTIMIZE, Z-ORDER, VACUUM 적용; 결과 검증
  • 읽기/쓰기 성능 개선 측정

Day 3 — Databricks에서 SQL, 성능 & 디버깅

  • 분석적 SQL 기능: 윈도우 함수, 고차 함수, JSON/배열 처리
  • Spark UI 읽기, DAGs, 셔플, 스테이지, 작업 및 병목 현상 진단
  • 쿼리 조정 패턴: 브로드캐스트 조인, 힌트, 캐싱, 스플릴 감소

Day 3 실습 — SQL 리팩토링 & 성능 최적화

  • 무거운 SQL 프로세스를 최적화된 Spark SQL로 리팩토링
  • Spark UI 추적을 사용하여 왜곡 및 셔플 문제 식별 및 수정
  • 벤치마킹 전후 및 튜닝 단계 문서화

Day 4 — 전술적 PySpark: 절차형 논리 대체

  • Spark 실행 모델: 드라이버, 엑스큐터, 지연 평가 및 파티셔닝 전략
  • 루프와 커서를 벡터화된 DataFrame 작업으로 변환
  • 모듈화, UDFs/pandas UDFs, 위젯 및 재사용 가능한 라이브러리

Day 4 실습 — 절차형 스크립트 리팩토링

  • 절차형 ETL 스크립트를 모듈화된 PySpark 노트북으로 리팩토링
  • 매개변수화, 단위 테스트, 재사용 가능한 함수 소개
  • 코드 검토 및 최선의 관행 체크리스트 적용

Day 5 — 오케스트레이션, 전체 파이프라인 & 최적 관행

  • Databricks 워크플로: 작업 설계, 작업 의존성, 트리거 및 오류 처리
  • 품질 규칙과 스키마 검증을 포함한 증분 Medallion 파이프라인 설계
  • PySpark 논리와의 Git (GitHub/Azure DevOps), CI, 테스트 전략 통합

Day 5 실습 — 전체적인 end-to-end 파이프라인 구축

  • Workflows로 조정된 Bronze→Silver→Gold 파이프라인 조립
  • 로깅, 감사, 재시도, 자동 검증 구현
  • 전체 파이프라인 실행, 출력 검증 및 배포 노트 준비

운영화, 거버넌스, 프로덕션 대비

  • Unity Catalog 거버넌스, 라인지 및 접근 제어 최선의 관행
  • 비용, 클러스터 크기 조정, 오토스케일링, 작업 동시성 패턴
  • 배포 체크리스트, 롤백 전략, 런북 생성

최종 리뷰, 지식 이전 및 다음 단계

  • 참가자들의 마이그레이션 작업 및 학습한 내용 발표
  • 갭 분석, 추천 후속 활동, 교육 자료 전달
  • 참고 문헌, 추가 학습 경로, 지원 옵션

요건

  • 데이터 엔지니어링 개념 이해
  • SQL 및 저장 프로시저(Synapse / SQL Server) 경험
  • ETL 오케스트레이션 개념(ADF 또는 유사한 것)에 익숙함

대상자

  • 데이터 엔지니어링 배경을 가진 기술 관리자
  • 절차형 OLAP 논리를 Lakehouse 패턴으로 전환하는 데이터 엔지니어
  • Databricks 채택을 책임지는 플랫폼 엔지니어
 35 시간

참가자 수


참가자별 가격

예정된 코스

관련 카테고리