문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
예약을 보내주셔서 감사합니다! 저희 팀 멤버 중 한 분이 곧 연락드리겠습니다.
코스 개요
소개, 목표 및 마이그레이션 전략
- 코스 목표, 참가자 프로필 맞춤, 성공 기준
- 고위 수준의 마이그레이션 접근 방식 및 위험 고려 사항
- 작업 공간, 저장소 및 실험용 데이터셋 설정
1일차 — 마이그레이션 기초 및 아키텍처
- 레이크하우스 개념, Delta Lake 개요, Databricks 아키텍처
- SMP vs MPP 차이 및 마이그레이션에 대한 영향
- Medallion (Bronze→Silver→Gold) 설계 및 Unity Catalog 개요
1일차 실험 — 저장 프로시저 변환
- 샘플 저장 프로시저를 노트북으로 실습적으로 마이그레이션합니다.
- 임시 테이블과 커서를 DataFrame 변환으로 매핑합니다.
- 원본 출력과의 검증 및 비교
2일차 — 고급 Delta Lake & 증분 적재
- ACID 트랜잭션, 커밋 로그, 버전 관리 및 타임 트래블
- Auto Loader, MERGE INTO 패턴, 업serts, 스키마 진화
- OPTIMIZE, VACUUM, Z-ORDER, 파티셔닝 및 저장 최적화
2일차 실험 — 증분 적재 & 최적화
- Auto Loader 적재 및 MERGE 워크플로 구현
- OPTIMIZE, Z-ORDER, VACUUM 적용; 결과 검증
- 읽기/쓰기 성능 향상 측정
3일차 — Databricks에서 SQL, 성능 & 디버깅
- 분석용 SQL 기능: 윈도우 함수, 고차 함수, JSON/배열 처리
- Spark UI 읽기, DAGs, 셔플, 단계, 작업 및 병목 현상 진단
- 쿼리 최적화 패턴: 브로드캐스트 조인, 힌트, 캐싱, 스플릴 감소
3일차 실험 — SQL 리팩터링 & 성능 최적화
- 무거운 SQL 프로세스를 최적화된 Spark SQL로 리팩터링합니다.
- Spark UI 추적을 사용하여 스키프 및 셔플 문제 식별 및 수정
- 성능 개선 전후 벤치마킹 및 최적화 단계 문서화
4일차 — 전략적 PySpark: 절차적 로직 대체
- Spark 실행 모델: 드라이버, 엑큐터, 지연 평가 및 파티셔닝 전략
- 루프와 커서를 벡터화된 DataFrame 작업으로 변환
- 모듈화, UDFs/pandas UDFs, 위젯 및 재사용 가능한 라이브러리
4일차 실험 — 절차적 스크립트 리팩터링
- 절차적 ETL 스크립트를 모듈화된 PySpark 노트북으로 리팩터링합니다.
- 매개변수화, 단위 테스트 형식의 테스트 및 재사용 가능한 함수 도입
- 코드 리뷰 및 베스트 프랙티스 체크리스트 적용
5일차 — 오케스트레이션, end-to-end 파이프라인 & 베스트 프랙티스
- Databricks 워크플로: 작업 설계, 작업 의존성, 트리거 및 오류 처리
- 품질 규칙 및 스키마 검증과 함께 증분 Medallion 파이프라인 설계
- Git(GitHub/Azure DevOps), CI, PySpark 로직에 대한 테스트 전략과의 통합
5일차 실험 — 완전한 end-to-end 파이프라인 구축
- Workflows로 조정된 Bronze→Silver→Gold 파이프라인 집합
- 로깅, 감사, 재시도 및 자동 검증 구현
- 전체 파이프라인 실행, 출력 검증 및 배포 노트 준비
운영화, 거버넌스 및 프로덕션 대비
- Unity Catalog 거버넌스, 라인지, 접근 제어 베스트 프랙티스
- 비용, 클러스터 크기, 오토스케일링 및 작업 동시성 패턴
- 배포 체크리스트, 롤백 전략, 런북 생성
최종 검토, 지식 전달 및 다음 단계
- 참가자들의 마이그레이션 작업 및 배운 내용 발표
- 갭 분석, 추천 후속 활동, 교육 자료 인수인계
- 참고 자료, 추가 학습 경로 및 지원 옵션
요건
- 데이터 엔지니어링 개념에 대한 이해
- SQL 및 저장 프로시저(Synapse / SQL Server) 경험
- ETL 오케스트레이션 개념(ADF 또는 유사)에 대한 익숙함
대상자
- 데이터 엔지니어링 배경을 가진 기술 관리자
- 절차적 OLAP 로직을 레이크하우스 패턴으로 전환하는 데이터 엔지니어
- Databricks 도입에 책임이 있는 플랫폼 엔지니어
35 시간