코스 개요

1주차 — 데이터 엔지니어링 소개

  • 데이터 엔지니어링 기본 및 현대 데이터 스택
  • 데이터 인제스트 패턴 및 소스
  • 배치 vs 스트리밍 개념 및 사용 사례
  • 실습: 샘플 데이터를 클라우드 스토리지에 인제스트

2주차 — Databricks Lakehouse Foundation Badge

  • Databricks 플랫폼 기본 및 작업 공간 탐색
  • Delta Lake 개념: ACID, 타임 트래블, 스키마 진화
  • 작업 공간 보안, 접근 제어, Unity Catalog 기본
  • 실습: Delta 테이블 생성 및 관리

3주차 — Databricks에서 고급 SQL

  • 확장성 있는 고급 SQL 구성 및 윈도우 함수
  • 쿼리 최적화, 실행 계획, 비용 효율적인 패턴
  • 마테리얼라이즈 뷰, 캐싱 및 성능 튜닝
  • 실습: 대규모 데이터셋에 대한 분석 쿼리 최적화

4주차 — Databricks Certified Developer for Apache Spark (준비)

  • Spark 아키텍처, RDDs, DataFrames 및 Datasets 심화
  • 주요 Spark 변환 및 작업; 성능 고려 사항
  • Spark 스트리밍 기본 및 구조화된 스트리밍 패턴
  • 연습 문제 및 실습 테스트 문제

5주차 — 데이터 모델링 소개

  • 차원 모델링, 스타/스키마 설계, 정규화 개념
  • 레이크하우스 모델링 vs 전통적인 웨어하우스 접근 방식
  • 분석 준비 데이터셋을 위한 디자인 패턴
  • 실습: 소비 준비 테이블 및 뷰 구축

6주차 — 가져오기 도구 및 데이터 인제스트 자동화 소개

  • Databricks를 위한 커넥터 및 인제스트 도구 (AWS Glue, Data Factory, Kafka)
  • 스트림 인제스트 패턴 및 마이크로 배치 설계
  • 데이터 검증, 품질 검사 및 스키마 적용
  • 실습: 견고한 인제스트 파이프라인 구축

7주차 — Git Flow 및 데이터 엔지니어링을 위한 CI/CD 소개

  • Git Flow 브랜치 전략 및 리포지토리 조직
  • 노트북, 작업 및 인프라 코드를 위한 CI/CD 파이프라인
  • 데이터 코드에 대한 테스트, 린팅 및 배포 자동화
  • 실습: Git 기반 워크플로우 및 자동화된 작업 배포 구현

8주차 — Databricks Certified Data Engineer Associate (준비) & 데이터 엔지니어링 패턴

  • 인증 주제 복습 및 실습 문제
  • 아키텍처 패턴: 브론즈/실버/골드, CDC, 느리게 변하는 차원
  • 운영 패턴: 모니터링, 알림 및 계보
  • 실습: 엔지니어링 패턴을 적용한 종단 간 파이프라인

9주차 — Airflow 및 Astronomer 소개; 스크립팅

  • Airflow 개념: DAGs, 작업, 연산자 및 스케줄링
  • Astronomer 플랫폼 개요 및 오케스트레이션 최적 방법
  • 자동화를 위한 스크립팅: 데이터 작업에 대한 Python 스크립팅 패턴
  • 실습: Airflow DAGs로 Databricks 작업 오케스트레이션

10주차 — 데이터 시각화, Tableau 및 맞춤형 최종 프로젝트

  • Tableau를 Databricks에 연결하고 BI 계층을 위한 최적 방법
  • 대시보드 디자인 원칙 및 성능 인식 시각화
  • 캡스톤: 맞춤형 최종 프로젝트 범위, 구현 및 발표
  • 최종 발표, 동료 검토 및 강사 피드백

요약 및 다음 단계

요건

  • SQL과 데이터 개념에 대한 기본적인 이해
  • Python 또는 Scala로 프로그래밍 경험
  • 클라우드 서비스 및 가상 환경에 대한 익숙함

대상

  • 데이터 엔지니어 지망생 및 실무자
  • ETL/BI 개발자 및 분석 엔지니어
  • 데이터 플랫폼 및 DevOps 팀, 파이프라인 지원
 350 시간

참가자 수


참가자당 가격

예정된 코스

관련 카테고리