연락처 정보

코스 개요

PySpark 및 머신러닝

모듈 1: 빅데이터 및 Spark 기초

  • 빅데이터 생태계 개요 및 현대 데이터 플랫폼에서 Spark 의 역할
  • Spark 아키텍처 이해: 드라이버, 실행자, 클러스터 관리자, 지연 평가, DAG 및 실행 계획
  • RDD 와 DataFrame API 의 차이점 및 각 방식 사용 시기
  • SparkSession 생성 및 구성과 애플리케이션 구성 기본 사항 이해

모듈 2: PySpark DataFrame

  • 엔터프라이즈 소스 및 형식(CSV, JSON, Parquet, Delta) 에서 데이터 읽기 및 쓰기
  • PySpark DataFrame 작업: 변환, 동작, 열 표현식, 필터링, 조인 및 집계
  • 윈도우 함수 구현, 타임스탬프 처리 및 중첩 데이터 작업과 같은 고급 작업 수행
  • 데이터 품질 검사 적용 및 재사용 가능하고 유지보수가 용이한 PySpark 코드 작성

모듈 3: 대규모 데이터 세트 효율적 처리

  • 성능 기본 사항 이해: 파티셔닝 전략, 셔플 동작, 캐싱 및 영속화
  • 브로드캐스트 조인 및 실행 계획 분석을 포함한 최적화 기법 활용
  • 대규모 데이터 세트 효율적 처리 및 확장 가능한 데이터 워크플로우를 위한 모범 사례
  • 엔터프라이즈 환경에서 사용되는 스키마 진화 및 현대적 스토리지 형식 이해

모듈 4: 대규모 특징 공학

  • Spark MLlib 를 통한 특징 공학 수행: 결측치 처리, 범주형 변수 인코딩 및 특징 스케일링
  • 재사용 가능한 전처리 단계 설계 및 머신러닝 파이프라인을 위한 데이터 세트 준비
  • 특징 선택 및 불균형 데이터 세트 처리에 대한 소개

모듈 5: Spark MLlib 를 활용한 머신러닝

  • MLlib 아키텍처 및 Estimator/Transformer 패턴 이해
  • 대규모로 회귀 및 분류 모델 학습(선형 회귀, 로지스틱 회귀, 의사결정나무, 랜덤 포레스트)
  • 분산 머신러닝 워크플로우에서 모델 비교 및 결과 해석

모듈 6: 엔드투엔드 ML 파이프라인

  • 전처리, 특징 공학 및 모델링을 결합한 엔드투엔드 머신러닝 파이프라인 구축
  • 학습/검증/테스트 분할 전략 적용
  • 그리드 서치 및 랜덤 서치를 사용한 교차 검증 및 하이퍼파라미터 튜닝 수행
  • 재현 가능한 머신러닝 실험 구성

모듈 7: 모델 평가 및 실무적 ML 의사결정

  • 회귀 및 분류 문제에 적합한 평가 지표 적용
  • 과적합 및 과소적합 식별 및 실무적 모델 선택 의사결정
  • 특징 중요도 해석 및 모델 동작 이해

모듈 8: 생산 환경 및 엔터프라이즈 실무

  • Spark 에서 모델 영속화 및 로드
  • 대규모 데이터 세트에 대한 배치 추론 워크플로우 구현
  • 엔터프라이즈 환경에서의 머신러닝 수명주기 이해
  • 버전 관리, 실험 추적 개념 및 기본 테스트 전략에 대한 소개

 

실무적 성과

  • PySpark 를 독립적으로 활용할 수 있는 능력
  • 대규모 데이터 세트를 효율적으로 처리할 수 있는 능력
  • 대규모로 특징 공학을 수행할 수 있는 능력
  • 확장 가능한 머신러닝 파이프라인을 구축할 수 있는 능력

요건

참가자는 다음과 같은 배경 지식을 갖춰야 합니다:

함수, 데이터 구조, 라이브러리 사용을 포함한 기본 Python 프로그래밍 지식
데이터 세트, 변환, 집계와 같은 데이터 분석 개념에 대한 기본 이해
SQL 및 관계형 데이터 개념에 대한 기본 지식
학습 데이터 세트, 특징, 평가 지표와 같은 머신러닝 개념에 대한 입문적 이해
명령줄 환경 및 기본 소프트웨어 개발 실무에 대한 친숙함이 권장됩니다

Pandas, NumPy 또는 유사한 데이터 처리 라이브러리 사용 경험은 도움이 되지만 필수는 아닙니다.

 21 시간

참가자 수


참가자별 가격

회원 평가 (1)

예정된 코스

관련 카테고리