문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
예약을 보내주셔서 감사합니다! 저희 팀 멤버 중 한 분이 곧 연락드리겠습니다.
코스 개요
PySpark 및 머신러닝
모듈 1: 빅데이터 및 Spark 기초
- 빅데이터 생태계 개요 및 현대 데이터 플랫폼에서 Spark 의 역할
- Spark 아키텍처 이해: 드라이버, 실행자, 클러스터 관리자, 지연 평가, DAG 및 실행 계획
- RDD 와 DataFrame API 의 차이점 및 각 방식 사용 시기
- SparkSession 생성 및 구성과 애플리케이션 구성 기본 사항 이해
모듈 2: PySpark DataFrame
- 엔터프라이즈 소스 및 형식(CSV, JSON, Parquet, Delta) 에서 데이터 읽기 및 쓰기
- PySpark DataFrame 작업: 변환, 동작, 열 표현식, 필터링, 조인 및 집계
- 윈도우 함수 구현, 타임스탬프 처리 및 중첩 데이터 작업과 같은 고급 작업 수행
- 데이터 품질 검사 적용 및 재사용 가능하고 유지보수가 용이한 PySpark 코드 작성
모듈 3: 대규모 데이터 세트 효율적 처리
- 성능 기본 사항 이해: 파티셔닝 전략, 셔플 동작, 캐싱 및 영속화
- 브로드캐스트 조인 및 실행 계획 분석을 포함한 최적화 기법 활용
- 대규모 데이터 세트 효율적 처리 및 확장 가능한 데이터 워크플로우를 위한 모범 사례
- 엔터프라이즈 환경에서 사용되는 스키마 진화 및 현대적 스토리지 형식 이해
모듈 4: 대규모 특징 공학
- Spark MLlib 를 통한 특징 공학 수행: 결측치 처리, 범주형 변수 인코딩 및 특징 스케일링
- 재사용 가능한 전처리 단계 설계 및 머신러닝 파이프라인을 위한 데이터 세트 준비
- 특징 선택 및 불균형 데이터 세트 처리에 대한 소개
모듈 5: Spark MLlib 를 활용한 머신러닝
- MLlib 아키텍처 및 Estimator/Transformer 패턴 이해
- 대규모로 회귀 및 분류 모델 학습(선형 회귀, 로지스틱 회귀, 의사결정나무, 랜덤 포레스트)
- 분산 머신러닝 워크플로우에서 모델 비교 및 결과 해석
모듈 6: 엔드투엔드 ML 파이프라인
- 전처리, 특징 공학 및 모델링을 결합한 엔드투엔드 머신러닝 파이프라인 구축
- 학습/검증/테스트 분할 전략 적용
- 그리드 서치 및 랜덤 서치를 사용한 교차 검증 및 하이퍼파라미터 튜닝 수행
- 재현 가능한 머신러닝 실험 구성
모듈 7: 모델 평가 및 실무적 ML 의사결정
- 회귀 및 분류 문제에 적합한 평가 지표 적용
- 과적합 및 과소적합 식별 및 실무적 모델 선택 의사결정
- 특징 중요도 해석 및 모델 동작 이해
모듈 8: 생산 환경 및 엔터프라이즈 실무
- Spark 에서 모델 영속화 및 로드
- 대규모 데이터 세트에 대한 배치 추론 워크플로우 구현
- 엔터프라이즈 환경에서의 머신러닝 수명주기 이해
- 버전 관리, 실험 추적 개념 및 기본 테스트 전략에 대한 소개
실무적 성과
- PySpark 를 독립적으로 활용할 수 있는 능력
- 대규모 데이터 세트를 효율적으로 처리할 수 있는 능력
- 대규모로 특징 공학을 수행할 수 있는 능력
- 확장 가능한 머신러닝 파이프라인을 구축할 수 있는 능력
요건
참가자는 다음과 같은 배경 지식을 갖춰야 합니다:
함수, 데이터 구조, 라이브러리 사용을 포함한 기본 Python 프로그래밍 지식
데이터 세트, 변환, 집계와 같은 데이터 분석 개념에 대한 기본 이해
SQL 및 관계형 데이터 개념에 대한 기본 지식
학습 데이터 세트, 특징, 평가 지표와 같은 머신러닝 개념에 대한 입문적 이해
명령줄 환경 및 기본 소프트웨어 개발 실무에 대한 친숙함이 권장됩니다
Pandas, NumPy 또는 유사한 데이터 처리 라이브러리 사용 경험은 도움이 되지만 필수는 아닙니다.
21 시간
회원 평가 (1)
실제로 적용할 수 있어 좋았습니다. 이론적인 지식을 실제 예를 통해 적용하는 것이 매우 좋아졌습니다.
Aurelia-Adriana - Allianz Services Romania
코스 - Python and Spark for Big Data (PySpark)
기계 번역됨