Course Outline

소개:

  • Apache Spark in Hadoop 생태계
  • Python, Scala에 대한 간단한 소개

기본(이론):

  • 건축학
  • RDD
  • 변환 및 작업
  • 단계, 작업, 종속성

Databricks 환경을 사용하여 기본 사항을 이해합니다(실습 워크숍).

  • RDD API를 사용한 연습
  • 기본 동작 및 변환 기능
  • 페어RDD
  • 가입하다
  • 캐싱 전략
  • DataFrame API를 사용한 연습
  • 스파크SQL
  • DataFrame: 선택, 필터링, 그룹화, 정렬
  • UDF(사용자 정의 함수)
  • DataSet API 살펴보기
  • 스트리밍

AWS 환경을 사용하여 배포를 이해합니다(실습 워크숍):

  • AWS Glue의 기본 사항
  • AWS EMR과 AWS Glue의 차이점 이해
  • 두 환경 모두의 예시 작업
  • 장점과 단점 이해

추가의:

  • Apache Airflow 오케스트레이션 소개

Requirements

프로그래밍 기술(Python, Scala 선호)

SQL 기본

  21 Hours
 

Number of participants


Starts

Ends


Dates are subject to availability and take place between 10:00 and 17:00.
Open Training Courses require 5+ participants.

회원 평가 (3)

Related Courses

Related Categories