코스 개요

  1. Scala 개요

    • Scala의 간단한 소개
    • 실습: Scala를 알아보기
  2. Spark 기본 개념

    • 배경 및 역사
    • Spark와 Hadoop
    • Spark 개념 및 아키텍처
    • Spark 에코시스템 (코어, Spark SQL, MLlib, 스트리밍)
    • 실습: Spark 설치 및 실행
  3. Spark 첫 번째 시선

    • 로컬 모드에서 Spark 실행
    • Spark 웹 UI
    • Spark 셸
    • 데이터셋 분석 – 1부
    • RDD 검사
    • 실습: Spark 셸 탐색
  4. RDDs

    • RDD 개념
    • 파티션
    • RDD 연산 / 변환
    • RDD 유형
    • 키-값 쌍 RDD
    • RDD에서 MapReduce
    • 캐싱 및 지속성
    • 실습: RDD 생성 및 검사; RDD 캐싱
  5. Spark API 프로그래밍

    • Spark API / RDD API 소개
    • 첫 번째 프로그램 Spark에 제출
    • 디버깅 / 로깅
    • 구성 속성
    • 실습: Spark API 프로그래밍, 작업 제출
  6. Spark SQL

    • Spark에서 SQL 지원
    • 데이터프레임
    • 테이블 정의 및 데이터셋 가져오기
    • SQL을 사용하여 데이터프레임 쿼리
    • 저장 형식: JSON / Parquet
    • 실습: 데이터프레임 생성 및 쿼리; 데이터 형식 평가
  7. MLlib

    • MLlib 소개
    • MLlib 알고리즘
    • 실습: MLlib 애플리케이션 작성
  8. GraphX

    • GraphX 라이브러리 개요
    • GraphX API
    • 실습: Spark를 사용하여 그래프 데이터 처리
  9. Spark 스트리밍

    • 스트리밍 개요
    • 스트리밍 플랫폼 평가
    • 스트리밍 연산
    • 슬라이딩 윈도우 연산
    • 실습: Spark 스트리밍 애플리케이션 작성
  10. Spark와 Hadoop

    • Hadoop 소개 (HDFS / YARN)
    • Hadoop + Spark 아키텍처
    • Hadoop YARN에서 Spark 실행
    • Spark를 사용하여 HDFS 파일 처리
  11. Spark 성능 및 튜닝

    • 브로드캐스트 변수
    • 누적기
    • 메모리 관리 및 캐싱
  12. Spark 운영

    • 프로덕션 환경에서 Spark 배포
    • 샘플 배포 템플릿
    • 구성
    • 모니터링
    • 문제 해결

요건

필수 사전 지식

Java / Scala / Python 언어 중 하나에 대한 친숙함 (우리 실험실은 Scala와 Python에서 진행)

Linux 개발 환경에 대한 기본 이해 (명령줄 탐색 / VI 또는 nano를 사용하여 파일을 편집)

 21 시간

참가자 수


참가자당 가격

회원 평가 (6)

예정된 코스

관련 카테고리