코스 개요
-
Scala 개요
- Scala의 간단한 소개
- 실습: Scala를 알아보기
-
Spark 기본 개념
- 배경 및 역사
- Spark와 Hadoop
- Spark 개념 및 아키텍처
- Spark 에코시스템 (코어, Spark SQL, MLlib, 스트리밍)
- 실습: Spark 설치 및 실행
-
Spark 첫 번째 시선
- 로컬 모드에서 Spark 실행
- Spark 웹 UI
- Spark 셸
- 데이터셋 분석 – 1부
- RDD 검사
- 실습: Spark 셸 탐색
-
RDDs
- RDD 개념
- 파티션
- RDD 연산 / 변환
- RDD 유형
- 키-값 쌍 RDD
- RDD에서 MapReduce
- 캐싱 및 지속성
- 실습: RDD 생성 및 검사; RDD 캐싱
-
Spark API 프로그래밍
- Spark API / RDD API 소개
- 첫 번째 프로그램 Spark에 제출
- 디버깅 / 로깅
- 구성 속성
- 실습: Spark API 프로그래밍, 작업 제출
-
Spark SQL
- Spark에서 SQL 지원
- 데이터프레임
- 테이블 정의 및 데이터셋 가져오기
- SQL을 사용하여 데이터프레임 쿼리
- 저장 형식: JSON / Parquet
- 실습: 데이터프레임 생성 및 쿼리; 데이터 형식 평가
-
MLlib
- MLlib 소개
- MLlib 알고리즘
- 실습: MLlib 애플리케이션 작성
-
GraphX
- GraphX 라이브러리 개요
- GraphX API
- 실습: Spark를 사용하여 그래프 데이터 처리
-
Spark 스트리밍
- 스트리밍 개요
- 스트리밍 플랫폼 평가
- 스트리밍 연산
- 슬라이딩 윈도우 연산
- 실습: Spark 스트리밍 애플리케이션 작성
-
Spark와 Hadoop
- Hadoop 소개 (HDFS / YARN)
- Hadoop + Spark 아키텍처
- Hadoop YARN에서 Spark 실행
- Spark를 사용하여 HDFS 파일 처리
-
Spark 성능 및 튜닝
- 브로드캐스트 변수
- 누적기
- 메모리 관리 및 캐싱
-
Spark 운영
- 프로덕션 환경에서 Spark 배포
- 샘플 배포 템플릿
- 구성
- 모니터링
- 문제 해결
요건
필수 사전 지식
Java / Scala / Python 언어 중 하나에 대한 친숙함 (우리 실험실은 Scala와 Python에서 진행)
Linux 개발 환경에 대한 기본 이해 (명령줄 탐색 / VI 또는 nano를 사용하여 파일을 편집)
회원 평가 (6)
Doing similar exercises different ways really help understanding what each component (Hadoop/Spark, standalone/cluster) can do on its own and together. It gave me ideas on how I should test my application on my local machine when I develop vs when it is deployed on a cluster.
Thomas Carcaud - IT Frankfurt GmbH
코스 - Spark for Developers
Ajay was very friendly, helpful and also knowledgable about the topic he was discussing.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
코스 - Spark for Developers
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
코스 - Spark for Developers
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
코스 - Spark for Developers
We know a lot more about the whole environment.
John Kidd
코스 - Spark for Developers
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.