코스 개요

섹션 1: Hadoop 소개

  • Hadoop의 역사, 개념
  • 생태계
  • 배포
  • 고수준 아키텍처
  • Hadoop 신화
  • Hadoop의 도전 과제
  • 하드웨어/소프트웨어
  • 실습 : Hadoop 첫 번째 경험

섹션 2: HDFS

  • 디자인과 아키텍처
  • 개념(수평 확장, 복제, 데이터 로케일리티, 랙 인식)
  • 데몬 : 네임노드, 세컨더리 네임노드, 데이터 노드
  • 통신/하트비트
  • 데이터 무결성
  • 읽기/쓰기 경로
  • 네임노드 고가용성(HA), 연합
  • 실습 : HDFS와 상호작용하기

섹션 3: MapReduce

  • 개념과 아키텍처
  • 데몬(MRV1) : 잡트래커, 태스크트래커
  • 단계 : 드라이버, 맵퍼, 셔플/정렬, 리듀서
  • MapReduce 버전 1과 버전 2(YARN)
  • MapReduce 내부 구조
  • Java MapReduce 프로그램 소개
  • 실습 : 샘플 MapReduce 프로그램 실행

섹션 4: Pig

  • Pig vs Java MapReduce
  • Pig 작업 흐름
  • Pig Latin 언어
  • Pig를 사용한 ETL
  • 변환 및 조인
  • 사용자 정의 함수(UDF)
  • 실습 : 데이터 분석을 위한 Pig 스크립트 작성

섹션 5: Hive

  • 아키텍처와 디자인
  • 데이터 유형
  • Hive에서의 SQL 지원
  • Hive 테이블 생성 및 쿼리 실행
  • 파티션
  • 조인
  • 텍스트 처리
  • 실습 : Hive를 사용한 데이터 처리 실습

섹션 6: HBase

  • 개념과 아키텍처
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • HBase에서의 시간 시리즈 데이터
  • 스키마 디자인
  • 실습 : HBase 쉘을 사용한 상호작용; HBase Java API를 사용한 프로그래밍; 스키마 디자인 실습

요건

  • Java 프로그래밍 언어에 익숙해야 합니다(대부분의 프로그래밍 실습은 Java로 진행됩니다)
  • Linux 환경에 익숙해야 합니다(Linux 명령 줄을 탐색하고, vi 또는 nano를 사용하여 파일을 편집할 수 있어야 합니다)

실습 환경

설치 필요 없음 : 학생들의 컴퓨터에 Hadoop 소프트웨어를 설치할 필요가 없습니다! 학생들을 위해 작동하는 Hadoop 클러스터가 제공됩니다.

학생들은 다음과 같은 것을 준비해야 합니다

  • SSH 클라이언트(Linux와 Mac은 이미 ssh 클라이언트를 가지고 있으며, Windows의 경우 Putty가 추천됩니다)
  • 클러스터에 액세스하기 위한 브라우저, Firefox가 추천됩니다
 28 시간

참가자 수


참가자당 가격

회원 평가 (5)

예정된 코스

관련 카테고리