Course Outline

Section 1: Hadoop 소개

  • Hadoop 역사 및 개념
  • 생태계
  • 배포판
  • 고수준 아키텍처
  • Hadoop 신화
  • Hadoop 과제
  • 하드웨어/소프트웨어
  • 실습: Hadoop 첫 번째 시야

Section 2: HDFS

  • 디자인 및 아키텍처
  • 개념 (수평 확장, 복제, 데이터 로컬리티, 랙 인식)
  • 데몬: 네임노드, 보조 네임노드, 데이터 노드
  • 통신 / 하트비트
  • 데이터 무결성
  • 읽기/쓰기 경로
  • 네임노드 고가용성(HA), 페더레이션
  • 실습: HDFS와의 상호작용

Section 3: Map Reduce

  • 개념 및 아키텍처
  • 데몬 (MRV1): 작업 추적기 / 작업 추적기
  • 단계: 드라이버, 매퍼, 셔플/정렬, 리듀서
  • Map Reduce 버전 1 및 버전 2 (YARN)
  • Map Reduce 내부
  • Java Map Reduce 프로그램 소개
  • 실습: 샘플 MapReduce 프로그램 실행

Section 4: Pig

  • Pig vs Java Map Reduce
  • Pig 작업 흐름
  • Pig Latin 언어
  • Pig으로 ETL
  • 변환 및 조인
  • 사용자 정의 함수 (UDF)
  • 실습: 데이터 분석을 위한 Pig 스크립트 작성

Section 5: Hive

  • 아키텍처 및 디자인
  • 데이터 유형
  • SQL Hive 지원
  • Hive 테이블 생성 및 쿼리
  • 파티션
  • 조인
  • 텍스트 처리
  • 실습: Hive로 데이터 처리

Section 6: HBase

  • 개념 및 아키텍처
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • HBase에서 시간 시리즈 데이터
  • 스키마 디자인
  • 실습: 셸로 HBase와 상호작용; HBase Java API 프로그래밍; 스키마 디자인 연습

Requirements

  • Java 프로그래밍 언어를 다루는 데 익숙해야 합니다 (대부분의 프로그래밍 연습은 자바로 진행됩니다)
  • Linux 환경에 익숙해야 합니다 (Linux 명령 줄을 탐색하고 vi/nano를 사용하여 파일을 편집할 수 있어야 합니다)

실습 환경

제로 설치 :  학생의 기기에 Hadoop 소프트웨어를 설치할 필요가 없습니다! 학생들에게 사용 가능한 Hadoop 클러스터가 제공됩니다.

학생들은 다음이 필요합니다

  • SSH 클라이언트 (Linux와 Mac은 이미 ssh 클라이언트가 설치되어 있습니다. Windows의 경우 Putty를 추천합니다)
  • 클러스터에 접근하기 위한 브라우저, Firefox를 추천합니다
 28 Hours

Number of participants


Price per participant

회원 평가 (5)

Upcoming Courses

Related Categories