Course Outline

섹션 1: HDFS의 Data Management

  • 다양한 데이터 형식(JSON / Avro / Parquet)
  • 압축 방식
  • 데이터 마스킹
  • 연구실: 다양한 데이터 형식 분석 압축 활성화

섹션 2: 고급 돼지

  • 사용자 정의 함수
  • Pig 라이브러리 소개(ElephantBird / Data-Fu)
  • Pig를 사용하여 복잡한 구조화된 데이터 로드
  • 돼지 튜닝
  • 연구실: 고급 돼지 스크립팅, 복잡한 데이터 유형 구문 분석

섹션 3: 고급 Hive

  • 사용자 정의 함수
  • 압축 테이블
  • Hive 성능 튜닝
  • 실습: 압축 테이블 생성, 테이블 형식 및 구성 평가

섹션 4: 고급 HBase

  • 고급 스키마 모델링
  • 압축
  • 대량 데이터 수집
  • 와이드 테이블 / 톨 테이블 비교
  • HBase 및 돼지
  • HBase와 Hive
  • HBase 성능 튜닝
  • 연구실: HBase 튜닝; Pig & Hive에서 HBase 데이터에 액세스합니다. 데이터 모델링에 Phoenix 사용

Requirements

  • Java 프로그래밍 언어에 익숙함(대부분의 프로그래밍 연습은 Java로 진행됨)
  • Linux 환경에 편안함 (Linux 명령줄 탐색 가능, vi / nano를 사용하여 파일 편집 가능)
  • Hadoop에 대한 실무 지식.

연구실 환경

제로 설치: 학생들의 컴퓨터에 hadoop 소프트웨어를 설치할 필요가 없습니다! 작동하는 hadoop 클러스터가 학생들에게 제공됩니다.

학생들에게는 다음이 필요합니다

  • SSH 클라이언트(Linux 및 Mac에는 이미 SSH 클라이언트가 있습니다. Windows의 경우 Putty가 권장됩니다.)
  • 클러스터에 액세스하기 위한 브라우저입니다. Firefox 브라우저를 권장합니다
  21 Hours
 

Number of participants


Starts

Ends


Dates are subject to availability and take place between 10:00 and 17:00.
Open Training Courses require 5+ participants.

회원 평가 (3)

Related Courses

Related Categories