코스 개요

섹션 1: HDFS에서의 Data Management

  • 다양한 데이터 형식 (JSON / Avro / Parquet)
  • 압축 스키마
  • 데이터 마스킹
  • 실습 : 다양한 데이터 형식 분석; 압축 활성화

섹션 2: 고급 Pig

  • 사용자 정의 함수
  • Pig 라이브러리 소개 (ElephantBird / Data-Fu)
  • Pig를 사용하여 복잡한 구조화된 데이터 로드
  • Pig 튜닝
  • 실습 : 고급 Pig 스크립팅, 복잡한 데이터 형식 파싱

섹션 3 : 고급 Hive

  • 사용자 정의 함수
  • 압축 테이블
  • Hive 성능 튜닝
  • 실습 : 압축 테이블 생성, 테이블 형식 및 구성 평가

섹션 4 : 고급 HBase

  • 고급 스키마 모델링
  • 압축
  • 대량 데이터 인제스트
  • Wide-table / Tall-table 비교
  • HBase와 Pig
  • HBase와 Hive
  • HBase 성능 튜닝
  • 실습 : HBase 튜닝; Pig & Hive에서 HBase 데이터 접근; Phoenix를 사용한 데이터 모델링

요건

  • Java 프로그래밍 언어에 익숙합니다. (대부분의 프로그래밍 연습은 자바로 이루어집니다)
  • Linux 환경에 익숙합니다. (Linux 명령 줄을 탐색하고 vi/nano를 사용하여 파일을 편집할 수 있어야 합니다)
  • Hadoop에 대한 기본적인 지식

실습 환경

제로 인스톨: 학생들의 컴퓨터에 hadoop 소프트웨어를 설치할 필요가 없습니다! 학생들을 위한 작업 중인 hadoop 클러스터가 제공됩니다.

학생들은 다음이 필요합니다

 21 시간

참가자 수


참가자당 가격

회원 평가 (5)

예정된 코스

관련 카테고리