Course Outline
섹션 1: HDFS에서의 Data Management
- 다양한 데이터 형식 (JSON / Avro / Parquet)
- 압축 스키마
- 데이터 마스킹
- 실습 : 다양한 데이터 형식 분석; 압축 활성화
섹션 2: 고급 Pig
- 사용자 정의 함수
- Pig 라이브러리 소개 (ElephantBird / Data-Fu)
- Pig를 사용하여 복잡한 구조화된 데이터 로드
- Pig 튜닝
- 실습 : 고급 Pig 스크립팅, 복잡한 데이터 형식 파싱
섹션 3 : 고급 Hive
- 사용자 정의 함수
- 압축 테이블
- Hive 성능 튜닝
- 실습 : 압축 테이블 생성, 테이블 형식 및 구성 평가
섹션 4 : 고급 HBase
- 고급 스키마 모델링
- 압축
- 대량 데이터 인제스트
- Wide-table / Tall-table 비교
- HBase와 Pig
- HBase와 Hive
- HBase 성능 튜닝
- 실습 : HBase 튜닝; Pig & Hive에서 HBase 데이터 접근; Phoenix를 사용한 데이터 모델링
Requirements
- Java 프로그래밍 언어에 익숙합니다. (대부분의 프로그래밍 연습은 자바로 이루어집니다)
- Linux 환경에 익숙합니다. (Linux 명령 줄을 탐색하고 vi/nano를 사용하여 파일을 편집할 수 있어야 합니다)
- Hadoop에 대한 기본적인 지식
실습 환경
제로 인스톨: 학생들의 컴퓨터에 hadoop 소프트웨어를 설치할 필요가 없습니다! 학생들을 위한 작업 중인 hadoop 클러스터가 제공됩니다.
학생들은 다음이 필요합니다
회원 평가 (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Course - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Course - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay