Course Outline
- 소개
- Hadoop 역사, 개념
- 생태계
- 배포판
- 고수준 아키텍처
- Hadoop 신화
- Hadoop 도전 과제 (하드웨어 / 소프트웨어)
- 실습: Big Data 프로젝트 및 문제 토론
- 계획 및 설치
- 소프트웨어 및 Hadoop 배포판 선택
- 클러스터 크기 조정 및 성장 계획
- 하드웨어 및 네트워크 선택
- 랙 토폴로지
- 설치
- 멀티 테넌시
- 디렉토리 구조, 로그
- 벤치마킹
- 실습: 클러스터 설치 및 성능 벤치마크 실행
- HDFS 작업
- 개념 (수평 확장, 복제, 데이터 로컬리티, 랙 인지)
- 노드 및 데몬 (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- 건강 모니터링
- 명령줄 및 브라우저 기반 관리
- 저장소 추가, 고장 난 드라이브 교체
- 실습: HDFS 명령줄에 익숙해지기
- 데이터 입력
- Flume을 사용하여 로그 및 기타 데이터를 HDFS로 입력
- Sqoop을 사용하여 SQL 데이터베이스에서 HDFS로 가져오기 및 HDFS에서 다시 내보내기
- Hadoop 데이터 웨어하우징과 Hive
- 클러스터 간 데이터 복사 (distcp)
- S3를 HDFS와 보완적으로 사용
- 데이터 입력 최적 실습 및 아키텍처
- 실습: Flume 설정 및 사용, Sqoop도 동일
- MapReduce 작업 및 관리
- MapReduce 이전의 병렬 컴퓨팅: HPC vs Hadoop 관리 비교
- MapReduce 클러스터 부하
- 노드 및 데몬 (JobTracker, TaskTracker)
- MapReduce UI 소개
- MapReduce 구성
- 작업 구성
- MapReduce 최적화
- MR에 대한 완벽한 안전 장치: 프로그래머에게 전달할 내용
- 실습: MapReduce 예제 실행
- YARN: 새로운 아키텍처 및 새로운 기능
- YARN 설계 목표 및 구현 아키텍처
- 새로운 액터: ResourceManager, NodeManager, Application Master
- YARN 설치
- YARN 하에서의 작업 스케줄링
- 실습: 작업 스케줄링 조사
- 고급 주제
- 하드웨어 모니터링
- 클러스터 모니터링
- 서버 추가 및 제거, Hadoop 업그레이드
- 백업, 복구 및 비즈니스 연속성 계획
- Oozie 작업 워크플로우
- Hadoop 고가용성 (HA)
- Hadoop 페더레이션
- Kerberos로 클러스터 보안 설정
- 실습: 모니터링 설정
- 선택 주제
- 클러스터 관리, 모니터링 및 루틴 작업을 위한 Cloudera Manager 설치, 사용. 이 트랙에서는 모든 연습 및 실습이 Cloudera 배포판 환경 (CDH5)에서 수행됩니다.
- 클러스터 관리, 모니터링 및 루틴 작업을 위한 Ambari 설치, 사용. 이 트랙에서는 모든 연습 및 실습이 Ambari 클러스터 관리자와 Hortonworks Data Platform (HDP 2.0)에서 수행됩니다.
Requirements
- 기본 시스템 관리에 익숙한
- 기본 스크립팅 스킬
Hadoop와 분산 컴퓨팅에 대한 지식은 필요하지 않지만, 이 과정에서는 소개하고 설명할 것입니다.
실습 환경
Zero Install : 학생들의 머신에 hadoop 소프트웨어를 설치할 필요가 없습니다! 학생들을 위해 작업하는 hadoop 클러스터가 제공됩니다.
학생들은 다음이 필요합니다.
- SSH 클라이언트 (Linux과 Mac은 이미 ssh 클라이언트가 있으며, Windows의 경우 Putty가 권장됩니다)
- 브라우저로 클러스터에 접근할 수 있습니다. FoxyProxy 확장이 설치된 Firefox 브라우저를 권장합니다.
회원 평가 (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Course - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Course - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay