코스 개요
- 소개
- Hadoop 역사, 개념
- 생태계
- 배포판
- 고수준 아키텍처
- Hadoop 신화
- Hadoop 도전 과제 (하드웨어 / 소프트웨어)
- 실습: Big Data 프로젝트 및 문제 토론
- 계획 및 설치
- 소프트웨어 및 Hadoop 배포판 선택
- 클러스터 크기 조정 및 성장 계획
- 하드웨어 및 네트워크 선택
- 랙 토폴로지
- 설치
- 멀티 테넌시
- 디렉토리 구조, 로그
- 벤치마킹
- 실습: 클러스터 설치 및 성능 벤치마크 실행
- HDFS 작업
- 개념 (수평 확장, 복제, 데이터 로컬리티, 랙 인지)
- 노드 및 데몬 (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- 건강 모니터링
- 명령줄 및 브라우저 기반 관리
- 저장소 추가, 고장 난 드라이브 교체
- 실습: HDFS 명령줄에 익숙해지기
- 데이터 입력
- Flume을 사용하여 로그 및 기타 데이터를 HDFS로 입력
- Sqoop을 사용하여 SQL 데이터베이스에서 HDFS로 가져오기 및 HDFS에서 다시 내보내기
- Hadoop 데이터 웨어하우징과 Hive
- 클러스터 간 데이터 복사 (distcp)
- S3를 HDFS와 보완적으로 사용
- 데이터 입력 최적 실습 및 아키텍처
- 실습: Flume 설정 및 사용, Sqoop도 동일
- MapReduce 작업 및 관리
- MapReduce 이전의 병렬 컴퓨팅: HPC vs Hadoop 관리 비교
- MapReduce 클러스터 부하
- 노드 및 데몬 (JobTracker, TaskTracker)
- MapReduce UI 소개
- MapReduce 구성
- 작업 구성
- MapReduce 최적화
- MR에 대한 완벽한 안전 장치: 프로그래머에게 전달할 내용
- 실습: MapReduce 예제 실행
- YARN: 새로운 아키텍처 및 새로운 기능
- YARN 설계 목표 및 구현 아키텍처
- 새로운 액터: ResourceManager, NodeManager, Application Master
- YARN 설치
- YARN 하에서의 작업 스케줄링
- 실습: 작업 스케줄링 조사
- 고급 주제
- 하드웨어 모니터링
- 클러스터 모니터링
- 서버 추가 및 제거, Hadoop 업그레이드
- 백업, 복구 및 비즈니스 연속성 계획
- Oozie 작업 워크플로우
- Hadoop 고가용성 (HA)
- Hadoop 페더레이션
- Kerberos로 클러스터 보안 설정
- 실습: 모니터링 설정
- 선택 주제
- 클러스터 관리, 모니터링 및 루틴 작업을 위한 Cloudera Manager 설치, 사용. 이 트랙에서는 모든 연습 및 실습이 Cloudera 배포판 환경 (CDH5)에서 수행됩니다.
- 클러스터 관리, 모니터링 및 루틴 작업을 위한 Ambari 설치, 사용. 이 트랙에서는 모든 연습 및 실습이 Ambari 클러스터 관리자와 Hortonworks Data Platform (HDP 2.0)에서 수행됩니다.
요건
- 기본 시스템 관리에 익숙한
- 기본 스크립팅 스킬
Hadoop와 분산 컴퓨팅에 대한 지식은 필요하지 않지만, 이 과정에서는 소개하고 설명할 것입니다.
실습 환경
Zero Install : 학생들의 머신에 hadoop 소프트웨어를 설치할 필요가 없습니다! 학생들을 위해 작업하는 hadoop 클러스터가 제공됩니다.
학생들은 다음이 필요합니다.
- SSH 클라이언트 (Linux과 Mac은 이미 ssh 클라이언트가 있으며, Windows의 경우 Putty가 권장됩니다)
- 브라우저로 클러스터에 접근할 수 있습니다. FoxyProxy 확장이 설치된 Firefox 브라우저를 권장합니다.
회원 평가 (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
코스 - Python, Spark, and Hadoop for Big Data
연습 중에 제임스는 제가 막히는 부분을 더 자세하게 설명해주었습니다. 저는 NIFI에 완전히 낯선 사람이었고, 제임스는 NIFI의 실제 목적과 오픈 소스와 같은 기본 개념까지 모두 설명해주었습니다. 그는 초보자 수준부터 개발자 수준까지 모든 Nifi 개념을 다루었습니다.
Firdous Hashim Ali - MOD A BLOCK
코스 - Apache NiFi for Administrators
기계 번역됨
처음부터 가지고 있었던 것입니다.
Peter Scales - CACI Ltd
코스 - Apache NiFi for Developers
기계 번역됨
아제이가 실용적인 부분뿐만 아니라 이론도 잘 전달해주었습니다.
Dominik Mazur - Capgemini Polska Sp. z o.o.
코스 - Hadoop Administration on MapR
기계 번역됨
저는 이 VM을 매우 좋아했습니다. 강사는 주제뿐만 아니라 다른 주제에 대해서도 매우 밝았으며, 매우 친절하고 친근하였습니다. 두바이의 시설을 좋아했습니다.
Safar Alqahtani - Elm Information Security
코스 - Big Data Analytics in Health
기계 번역됨