Course Outline
- 소개
- Hadoop 역사, 개념
- 생태계
- 배포판
- 높은 수준의 아키텍처
- Hadoop 신화
- Hadoop 과제(하드웨어/소프트웨어)
- 연구실: Big Data 프로젝트 및 문제에 대해 토론하세요.
- 계획 및 설치
- 소프트웨어 선택, Hadoop 배포판
- 클러스터 크기 조정, 성장 계획
- 하드웨어 및 네트워크 선택
- 랙 토폴로지
- 설치
- 다중 테넌시
- 디렉터리 구조, 로그
- 벤치마킹
- 랩: 클러스터 설치, 성능 벤치마크 실행
- HDFS 작업
- 개념(수평적 확장, 복제, 데이터 지역성, 랙 인식)
- 노드 및 데몬(NameNode, 보조 NameNode, HA 대기 NameNode, DataNode)
- 건강 모니터링
- 명령줄 및 브라우저 기반 관리
- 스토리지 추가, 결함이 있는 드라이브 교체
- 실습: HDFS 명령줄 익히기
- 데이터 수집
- 로그 및 기타 데이터를 HDFS로 수집하기 위한 Flume
- SQL 데이터베이스에서 HDFS로 가져오고 SQL으로 다시 내보내기 위한 Sqoop
- Hadoop Hive를 사용한 데이터 웨어하우징
- 클러스터 간 데이터 복사(distcp)
- HDFS에 대한 보완책으로 S3 사용
- 데이터 수집 모범 사례 및 아키텍처
- 연구실: Flume 설정 및 사용(Sqoop과 동일)
- MapReduce 운영 및 관리
- mapreduce 전 병렬 컴퓨팅: HPC와 Hadoop 관리 비교
- MapReduce 클러스터 로드
- 노드 및 데몬(JobTracker, TaskTracker)
- MapReduce UI 살펴보기
- 맵리듀스 구성
- 작업 구성
- 맵리듀스 최적화
- 완벽한 MR: 프로그래머에게 말해야 할 내용
- 실습: MapReduce 예제 실행
- YARN: 새로운 아키텍처와 새로운 기능
- YARN 설계 목표 및 구현 아키텍처
- 새로운 행위자: ResourceManager, NodeManager, Application Master
- YARN 설치
- YARN의 작업 예약
- 실습: 작업 일정 조사
- 고급 주제
- 하드웨어 모니터링
- 클러스터 모니터링
- 서버 추가 및 제거, 업그레이드 Hadoop
- 백업, 복구 및 비즈니스 연속성 계획
- Oozie 작업 흐름
- Hadoop 고가용성(HA)
- Hadoop 연맹
- Kerberos로 클러스터 보호
- 실험실: 모니터링 설정
- 선택적 트랙
- 클러스터 관리, 모니터링 및 일상적인 작업을 위한 Cloudera Manager 설치, 사용. 이 트랙에서는 모든 연습과 실습이 Cloudera 배포 환경(CDH5) 내에서 수행됩니다.
- 클러스터 관리, 모니터링 및 일상적인 작업을 위한 Ambari 설치, 사용. 이 트랙에서는 Ambari 클러스터 관리자 및 Hortonworks 데이터 플랫폼(HDP 2.0) 내에서 모든 연습과 실습이 수행됩니다.
Requirements
- 기본 Linux 시스템 관리에 익숙함
- 기본 스크립팅 기술
Hadoop 및 분산 컴퓨팅에 대한 지식은 필수는 아니지만 강좌에서 소개하고 설명합니다.
연구실 환경
Zero Install : 학생들의 컴퓨터에 hadoop 소프트웨어를 설치할 필요가 없습니다! 작동하는 hadoop 클러스터가 학생들에게 제공됩니다.
학생들에게는 다음이 필요합니다
- SSH 클라이언트(Linux 및 Mac에는 이미 SSH 클라이언트가 있으며 Windows의 경우 Putty가 권장됨)
- 클러스터에 액세스하기 위한 브라우저입니다. FoxyProxy 확장 기능이 설치된 Firefox 브라우저를 권장합니다.
회원 평가 (6)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Course - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Course - Administrator Training for Apache Hadoop
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Course - Big Data Analytics in Health
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.
vyzVoice
Course - Hadoop for Developers and Administrators
practical things of doing, also theory was served good by Ajay