Course Outline

모듈 1. Hadoop 소개

  • Hadoop 분산 파일 시스템(HDFS)
  • 읽기 경로 및 쓰기 경로
  • 파일 시스템 메타데이터 관리
  • 네임노드와 데이터노드
  • 네임노드 고가용성
  • 네임노드 연합
  • 명령줄 도구
  • REST 지원 이해

모듈 2. MapReduce 소개

  • Hadoop를 이용한 데이터 분석
  • 매핑 및 패턴 축소
  • Java 맵리듀스
  • 확장
  • 데이터 흐름
  • 결합기 기능 개발
  • 분산 MapReduce 작업 실행

모듈 3. Hadoop 클러스터 계획

  • Hadoop의 배포판 및 버전 선택
  • 버전 및 기능
  • 하드웨어 선택
  • 마스터 및 작업자 하드웨어 선택
  • 클러스터 크기 조정
  • 운영 체제 선택 및 준비
  • 배포 레이아웃
  • 사용자, 그룹 및 권한 설정
  • 디스크 구성
  • 네트워크 설계

모듈 4. 설치 및 구성

  • 설치 중 Hadoop
  • 구성: 개요
  • Hadoop XML 구성 파일
  • 환경 변수 및 쉘 스크립트
  • 로깅 구성
  • HDFS 관리
  • 최적화 및 튜닝
  • 네임노드 포맷
  • /tmp 디렉토리 생성
  • 네임노드 고가용성 고려
  • 펜싱 옵션
  • 자동 장애 조치 구성
  • 네임노드 포맷 및 Bootstrap
  • 네임노드 연합

모듈 5. 이해 Hadoop I/O

  • HDFS의 데이터 무결성
  • 코덱 이해
  • 압축 및 입력 분할
  • MapReduce에서 압축 사용
  • 직렬화 메커니즘
  • 파일 기반 데이터 구조
  • 시퀀스파일 형식
  • 기타 파일 형식 및 열 기반 형식

모듈 6. MapReduce 애플리케이션 개발

  • 구성 API
  • 개발 환경 설정
  • 구성 관리
  • GenericOptionsParser, 도구 및 ToolRunner
  • MRUnit을 사용하여 단위 테스트 작성
  • 매퍼와 리듀서
  • 테스트 데이터에서 로컬로 실행
  • 드라이버 테스트
  • 클러스터에서 실행
  • 작업 패키징 및 실행
  • MapReduce 웹 UI
  • 작업 튜닝

모듈 7. ID, 인증 및 권한 부여

  • 신원 관리
  • 케르베로스와 Hadoop
  • 승인 이해

모듈 8. 자료 Management

  • 리소스란 무엇입니까 Management?
  • HDFS 할당량
  • MapReduce 스케줄러
  • YARN 애플리케이션 실행 분석
  • 자원 요청
  • 애플리케이션 수명
  • YARN과 MapReduce 1의 비교
  • YARN에서 스케줄링
  • 스케줄러 옵션
  • 용량 스케줄러 구성
  • 공정한 스케줄러 구성
  • 지연 일정
  • 지배적인 자원 공정성

모듈 9. MapReduce 유형 및 형식

  • 맵리듀스 유형
  • 기본 MapReduce 작업
  • 입력 형식 정의
  • 입력 분할 및 기록 관리
  • 텍스트 입력 및 바이너리 입력
  • 다중 입력 관리
  • Database 입력(및 출력)
  • 출력 형식
  • 텍스트 출력 및 바이너리 출력
  • 다중 출력 관리
  • Database 출력

모듈 10. MapReduce 기능 사용

  • 카운터 사용
  • 내장 카운터 읽기
  • 사용자 정의 Java 카운터
  • 정렬 이해
  • 분산 캐시 사용

모듈 11. 클러스터 유지 관리 및 문제 해결

  • Hadoop 프로세스 관리
  • Init 스크립트를 사용하여 프로세스 시작 및 중지
  • 수동으로 프로세스 시작 및 중지
  • HDFS 유지 관리 작업
  • 데이터노드 추가
  • 데이터노드 폐기
  • fsck로 파일 시스템 무결성 검사
  • HDFS 블록 데이터 균형 조정
  • 실패한 디스크 처리
  • MapReduce 유지 관리 작업
  • MapReduce 작업 종료
  • MapReduce 작업 종료
  • 자원 고갈 관리

모듈 12. 모니터링

  • 사용 가능한 Hadoop 지표
  • SNMP의 역할
  • 건강 모니터링
  • 호스트 수준 확인
  • HDFS 검사
  • 맵리듀스 검사

모듈 13. 백업 및 복구

  • 데이터 백업
  • 분산 복사본(distcp)
  • 병렬 데이터 수집
  • 네임노드 메타데이터
 21 Hours

Number of participants



Price per participant

회원 평가 (1)

Related Courses

Related Categories