Course Outline

1: HDFS (17%)

  • HDFS 데몬의 기능을 설명합니다.
  • Apache Hadoop 클러스터의 일반 데이터 저장 및 데이터 처리 작동 방식을 설명합니다.
  • Apache Hadoop과 같은 시스템을 필요로 하는 현재의 컴퓨팅 시스템 기능들을 식별합니다.
  • HDFS 설계의 주요 목표를 분류합니다.
  • 시나리오가 주어졌을 때 HDFS Federation의 적절한 사용 사례를 식별합니다.
  • HDFS HA-Quorum 클러스터의 구성 요소와 데몬을 식별합니다.
  • HDFS 보안(Kerberos)의 역할을 분석합니다.
  • 주어진 시나리오에 가장 적합한 데이터 직렬화 선택을 결정합니다.
  • 파일 읽기 및 쓰기 경로를 설명합니다.
  • Hadoop 파일 시스템 쉘에서 파일을 조작하는 명령어를 식별합니다.

2: YARN과 MapReduce 버전 2 (MRv2) (17%)

  • Hadoop 1에서 Hadoop 2로 클러스터를 업그레이드할 때 클러스터 설정에 어떤 영향을 미치는지 이해합니다.
  • 모든 YARN 데몬을 포함하여 MapReduce v2 (MRv2 / YARN)를 배포하는 방법을 이해합니다.
  • MapReduce v2 (MRv2)의 기본 설계 전략을 이해합니다.
  • YARN이 리소스 할당을 어떻게 처리하는지 결정합니다.
  • YARN에서 실행되는 MapReduce 작업의 워크플로를 식별합니다.
  • MapReduce 버전 1 (MRv1)에서 MapReduce 버전 2 (MRv2)로 클러스터를 마이그레이션하기 위해 어떤 파일을 변경하고 어떻게 변경해야 하는지 결정합니다.

3: Hadoop 클러스터 계획 (16%)

  • Apache Hadoop 클러스터를 호스팅할 하드웨어와 운영 체제를 선택할 때 고려해야 할 주요 사항입니다.
  • OS 선택을 분석합니다.
  • 커널 튜닝과 디스크 스와핑을 이해합니다.
  • 시나리오와 작업 패턴이 주어졌을 때 시나리오에 적합한 하드웨어 구성 요소를 식별합니다.
  • 시나리오가 주어졌을 때 클러스터가 SLA를 충족하기 위해 실행해야 하는 에코시스템 구성 요소를 결정합니다.
  • 클러스터 사이징: 시나리오와 실행 빈도가 주어졌을 때 작업의 구체적인 사항을 식별합니다. CPU, 메모리, 저장소, 디스크 I/O가 포함됩니다.
  • 디스크 사이징 및 구성, JBOD와 RAID, SAN, 가상화 및 클러스터에서 디스크 사이징 요구 사항을 포함합니다.
  • 네트워크 토폴로지: Hadoop(HDFS와 MapReduce 모두)의 네트워크 사용을 이해하고 주어진 시나리오에 대한 주요 네트워크 설계 구성 요소를 제안하거나 식별합니다.

4: Hadoop 클러스터 설치 및 관리 (25%)

  • 시나리오가 주어졌을 때 클러스터가 디스크 및 기계 고장을 어떻게 처리할지 식별합니다.
  • 로깅 구성 및 로깅 구성 파일 형식을 분석합니다.
  • Hadoop 메트릭과 클러스터 건강 모니터링의 기본 사항을 이해합니다.
  • 클러스터 모니터링을 위한 사용할 수 있는 도구의 기능과 목적을 식별합니다.
  • CDH 5에서 모든 에코시스템 구성 요소를 설치할 수 있습니다. Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive, Pig 등이 포함됩니다.
  • Apache Hadoop 파일 시스템을 관리하는 데 사용할 수 있는 도구의 기능과 목적을 식별합니다.

5: 리소스 Management (10%)

  • Hadoop 스케줄러 각각의 전체 설계 목표를 이해합니다.
  • 시나리오가 주어졌을 때 FIFO 스케줄러가 YARN에서 클러스터 리소스를 어떻게 할당하는지 결정합니다.
  • 시나리오가 주어졌을 때 Fair 스케줄러가 YARN에서 클러스터 리소스를 어떻게 할당하는지 결정합니다.
  • 시나리오가 주어졌을 때 Capacity 스케줄러가 클러스터 리소스를 어떻게 할당하는지 결정합니다.

6: 모니터링 및 로깅 (15%)

  • Hadoop의 메트릭 수집 기능과 기능들을 이해합니다.
  • NameNode와 JobTracker 웹 UI를 분석합니다.
  • 클러스터 데몬을 모니터링하는 방법을 이해합니다.
  • 마스터 노드에서 CPU 사용량을 식별하고 모니터링합니다.
  • 모든 노드에서 스왑 및 메모리 할당을 모니터링하는 방법을 설명합니다.
  • Hadoop의 로그 파일을 보기 및 관리하는 방법을 식별합니다.
  • 로그 파일을 해석합니다.

Requirements

  • 기본 Linux 관리 기술
  • 기본 프로그래밍 기술
 35 Hours

Number of participants


Price per participant

회원 평가 (3)

Upcoming Courses

Related Categories