Course Outline

소개

  • Cloud Computing 및 Big Data 솔루션 소개
  • Apache Hadoop 기능 및 아키텍처 개요

설정 Hadoop

  • Hadoop 클러스터 계획(온프레미스, 클라우드 등)
  • OS 및 Hadoop 배포판 선택
  • 리소스 프로비저닝(하드웨어, 네트워크 등)
  • 소프트웨어 다운로드 및 설치
  • 유연성을 위해 클러스터 크기 조정

HDFS 작업

  • Hadoop 분산 파일 시스템(HDFS) 이해
  • HDFS 명령 참조 개요
  • AccessHDFS 중
  • HDFS에서 기본 파일 작업 수행
  • S3를 HDFS의 보완재로 사용

맵리듀스 개요

  • MapReduce 프레임워크의 데이터 흐름 이해
  • 매핑, 셔플, 정렬 및 축소
  • 데모: 최고 급여 계산

YARN 작업

  • Hadoop의 리소스 관리 이해
  • ResourceManager, NodeManager, 애플리케이션 마스터 작업
  • YARN에서 작업 예약
  • 다수의 노드 및 클러스터에 대한 예약
  • 데모: 작업 예약

Hadoop을 Spark와 통합

  • Spark용 스토리지 설정(HDFS, Amazon, S3, NoSQL 등)
  • 탄력적인 분산 데이터 세트(RDD) 이해
  • RDD 생성
  • RDD 변환 구현
  • 데모: 영화 제목을 위한 텍스트 Search 프로그램 구현

Hadoop 클러스터 관리

  • 모니터링 Hadoop
  • Hadoop 클러스터 보안
  • 노드 추가 및 제거
  • 성능 벤치마크 실행
  • 성능 최적화를 위해 Hadoop 클러스터 조정
  • 백업, 복구 및 비즈니스 연속성 계획
  • 고가용성(HA) 보장

Hadoop 클러스터 업그레이드 및 마이그레이션

  • 워크로드 요구 사항 평가
  • 업그레이드 중 Hadoop
  • 온프레미스에서 클라우드로 또는 그 반대로 이동
  • 오류 복구

문제 해결

요약 및 결론

Requirements

  • 시스템 관리 경험
  • Linux 명령줄 사용 경험
  • 빅데이터 개념에 대한 이해

청중

  • 시스템 관리자
  • DBA
 35 Hours

Number of participants



Price per participant

회원 평가 (7)

Related Courses

Related Categories