Course Outline

섹션 1: Hadoop 소개

  • hadoop 역사, 개념
  • 생태계
  • 분포
  • 높은 수준의 아키텍처
  • 하둡 신화
  • 하둡 챌린지
  • 하드웨어 소프트웨어
  • 연구실 : 먼저 Hadoop을 살펴보세요

섹션 2: HDFS

  • 디자인과 건축
  • 개념(수평적 확장, 복제, 데이터 지역성, 랙 인식)
  • 데몬 : 네임노드, 보조 네임노드, 데이터 노드
  • 통신/심장박동
  • 데이터 무결성
  • 읽기/쓰기 경로
  • 네임노드 고가용성(HA), 페더레이션
  • 실습실: HDFS와 상호작용

섹션 3: 맵 축소

  • 개념과 아키텍처
  • 데몬(MRV1): jobtracker / tasktracker
  • 단계: 드라이버, 매퍼, 셔플/정렬, 리듀서
  • 맵 축소 버전 1 및 버전 2(YARN)
  • Map Reduce의 내부
  • Java Map Reduce 프로그램 소개
  • labs : 샘플 MapReduce 프로그램 실행

섹션 4: 돼지

  • 돼지 대 자바 맵 감소
  • 돼지 작업 흐름
  • 돼지 라틴어
  • 돼지를 이용한 ETL
  • 변환 및 조인
  • 사용자 정의 함수(UDF)
  • 실습: 데이터 분석을 위한 Pig 스크립트 작성

섹션 5: Hive

  • 건축과 디자인
  • 데이터 유형
  • SQL Hive에서 지원
  • Hive 테이블 생성 및 쿼리
  • 파티션
  • 조인
  • 텍스트 처리
  • 연구실 : Hive을 이용한 데이터 처리에 관한 다양한 연구실

섹션 6: HBase

  • 개념과 아키텍처
  • hbase vs RDBMS vs 카산드라
  • HBase Java API
  • HBase의 시계열 데이터
  • 스키마 디자인
  • labs: 셸을 사용하여 HBase와 상호작용 HBase Java API 프로그래밍 ; 스키마 디자인 연습

Requirements

  • Java 프로그래밍 언어에 익숙함(대부분의 프로그래밍 연습은 Java로 진행됨)
  • Linux 환경에서 편안함(Linux 명령줄 탐색 가능, vi/nano를 사용하여 파일 편집 가능)

연구실 환경

Zero Install : 학생들의 컴퓨터에 hadoop 소프트웨어를 설치할 필요가 없습니다! 작동하는 hadoop 클러스터가 학생들에게 제공됩니다.

학생들에게는 다음이 필요합니다

  • SSH 클라이언트(Linux 및 Mac에는 이미 SSH 클라이언트가 있으며 Windows의 경우 Putty가 권장됨)
  • 클러스터에 액세스하기 위한 브라우저입니다. Firefox 브라우저를 권장합니다
 28 Hours

Number of participants



Price per participant

회원 평가 (3)

Related Courses

Related Categories