Course Outline

소개

Hadoop의 아키텍처 및 주요 개념 이해

Hadoop 분산 파일 시스템(HDFS) 이해

    HDFS 및 HDFS와 상호 작용하는 아키텍처 디자인 개요 HDFS에서 기본 파일 작업 수행 HDFS 명령 참조 개요 Snakebite 개요 Snakebite 설치 CLI 클라이언트 사용 Snakebite 클라이언트 라이브러리 사용

Python을 사용하여 MapReduce 프로그래밍 모델 학습

    MapReduce 개요 Programming 모델 MapReduce 프레임워크의 데이터 흐름 이해 Map Shuffle and Sort Reduce
Hadoop 스트리밍 유틸리티 사용 Hadoop 스트리밍 유틸리티 작동 방식 이해
  • 데모: Python에서 WordCount 애플리케이션 구현
  • mrjob 라이브러리 사용 mrjob 개요
  • mrjob 설치
  • 데모: mrjob을 사용하여 Word카운트 알고리즘 구현
  • mrjob 라이브러리로 작성된 MapReduce 작업의 작동 방식 이해
  • mrjob을 사용하여 MapReduce 애플리케이션 실행
  • 실습: mrjob을 사용하여 최고 급여 계산
  • Python으로 돼지 배우기
  • Pig 데모 개요: Pig에서 Word카운트 알고리즘 구현 Pig 실행 모드를 사용하여 Pig 스크립트 및 Pig 문 구성 및 실행 Pig 대화형 모드 사용 Pic 배치 모드 사용
  • 명령문을 사용하여 Pig 라틴어 언어의 기본 개념 이해

      데이터 로드
    데이터 변환
  • 데이터 저장
  • Python UDF로 Pig의 기능 확장 Python UDF 파일 등록
  • 데모: 간단한 Python UDF
  • 데모: Python UDF를 사용한 문자열 조작
  • 실습: Python UDF를 사용하여 최신 영화 10편 계산
  • Spark 및 PySpark 사용
  • Spark 데모 개요: PySpark에서 Word카운트 알고리즘 구현 대화형 셸을 사용하여 PySpark 개요 자체 포함 애플리케이션 구현
  • 복원력 있는 분산 데이터 세트(RDD) 작업 Python 컬렉션에서 RDD 생성
  • 파일에서 RDD 생성
  • RDD 변환 구현

      RDD 작업 구현
    실습: PySpark를 사용하여 영화 제목용 텍스트 Search 프로그램 구현
  • Python을 사용하여 워크플로 관리
  • Apache Oozie 및 Luigi 개요 Luigi 설치 Luigi 워크플로 개념 이해 작업 대상 매개변수
  • 데모: Word카운트 알고리즘을 구현하는 워크플로 검사
  • Luigi의 구성 파일을 사용하여 MapReduce 및 Pig 작업을 제어하는 Hadoop 워크플로 작업
  • Luigi에서 MapReduce 작업하기
  • Luigi에서 Pig 작업하기
  • 요약 및 결론

    Requirements

    • Python 프로그래밍 경험
    • Hadoop에 대한 기본 지식
     28 Hours

    Number of participants



    Price per participant

    회원 평가 (3)

    Related Courses

    Related Categories