Course Outline

소개

  • Apache Beam 대 MapReduce, Spark Streaming, Kafka 스트리밍, Storm 및 Flink

설치 및 구성 Apache Beam

Apache Beam 기능 및 아키텍처 개요

  • 빔 모델, SDK, 빔 파이프라인 실행기
  • 분산 처리 백엔드

Apache Beam Programming 모델 이해

  • 파이프라인이 실행되는 방법

샘플 파이프라인 실행

  • Word카운트 파이프라인 준비
  • 로컬에서 파이프라인 실행

파이프라인 설계

  • 구조 계획, 변환 선택, 입력 및 출력 방법 결정

파이프라인 생성

  • 드라이버 프로그램 작성 및 파이프라인 정의
  • Apache Beam 클래스 사용
  • 데이터 세트, 변환, I/O, 데이터 인코딩 등

파이프라인 실행

  • 로컬, 원격 머신 및 퍼블릭 클라우드에서 파이프라인 실행
  • 주자를 선택
  • 러너별 구성

테스트와 디버깅 Apache Beam

  • 유형 힌트를 사용하여 정적 유형 지정 에뮬레이션
  • Python 파이프라인 종속성 관리

제한된 데이터세트와 제한되지 않은 데이터세트 처리

  • 윈도우화 및 트리거

파이프라인을 재사용 및 유지 관리 가능하게 만들기

새 데이터 원본 및 싱크 만들기

  • Apache Beam 소스 및 싱크 API

Apache Beam을 다른 Big Data 시스템과 통합

  • 아파치 Hadoop, Apache Spark, Apache Kafka

문제 해결

요약 및 결론

Requirements

  • Python 프로그래밍 경험.
  • Linux 명령줄 사용 경험.

청중

  • 개발자
 14 Hours

Number of participants



Price per participant

회원 평가 (1)

Related Courses

Stream Processing with Kafka Streams

7 Hours

Related Categories