Unified Batch and Stream Processing with Apache Beam 교육 과정

Course Code

beam

Duration

14 hours (usually 2 days including breaks)

Requirements

  • Experience with Python Programming.
  • Experience with the Linux command line.

Audience

  • Developers

Overview

Apache Beam은 병렬 데이터 처리 파이프 라인을 정의하고 실행하기위한 개방형 소스 통합 프로그래밍 모델입니다 Apache Apex, Apache Flink, Apache Spark 및 Google Cloud Dataflow와 같이 Beam의 지원되는 분산 처리 백엔드 중 하나에서 실행되는 배치 및 스트리밍 파이프 라인을 모두 실행할 수있는 능력에 있습니다 Apache Beam은 다른 저장 매체와 데이터 소스간에 데이터를 이동하고, 데이터를보다 바람직한 형식으로 변환하고, 새로운 시스템으로 데이터를로드하는 것과 같은 ETL (Extract, Transform 및 Load) 태스크에 유용합니다 이 강사가 진행된 실시간 교육 (현장 또는 원격)에서 참여자는 독립적 인 병렬 처리를 위해 큰 데이터 세트를 더 작은 청크로 분해하기위한 데이터 처리 파이프 라인을 정의하는 Java 또는 Python 응용 프로그램에서 Apache Beam SDK를 구현하는 방법을 학습합니다 이 훈련이 끝나면 참가자는 다음을 할 수 있습니다 Apache Beam을 설치하고 구성하십시오 단일 프로그래밍 모델을 사용하여 Java 또는 Python 응용 프로그램에서 일괄 처리와 스트림 처리를 모두 수행 할 수 있습니다 여러 환경에서 파이프 라인을 실행하십시오 청중 개발자 코스 형식 파트 강의, 파트 토론, 연습 및 무거운 핸드 슨 연습 노트 이 과정은 앞으로 스칼라에서 사용할 수 있습니다 협의를 위해 저희에게 연락하십시오 .

Machine Translated

Course Outline

Introduction

  • Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm and Flink

Installing and Configuring Apache Beam

Overview of Apache Beam Features and Architecture

  • Beam Model, SDKs, Beam Pipeline Runners
  • Distributed processing back-ends

Understanding the Apache Beam Programming Model

  • How a pipeline is executed

Running a sample pipeline

  • Preparing a WordCount pipeline
  • Executing the Pipeline locally

Designing a Pipeline

  • Planning the structure, choosing the transforms, and determining the input and output methods

Creating the Pipeline

  • Writing the driver program and defining the pipeline
  • Using Apache Beam classes
  • Data sets, transforms, I/O, data encoding, etc.

Executing the Pipeline

  • Executing the pipeline locally, on remote machines, and on a public cloud
  • Choosing a runner
  • Runner-specific configurations

Testing and Debugging Apache Beam

  • Using type hints to emulate static typing
  • Managing Python Pipeline Dependencies

Processing Bounded and Unbounded Datasets

  • Windowing and Triggers

Making Your Pipelines Reusable and Maintainable

Create New Data Sources and Sinks

  • Apache Beam Source and Sink API

Integrating Apache Beam with other Big Data Systems

  • Apache Hadoop, Apache Spark, Apache Kafka

Troubleshooting

Summary and Conclusion

회원 평가

★★★★★
★★★★★

Related Categories

고객 회사

is growing fast!

We are looking to expand our presence in South Korea!

As a Business Development Manager you will:

  • expand business in South Korea
  • recruit local talent (sales, agents, trainers, consultants)
  • recruit local trainers and consultants

We offer:

  • Artificial Intelligence and Big Data systems to support your local operation
  • high-tech automation
  • continuously upgraded course catalogue and content
  • good fun in international team

If you are interested in running a high-tech, high-quality training and consulting business.

Apply now!