Apache Beam은 병렬 데이터 처리 파이프 라인을 정의하고 실행하기위한 개방형 소스 통합 프로그래밍 모델입니다 Apache Apex, Apache Flink, Apache Spark 및 Google Cloud Dataflow와 같이 Beam의 지원되는 분산 처리 백엔드 중 하나에서 실행되는 배치 및 스트리밍 파이프 라인을 모두 실행할 수있는 능력에 있습니다 Apache Beam은 다른 저장 매체와 데이터 소스간에 데이터를 이동하고, 데이터를보다 바람직한 형식으로 변환하고, 새로운 시스템으로 데이터를로드하는 것과 같은 ETL (Extract, Transform 및 Load) 태스크에 유용합니다 이 강사가 진행된 실시간 교육 (현장 또는 원격)에서 참여자는 독립적 인 병렬 처리를 위해 큰 데이터 세트를 더 작은 청크로 분해하기위한 데이터 처리 파이프 라인을 정의하는 Java 또는 Python 응용 프로그램에서 Apache Beam SDK를 구현하는 방법을 학습합니다 이 훈련이 끝나면 참가자는 다음을 할 수 있습니다 Apache Beam을 설치하고 구성하십시오 단일 프로그래밍 모델을 사용하여 Java 또는 Python 응용 프로그램에서 일괄 처리와 스트림 처리를 모두 수행 할 수 있습니다 여러 환경에서 파이프 라인을 실행하십시오 청중 개발자 코스 형식 파트 강의, 파트 토론, 연습 및 무거운 핸드 슨 연습 노트 이 과정은 앞으로 스칼라에서 사용할 수 있습니다 협의를 위해 저희에게 연락하십시오 .
Machine Translated
Introduction
- Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm and Flink
Installing and Configuring Apache Beam
Overview of Apache Beam Features and Architecture
- Beam Model, SDKs, Beam Pipeline Runners
- Distributed processing back-ends
Understanding the Apache Beam Programming Model
- How a pipeline is executed
Running a sample pipeline
- Preparing a WordCount pipeline
- Executing the Pipeline locally
Designing a Pipeline
- Planning the structure, choosing the transforms, and determining the input and output methods
Creating the Pipeline
- Writing the driver program and defining the pipeline
- Using Apache Beam classes
- Data sets, transforms, I/O, data encoding, etc.
Executing the Pipeline
- Executing the pipeline locally, on remote machines, and on a public cloud
- Choosing a runner
- Runner-specific configurations
Testing and Debugging Apache Beam
- Using type hints to emulate static typing
- Managing Python Pipeline Dependencies
Processing Bounded and Unbounded Datasets
Making Your Pipelines Reusable and Maintainable
Create New Data Sources and Sinks
- Apache Beam Source and Sink API
Integrating Apache Beam with other Big Data Systems
- Apache Hadoop, Apache Spark, Apache Kafka
Troubleshooting
Summary and Conclusion