데이터 스트리밍 및 실시간 데이터 처리 교육 과정
강의 개요
이 과정은 실시간 데이터 스트리밍 시스템을 구축하는 데 필요한 실용적이고 체계적인 introductory를 제공합니다. 규모 있는 연속 데이터 처리를 위해 사용되는 핵심 개념, 아키텍처 패턴 및 산업용 도구들을 다룹니다. 참가자들은 현대 프레임워크를 사용하여 스트리밍 파이프라인을 설계, 구현 및 최적화하는 방법을 배우게 됩니다. 본 과정은 기초 아이디어에서 시작하여 실무 적용 단계로 나아가, 학습자들이 신뢰할 수 있는 프로덕션 준비된 실시간 솔루션을 성공적으로 구축할 수 있도록 지원합니다.
교육 형식
• 강사 주도 세션 및 안내된 설명
• 실제 사례를 통한 개념 설명
• 실습 데모 및 코딩 과제
• 일일 주제에 맞춰진 단계별 랩 실습
• 상호작용 토론 및 질의응답
강의 목표
• 실시간 데이터 스트리밍 개념 및 시스템 아키텍처 이해
• 배치 처리와 스트리밍 데이터 처리 모델의 차이점 파악
• 확장 가능하고 장애 허용이 가능한 스트리밍 파이프라인 설계
• 분산 스트리밍 도구 및 프레임워크 활용
• 이벤트 시간 처리, 윈도우링, 상태 유지 작업 적용
비즈니스 사용 사례를 위한 실시간 데이터 솔루션 구축 및 최적화
코스 개요
강의 개요 - 1일차
• 데이터 스트리밍 개념 소개
• 배치 처리와 실시간 처리의 기초
• 이벤트 기반 아키텍처 기본 원리
• 산업계의 주요 활용 사례
• 스트리밍 생태계 개요
2일차
• 스트리밍 아키텍처 설계 패턴
• 분산 메시징 시스템의 기초
• 프로듀서와 컨슈머
• 토픽, 파티셔닝 및 데이터 흐름
• 데이터 인제션 전략
3일차
• 스트림 처리 개념 및 프레임워크
• 이벤트 시간 대 처리 시간
• 윈도우링 기법 및 활용 사례
• 상태 유지 스트림 처리
• 장애 허용 및 체크포인트의 기본 원리
4일차
• 스트리밍 파이프라인 내 데이터 변환
• 실시간 시스템의 ETL 및 ELT
• 스키마 관리 및 진화
• 스트림 조인 및 데이터 풍부화
• 클라우드 기반 스트리밍 서비스 소개
5일차
• 스트리밍 시스템의 모니터링 및 관찰 가능성
• 보안 및 접근 제어 기본 원리
• 성능 튜닝 및 최적화
• 종단 간 파이프라인 설계 검토
• 사기 탐지 및 IoT 처리와 같은 실제 활용 사례
오픈 트레이닝 코스는 5명 이상의 참가자가 필요합니다.
데이터 스트리밍 및 실시간 데이터 처리 교육 과정 - 예약
데이터 스트리밍 및 실시간 데이터 처리 교육 과정 - 문의
데이터 스트리밍 및 실시간 데이터 처리 - 컨설팅 문의
회원 평가 (1)
실습 연습. 이 클래스는 본래 5일 동안 진행되었어야 하지만, 3일간의 수업으로도 이미 NiFi를 사용하면서 가졌던 많은 질문들을 해결할 수 있었습니다.
James - BHG Financial
코스 - Apache NiFi for Administrators
기계 번역됨
예정된 코스
관련 코스
Apache 관리자 교육 Hadoop
35 시간대상:
이 코스는 분산 시스템 환경에서 대규모 데이터를 저장하고 처리하는 솔루션을 찾고 있는 IT 전문가를 대상으로 합니다.
전제 조건:
Hadoop 클러스터 관리에 대한 심도 있는 지식이 필요합니다.
Google Colab 및 Apache Spark을 활용한 빅데이터 분석
14 시간이 온라인 또는 현장에서 진행되는 강사 지도형 라이브 교육은 중간 수준의 데이터 과학자 및 엔지니어가 빅데이터 처리 및 분석을 위해 Google Colab과 Apache Spark을 사용하고자 할 때 대상입니다.
이 교육을 마친 후 참가자는 다음과 같은 능력을 갖출 것입니다.
- Google Colab과 Spark를 사용하여 빅데이터 환경을 설정합니다.
- Apache Spark로 대용량 데이터를 효율적으로 처리하고 분석합니다.
- 협업 환경에서 빅데이터를 시각화합니다.
- Apache Spark을 클라우드 기반 도구와 통합합니다.
건강 분야의 빅데이터 분석
21 시간빅데이터 분석은 대량의 다양한 데이터 세트를 검토하여 상관 관계, 숨겨진 패턴 및 기타 유용한 통찰력을 발견하는 과정을 포함합니다.
의료 산업은 복잡하고 이질적인 의학적 및 임상 데이터가 대량으로 존재합니다. 건강 데이터에 빅데이터 분석을 적용하면 의료 서비스 제공 개선을 위한 통찰력을 도출하는 큰 잠재력이 있습니다. 그러나 이러한 데이터셋의 크기는 분석과 임상 환경에서의 실제 응용에 큰 도전을 제시합니다.
이 강사 주도형 실시간 교육(원격)에서는 참가자들이 빅데이터 분석 기술을 건강 분야에 적용하는 방법을 배우면서 일련의 실습 실습을 진행하게 됩니다.
본 교육을 마치면 참가자는 다음과 같은 능력을 갖추게 될 것입니다:
- Hadoop MapReduce와 Spark 등 빅데이터 분석 도구를 설치하고 구성할 수 있습니다.
- 의료 데이터의 특성을 이해합니다.
- 의료 데이터를 처리하기 위한 빅데이터 기술을 적용할 수 있습니다.
- 건강 관련 응용 프로그램의 문맥에서 빅데이터 시스템과 알고리즘을 연구합니다.
대상군
- 개발자
- 데이터 과학자
코스 형식
- 강의, 토론, 연습 및 실습을 병행합니다.
참고사항
- 본 과정에 대한 맞춤형 교육을 요청하려면 문의하여 일정을 조율해 주세요.
관리자를 위한 Hadoop
21 시간아파치 하둡은 서버 클러스터에서 데이터를 처리하는 가장 인기 있는 프레임워크입니다. 이 3일(선택 사항으로 4일) 과정에서는 하둡과 그 생태계의 비즈니스 이점과 사용 사례, 클러스터 배포 및 확장을 계획하는 방법, 하둡을 설치, 유지, 모니터링, 문제 해결 및 최적화하는 방법에 대해 배우게 됩니다. 또한 클러스터 대량 데이터 로드 연습, 다양한 하둡 배포판에 대한 이해, 하둡 생태계 도구를 설치 및 관리하는 연습을 할 수 있습니다. 이 과정은 커버로스를 사용하여 클러스터를 보호하는 논의로 마무리됩니다.
“… 자료는 매우 잘 준비되어 있었고 철저히 다루어졌습니다. 라보는 매우 도움이 되고 잘 조직되어 있었습니다.”
— 앤드류 응우옌, 프린시팔 통합 DW 엔지니어, 온라인
대상
하둡 관리자
형식
강의와 실습 라보, 강의 약 60%, 라보 약 40%.
Hadoop for Developers (4 days)
28 시간Apache Hadoop은 서버 클러스터에서 Big Data를 처리하는 가장 인기 있는 프레임워크입니다. 이 강좌는 개발자를 위해 Hadoop 생태계의 다양한 구성 요소(HDFS, MapReduce, Pig, Hive 및 HBase)에 대해 소개합니다.
고급 하둡 개발자 과정
21 시간Apache Hadoop은 서버 클러스터에서 빅 데이터를 처리하는 가장 인기 있는 프레임워크 중 하나입니다. 이 강좌는 HDFS에서의 데이터 관리, 고급 Pig, Hive, 그리고 HBase에 대해 깊게 다룹니다. 이러한 고급 프로그래밍 기술은 경험이 풍부한 하둡 개발자들에게 유용할 것입니다.
대상: 개발자
기간: 3일
형식: 강의 (50%), 실습 (50%).
해돕과 스파크 관리자를 위한
35 시간대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 조직 내에서 Hadoop 클러스터를 설정, 배포 및 관리하는 방법을 배우려는 시스템 관리자를 대상으로 합니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- Apache Hadoop을 설치하고 구성합니다.
- Hadoop 생태계의 네 가지 주요 구성 요소인 HDFS, MapReduce, YARN 및 Hadoop Common을 이해합니다.
- HDFS(Hadoop 분산 파일 시스템)를 사용하여 클러스터를 수백 또는 수천 개의 노드로 확장합니다.
- 온프레미스 Spark 배포를 위한 스토리지 엔진으로 작동하도록 HDFS를 설정합니다.
- Redis, Elasticsearch, Couchbase, Aerospike 등과 같은 Amazon S3 및 NoSQL 데이터베이스 시스템과 같은 대체 스토리지 솔루션에 액세스하도록 Spark를 설정하십시오.
- Apache Hadoop 클러스터 프로비저닝, 관리, 모니터링 및 보안과 같은 관리 작업을 수행합니다.
HBase 개발자를 위한 강의
21 시간이 강좌는 Hadoop 위에서 동작하는 NoSQL 저장소인 HBase를 소개합니다. 이 강좌는 HBase를 사용하여 애플리케이션을 개발할 개발자들과 HBase 클러스터를 관리할 관리자들을 대상으로 합니다.
이 강좌에서는 HBase의 아키텍처와 데이터 모델링, 그리고 HBase 기반 애플리케이션 개발을 개발자를 위한 단계별로 안내합니다. 또한 HBase와 MapReduce를 함께 사용하는 방법과 성능 최적화와 관련된 관리 주제를 다룹니다. 이 강좌는 많은 실습을 포함하여 매우 실습 중심입니다.
기간 : 3일
대상 : 개발자 & 관리자
Apache NiFi for Administrators
21 시간Apache NiFi는 오픈 소스, 흐름 기반 데이터 통합 및 이벤트 처리 플랫폼입니다. 이 플랫폼은 다양한 시스템 간에 자동화된 실시간 데이터 라우팅, 변환, 시스템 중재를 제공하며, 웹 기반 UI와 세부적인 제어 기능을 포함하고 있습니다.
이 강사 주도의 실시간 교육(현장 또는 원격)은 중급 수준의 관리자 및 엔지니어를 대상으로 하며, NiFi 데이터플로우를 실제 환경에서 배포, 관리, 보안, 최적화하는 방법을 배울 것입니다.
이 교육을 마친 후 참가자는 다음과 같은 능력을 갖추게 됩니다:
- Apache NiFi 클러스터를 설치, 구성, 유지할 수 있습니다.
- 다양한 소스와 싱크에서 데이터플로우를 설계하고 관리할 수 있습니다.
- 흐름 자동화, 라우팅, 변환 논리를 구현할 수 있습니다.
- 성능을 최적화하고, 운영 상태를 모니터링하며, 문제를 해결할 수 있습니다.
강의 형식
- 실제 아키텍처 논의를 포함한 상호작용형 강연
- 데이터플로우를 구축, 배포, 관리하는 실습
- 실시간 랩 환경에서 시나리오 기반 연습
강의 맞춤형 옵션
- 이 강의에 대한 맞춤형 교육을 요청하려면 저희에게 문의해 주십시오.
Apache NiFi 개발자를 위한
7 시간대한민국에서 강사가 진행하는 이 실시간 교육에서 참가자는 Apache NiFi을 사용하여 다양한 데모 확장, 구성 요소 및 프로세서를 개발하면서 흐름 기반 프로그래밍의 기본 사항을 학습하게 됩니다.
이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
- NiFi의 아키텍처와 데이터 흐름 개념을 이해합니다.
- NiFi와 타사 API를 사용하여 확장 기능을 개발합니다.
- Apache Nifi 프로세서를 자체적으로 맞춤 개발합니다.
- 다양하고 흔하지 않은 파일 형식과 데이터 소스에서 실시간 데이터를 수집하고 처리합니다.
PySpark 및 머신러닝
21 시간본 훈련은 PySpark 를 활용하여 확장 가능한 데이터 처리 및 머신러닝 워크플로우 구축에 대한 실용적인 개요를 제공합니다. 참가자는 현대적인 빅데이터 생태계 내에서 Apache Spark 가 어떻게 작동하는지, 그리고 분산 컴퓨팅 원리를 사용하여 대규모 데이터 세트를 효율적으로 처리하는 방법을 학습합니다.
파이썬과 스파크로 큰 데이터 분석하기 (PySpark)
21 시간이 강사가 진행하는 대한민국 실시간 교육에서 참가자는 실습을 하면서 Python와 Spark를 함께 사용하여 빅 데이터를 분석하는 방법을 배웁니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- Python와 함께 Spark를 사용하여 Big Data을 분석하는 방법을 알아보세요.
- 실제 사례를 모방한 연습을 해보세요.
- PySpark을 사용하여 빅데이터 분석을 위한 다양한 도구와 기술을 사용합니다.
Python, Spark, and Hadoop for Big Data
21 시간대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 Spark Hadoop 및 Python를 사용하고 통합하여 크고 복잡한 데이터 세트를 처리, 분석 및 변환하려는 개발자를 대상으로 합니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- Spark, Hadoop, Python를 사용하여 빅데이터 처리를 시작하는 데 필요한 환경을 설정합니다.
- Spark 및 Hadoop의 기능, 핵심 구성 요소 및 아키텍처를 이해합니다.
- 빅 데이터 처리를 위해 Spark, Hadoop 및 Python를 통합하는 방법을 알아보세요.
- Spark 에코시스템(Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka 및 Flume)의 도구를 살펴보세요.
- Netflix, YouTube, Amazon, Spotify 및 Google과 유사한 협업 필터링 추천 시스템을 구축하세요.
- Apache Mahout을 사용하여 기계 학습 알고리즘을 확장합니다.
Stratio: Rocket and Intelligence Modules with PySpark
14 시간Stratio는 빅 데이터, AI, 그리고 가버넌스를 하나의 솔루션으로 통합하는 데이터 중심의 플랫폼입니다. Rocket과 Intelligence 모듈은 기업 환경에서 빠르게 데이터를 탐색, 변환하고 고급 분석을 수행할 수 있게 합니다.
이 강사는 온라인 또는 현장에서 진행되는 실습 중심의 라이브 강의로, PySpark를 활용하여 Rocket과 Intelligence 모듈을 효과적으로 사용하는 중급 데이터 전문가를 대상으로 합니다. 이 강의는 루프 구조, 사용자 정의 함수, 그리고 고급 데이터 논리에 중점을 둡니다.
이 교육을 마치면 참가자는 다음과 같은 능력을 갖추게 됩니다:
- Rocket과 Intelligence 모듈을 사용하여 Stratio 플랫폼을 탐색하고 작업할 수 있습니다.
- 데이터 수집, 변환, 분석의 맥락에서 PySpark를 적용할 수 있습니다.
- 루프와 조건 논리를 사용하여 데이터 워크플로우와 피처 엔지니어링 작업을 제어할 수 있습니다.
- PySpark에서 재사용 가능한 데이터 작업을 위한 사용자 정의 함수(UDF)를 만들고 관리할 수 있습니다.
강의 형식
- 상호작용적인 강의와 토론.
- 많은 연습과 실습.
- 라이브-랩 환경에서의 실습 구현.
강의 커스터마이징 옵션
- 이 강의를 위한 맞춤형 교육을 요청하려면 연락 주시기 바랍니다.