데이터 스트리밍 및 실시간 데이터 처리 교육 과정
강의 개요
이 과정은 실시간 데이터 스트리밍 시스템을 구축하는 데 필요한 실용적이고 체계적인 introductory를 제공합니다. 규모 있는 연속 데이터 처리를 위해 사용되는 핵심 개념, 아키텍처 패턴 및 산업용 도구들을 다룹니다. 참가자들은 현대 프레임워크를 사용하여 스트리밍 파이프라인을 설계, 구현 및 최적화하는 방법을 배우게 됩니다. 본 과정은 기초 아이디어에서 시작하여 실무 적용 단계로 나아가, 학습자들이 신뢰할 수 있는 프로덕션 준비된 실시간 솔루션을 성공적으로 구축할 수 있도록 지원합니다.
교육 형식
• 강사 주도 세션 및 안내된 설명
• 실제 사례를 통한 개념 설명
• 실습 데모 및 코딩 과제
• 일일 주제에 맞춰진 단계별 랩 실습
• 상호작용 토론 및 질의응답
강의 목표
• 실시간 데이터 스트리밍 개념 및 시스템 아키텍처 이해
• 배치 처리와 스트리밍 데이터 처리 모델의 차이점 파악
• 확장 가능하고 장애 허용이 가능한 스트리밍 파이프라인 설계
• 분산 스트리밍 도구 및 프레임워크 활용
• 이벤트 시간 처리, 윈도우링, 상태 유지 작업 적용
비즈니스 사용 사례를 위한 실시간 데이터 솔루션 구축 및 최적화
코스 개요
강의 개요 - 1일차
• 데이터 스트리밍 개념 소개
• 배치 처리와 실시간 처리의 기초
• 이벤트 기반 아키텍처 기본 원리
• 산업계의 주요 활용 사례
• 스트리밍 생태계 개요
2일차
• 스트리밍 아키텍처 설계 패턴
• 분산 메시징 시스템의 기초
• 프로듀서와 컨슈머
• 토픽, 파티셔닝 및 데이터 흐름
• 데이터 인제션 전략
3일차
• 스트림 처리 개념 및 프레임워크
• 이벤트 시간 대 처리 시간
• 윈도우링 기법 및 활용 사례
• 상태 유지 스트림 처리
• 장애 허용 및 체크포인트의 기본 원리
4일차
• 스트리밍 파이프라인 내 데이터 변환
• 실시간 시스템의 ETL 및 ELT
• 스키마 관리 및 진화
• 스트림 조인 및 데이터 풍부화
• 클라우드 기반 스트리밍 서비스 소개
5일차
• 스트리밍 시스템의 모니터링 및 관찰 가능성
• 보안 및 접근 제어 기본 원리
• 성능 튜닝 및 최적화
• 종단 간 파이프라인 설계 검토
• 사기 탐지 및 IoT 처리와 같은 실제 활용 사례
오픈 트레이닝 코스는 5명 이상의 참가자가 필요합니다.
데이터 스트리밍 및 실시간 데이터 처리 교육 과정 - 예약
데이터 스트리밍 및 실시간 데이터 처리 교육 과정 - 문의
데이터 스트리밍 및 실시간 데이터 처리 - 컨설팅 문의
회원 평가 (1)
실습 연습. 이 클래스는 본래 5일 동안 진행되었어야 하지만, 3일간의 수업으로도 이미 NiFi를 사용하면서 가졌던 많은 질문들을 해결할 수 있었습니다.
James - BHG Financial
코스 - Apache NiFi for Administrators
기계 번역됨
예정된 코스
관련 코스
고급 Apache Iceberg
21 시간이 강사 주도 온라인 또는 현장 실습 훈련은 데이터 처리 워크플로우를 최적화하고, 데이터 무결성을 보장하며, 현대적인 빅 데이터 애플리케이션의 복잡성을 처리할 수 있는 견고한 데이터 레이크하우스 솔루션을 구현하려는 고급 데이터 전문가를 대상으로 합니다.
이 훈련을 마친 후, 참가자들은 다음을 할 수 있습니다:
- Iceberg의 아키텍처, 메타데이터 관리 및 파일 레이아웃에 대한 심도 있는 이해를 얻습니다.
- 다양한 환경에서 최적의 성능을 위한 Iceberg 구성 및 여러 데이터 처리 엔진과의 통합을 수행합니다.
- 대형 Iceberg 테이블을 관리하고, 복잡한 스키마 변경 사항을 수행하며, 파티션 진화를 처리합니다.
- 대규모 데이터셋에 대한 쿼리 성능 및 데이터 스캔 효율성을 최적화하는 기법을 마스터합니다.
- 데이터 일관성을 보장하고, 분산 환경에서 트랜잭션 보장을 관리하며, 실패를 처리하기 위한 메커니즘을 구현합니다.
Apache Iceberg 기초
14 시간이 강사는 온라인 또는 현장에서 실시되는 이 인스트럭터-리드 라이브 트레이닝은 대용량 데이터셋을 효과적으로 관리하고 데이터 무결성을 보장하며 데이터 처리 워크플로를 최적화하기 위해 Apache Iceberg를 활용하려는 초급 데이터 전문가를 대상으로 합니다.
이 트레이닝을 마치면 참가자들은 다음을 할 수 있게 됩니다.
- Apache Iceberg의 아키텍처, 기능, 장점에 대한 철저한 이해를 얻을 수 있습니다.
- 테이블 형식, 파티셔닝, 스키마 진화 및 시간 여행 기능에 대해 배울 수 있습니다.
- 다양한 환경에서 Apache Iceberg를 설치하고 구성할 수 있습니다.
- Iceberg 테이블을 생성, 관리 및 조작할 수 있습니다.
- 다른 테이블 형식에서 Iceberg로 데이터를 이동하는 과정을 이해할 수 있습니다.
Google Colab 및 Apache Spark을 활용한 빅데이터 분석
14 시간이 온라인 또는 현장에서 진행되는 강사 지도형 라이브 교육은 중간 수준의 데이터 과학자 및 엔지니어가 빅데이터 처리 및 분석을 위해 Google Colab과 Apache Spark을 사용하고자 할 때 대상입니다.
이 교육을 마친 후 참가자는 다음과 같은 능력을 갖출 것입니다.
- Google Colab과 Spark를 사용하여 빅데이터 환경을 설정합니다.
- Apache Spark로 대용량 데이터를 효율적으로 처리하고 분석합니다.
- 협업 환경에서 빅데이터를 시각화합니다.
- Apache Spark을 클라우드 기반 도구와 통합합니다.
정부 기관을 위한 빅 데이터 비즈니스 인텔리전스
35 시간기술의 발전과 정보량의 증가는 많은 산업, 특히 정부에서도 사업 방식을 변화시키고 있습니다. 모바일 기기와 애플리케이션, 스마트 센서 및 장치, 클라우드 컴퓨팅 솔루션, 시민 대상 포털 등의 급속한 성장으로 인해 정부 데이터 생성 및 디지털 보존률이 상승하고 있습니다. 디지털 정보가 확대되고 복잡해짐에 따라 정보 관리, 처리, 저장, 보안, 처분 등도 더욱 복잡해지고 있습니다. 새로운 캡처, 검색, 발견, 분석 도구들은 조직들이 비정형 데이터에서 통찰력을 얻는 데 도움을 주고 있습니다. 정부 시장은 정보가 전략적 자산임을 인식하고 있으며, 정부는 구조화된 정보와 비정형 정보를 보호, 활용, 분석하여 더 나은 서비스 제공과 미션 달성을 위해 노력하고 있습니다. 정부 지도자들은 데이터 주도형 조직으로 진화하여 미션을 성공적으로 수행하기 위해 사건, 사람, 프로세스, 정보 간의 의존 관계를 상관시키는 기반을 마련하고 있습니다.
높은 가치의 정부 솔루션들은 가장 혁신적인 기술들의 조합으로 만들어질 것입니다:
- 모바일 기기와 애플리케이션
- 클라우드 서비스
- 소셜 비즈니스 기술 및 네트워킹
- 빅 데이터와 분석
빅 데이터는 지능형 산업 솔루션 중 하나로, 정부가 대용량의 관련 및 비관련, 구조화된 및 비정형 데이터를 분석하여 더 나은 결정을 내릴 수 있도록 돕습니다.
이러한 업적을 이루는 데는 단순히 방대한 양의 데이터를 축적하는 것보다 훨씬 많은 것이 필요합니다. "빅 데이터의 대량을 이해하기 위해서는 이러한 방대하고 다양한 정보 스트림에서 유용한 지식을 분석하고 추출할 수 있는 최첨단 도구와 기술이 필요합니다," 백악관 과학기술정책국의 Tom Kalil과 Fen Zhao가 OSTP 블로그 게시물에서 작성했습니다.
백악관은 2012년에 National Big Data Research and Development Initiative를 설립하여 기관들이 이러한 기술을 찾는 데 도움을 주기 위한 단계를 밟았습니다. 이 이니셔티브에는 빅 데이터의 급증과 이를 분석하는 도구에 2억 달러 이상이 포함되었습니다.
빅 데이터가 제시하는 과제는 그 약속만큼이나 어려울 수 있습니다. 효율적으로 데이터를 저장하는 것이 이러한 과제 중 하나입니다. 예산은 항상 긴장 상태에 있으므로 기관들은 메가바이트당 저장 비용을 최소화하면서 사용자가 원할 때와 필요할 때 쉽게 접근할 수 있도록 데이터를 보유해야 합니다. 방대한 양의 데이터를 백업하는 것은 과제를 더욱 어렵게 만듭니다.
효과적으로 데이터를 분석하는 것도 또 다른 큰 과제입니다. 많은 기관들이 데이터 산을 헤쳐나가며 효율적인 운영에 도움이 되는 트렌드를 포착할 수 있는 상업적 도구를 사용하고 있습니다. (MeriTalk의 최근 연구에 따르면 연방 IT 임원들은 빅 데이터가 기관들이 500억 달러 이상을 절약하면서도 미션 목표를 달성할 수 있다고 생각합니다.).
맞춤형 개발된 빅 데이터 도구들도 기관들이 데이터를 분석해야 하는 필요성을 충족시키는 데 도움을 주고 있습니다. 예를 들어, 오크 리지 국립연구소의 Computational Data Analytics 그룹은 Piranha 데이터 분석 시스템을 다른 기관들에게 제공하고 있습니다. 이 시스템은 의료 연구자들이 의사에게 혈관류가 발생하기 전에 알림을 제공할 수 있는 연결점을 찾는 데 도움을 주었습니다. 또한 이 시스템은 이력서를 검토하여 채용 관리자와 구직자를 연결하는 등의 더 일상적인 작업에도 사용됩니다.
실용적인 Data Analysis 및 Big Data 소개 - 3일
21 시간대한민국에서 강사가 진행하는 이 실시간 교육을 완료하는 참가자는 Big Data 및 관련 기술, 방법론, 도구에 대한 실제적이고 현실적인 이해를 얻게 됩니다.
참가자들은 실습을 통해 이 지식을 실천할 기회를 갖게 됩니다. 그룹 상호작용과 강사 피드백은 수업의 중요한 구성 요소를 구성합니다.
이 과정은 Big Data의 기본 개념 소개로 시작한 다음 Data Analysis을 수행하는 데 사용되는 프로그래밍 언어 및 방법론으로 진행됩니다. 마지막으로 Big Data 저장, 분산 처리 및 Scala 기능을 가능하게 하는 도구와 인프라에 대해 논의합니다.
Big Data 및 고급 분석
42 시간Big Data와 고급 분석은 대규모, 복잡한 데이터셋을 분석하여 실질적인 통찰력과 전략적 의사결정에 사용하기 위해 고급 기술과 도구를 적용하는 것입니다.
이 강사는 온라인 또는 현장 교육을 통해 고급 데이터 전문가들이 예측, 처방, 실시간 분석을 위한 최신 분석 방법과 빅데이터 기술을 활용하는 방법을 배울 수 있도록 합니다.
이 교육을 마치면 참가자들은 다음을 수행할 수 있게 됩니다:
- 구조화된 및 비구조화된 데이터를 위한 대규모 데이터 처리 파이프라인을 설계 및 구현합니다.
- 매시브 데이터셋에 고급 머신러닝 및 딥러닝 기술을 적용합니다.
- 실시간 분석 및 데이터 스트리밍을 위한 분산 컴퓨팅 프레임워크를 활용합니다.
- 빅데이터 분석을 비즈니스 인텔리전스 및 의사결정 시스템에 통합합니다.
강의 형식
- 대화형 강의 및 토론.
- 다양한 연습과 실습.
- 실제 랩 환경에서의 직접적인 구현.
강의 맞춤화 옵션
- 이 강의를 맞춤화하려면, 양해를 구하기 위해 문의하십시오.
Apache NiFi for Administrators
21 시간Apache NiFi는 오픈 소스, 흐름 기반 데이터 통합 및 이벤트 처리 플랫폼입니다. 이 플랫폼은 다양한 시스템 간에 자동화된 실시간 데이터 라우팅, 변환, 시스템 중재를 제공하며, 웹 기반 UI와 세부적인 제어 기능을 포함하고 있습니다.
이 강사 주도의 실시간 교육(현장 또는 원격)은 중급 수준의 관리자 및 엔지니어를 대상으로 하며, NiFi 데이터플로우를 실제 환경에서 배포, 관리, 보안, 최적화하는 방법을 배울 것입니다.
이 교육을 마친 후 참가자는 다음과 같은 능력을 갖추게 됩니다:
- Apache NiFi 클러스터를 설치, 구성, 유지할 수 있습니다.
- 다양한 소스와 싱크에서 데이터플로우를 설계하고 관리할 수 있습니다.
- 흐름 자동화, 라우팅, 변환 논리를 구현할 수 있습니다.
- 성능을 최적화하고, 운영 상태를 모니터링하며, 문제를 해결할 수 있습니다.
강의 형식
- 실제 아키텍처 논의를 포함한 상호작용형 강연
- 데이터플로우를 구축, 배포, 관리하는 실습
- 실시간 랩 환경에서 시나리오 기반 연습
강의 맞춤형 옵션
- 이 강의에 대한 맞춤형 교육을 요청하려면 저희에게 문의해 주십시오.
PySpark 및 머신러닝
21 시간본 훈련은 PySpark 를 활용하여 확장 가능한 데이터 처리 및 머신러닝 워크플로우 구축에 대한 실용적인 개요를 제공합니다. 참가자는 현대적인 빅데이터 생태계 내에서 Apache Spark 가 어떻게 작동하는지, 그리고 분산 컴퓨팅 원리를 사용하여 대규모 데이터 세트를 효율적으로 처리하는 방법을 학습합니다.
Apache Spark 기본 사항
21 시간대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 매우 많은 양의 데이터를 처리하기 위해 Apache Spark 시스템을 설정하고 배포하려는 엔지니어를 대상으로 합니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- Apache Spark를 설치하고 구성합니다.
- 매우 큰 데이터 세트를 신속하게 처리하고 분석합니다.
- Apache Spark와 Hadoop MapReduce의 차이점과 언제 어느 것을 사용해야 하는지 이해합니다.
- Apache Spark를 다른 기계 학습 도구와 통합합니다.
아파치 스파크 관리
35 시간대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 Spark 클러스터를 배포, 유지 관리 및 최적화하려는 초급 및 중급 시스템 관리자를 대상으로 합니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- 다양한 환경에서 Apache Spark을 설치하고 구성합니다.
- 클러스터 리소스를 관리하고 Spark 애플리케이션을 모니터링합니다.
- Spark 클러스터의 성능을 최적화합니다.
- 보안 조치를 구현하고 고가용성을 보장합니다.
- 일반적인 Spark 문제를 디버그하고 해결합니다.
Apache Spark in the Cloud
21 시간Apache Spark의 학습 곡선은 초기에 천천히 증가하며, 처음의 성과를 얻기 위해 많은 노력이 필요합니다. 이 과정은 첫 번째 어려운 부분을 넘어가는 것을 목표로 합니다. 이 과정을 수강한 후 참가자들은 Apache Spark의 기본 사항을 이해하게 될 것입니다. 또한 RDD와 DataFrame을 명확하게 구분할 수 있으며, Python과 Scala API를 배우고, 실행자와 작업 등의 개념을 이해할 것입니다. 또한 최상의 실습을 따라, 이 과정은 클라우드 배포, Databricks 및 AWS에 강한 초점을 맞추고 있습니다. 학생들은 또한 AWS의 최신 Spark 서비스인 AWS EMR과 AWS Glue의 차이점을 이해할 것입니다.
대상:
데이터 엔지니어, DevOps, 데이터 과학자
파이썬과 스파크로 큰 데이터 분석하기 (PySpark)
21 시간이 강사가 진행하는 대한민국 실시간 교육에서 참가자는 실습을 하면서 Python와 Spark를 함께 사용하여 빅 데이터를 분석하는 방법을 배웁니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- Python와 함께 Spark를 사용하여 Big Data을 분석하는 방법을 알아보세요.
- 실제 사례를 모방한 연습을 해보세요.
- PySpark을 사용하여 빅데이터 분석을 위한 다양한 도구와 기술을 사용합니다.
Python, Spark, and Hadoop for Big Data
21 시간대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 Spark Hadoop 및 Python를 사용하고 통합하여 크고 복잡한 데이터 세트를 처리, 분석 및 변환하려는 개발자를 대상으로 합니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- Spark, Hadoop, Python를 사용하여 빅데이터 처리를 시작하는 데 필요한 환경을 설정합니다.
- Spark 및 Hadoop의 기능, 핵심 구성 요소 및 아키텍처를 이해합니다.
- 빅 데이터 처리를 위해 Spark, Hadoop 및 Python를 통합하는 방법을 알아보세요.
- Spark 에코시스템(Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka 및 Flume)의 도구를 살펴보세요.
- Netflix, YouTube, Amazon, Spotify 및 Google과 유사한 협업 필터링 추천 시스템을 구축하세요.
- Apache Mahout을 사용하여 기계 학습 알고리즘을 확장합니다.
Stratio: Rocket and Intelligence Modules with PySpark
14 시간Stratio는 빅 데이터, AI, 그리고 가버넌스를 하나의 솔루션으로 통합하는 데이터 중심의 플랫폼입니다. Rocket과 Intelligence 모듈은 기업 환경에서 빠르게 데이터를 탐색, 변환하고 고급 분석을 수행할 수 있게 합니다.
이 강사는 온라인 또는 현장에서 진행되는 실습 중심의 라이브 강의로, PySpark를 활용하여 Rocket과 Intelligence 모듈을 효과적으로 사용하는 중급 데이터 전문가를 대상으로 합니다. 이 강의는 루프 구조, 사용자 정의 함수, 그리고 고급 데이터 논리에 중점을 둡니다.
이 교육을 마치면 참가자는 다음과 같은 능력을 갖추게 됩니다:
- Rocket과 Intelligence 모듈을 사용하여 Stratio 플랫폼을 탐색하고 작업할 수 있습니다.
- 데이터 수집, 변환, 분석의 맥락에서 PySpark를 적용할 수 있습니다.
- 루프와 조건 논리를 사용하여 데이터 워크플로우와 피처 엔지니어링 작업을 제어할 수 있습니다.
- PySpark에서 재사용 가능한 데이터 작업을 위한 사용자 정의 함수(UDF)를 만들고 관리할 수 있습니다.
강의 형식
- 상호작용적인 강의와 토론.
- 많은 연습과 실습.
- 라이브-랩 환경에서의 실습 구현.
강의 커스터마이징 옵션
- 이 강의를 위한 맞춤형 교육을 요청하려면 연락 주시기 바랍니다.