온라인 또는 현장 강사 주도 라이브 빅 데이터 교육 과정은 빅 데이터의 기본 개념에 대한 소개로 시작하여 데이터 분석을 수행하는 데 사용되는 프로그래밍 언어 및 방법론으로 진행됩니다. 빅 데이터 스토리지, 분산 처리 및 확장성을 활성화하기 위한 도구 및 인프라는 데모 연습 세션에서 논의, 비교 및 구현됩니다. 빅데이터 교육은 "온라인 라이브 교육" 또는 "현장 라이브 교육"으로 제공됩니다. 온라인 라이브 교육(일명 "원격 라이브 교육")은 대화형 원격 데스크톱을 통해 수행됩니다. 현장 라이브 교육은 대한민국의 고객 구내 또는 대한민국의 NobleProg 기업 교육 센터에서 로컬로 수행할 수 있습니다. NobleProg -- 지역 교육 제공자
대한민국에서 강사가 진행하는 이 실시간 교육을 완료하는 참가자는 Big Data 및 관련 기술, 방법론, 도구에 대한 실제적이고 현실적인 이해를 얻게 됩니다.
참가자들은 실습을 통해 이 지식을 실천할 기회를 갖게 됩니다. 그룹 상호작용과 강사 피드백은 수업의 중요한 구성 요소를 구성합니다.
이 과정은 Big Data의 기본 개념 소개로 시작한 다음 Data Analysis을 수행하는 데 사용되는 프로그래밍 언어 및 방법론으로 진행됩니다. 마지막으로 Big Data 저장, 분산 처리 및 Scala 기능을 가능하게 하는 도구와 인프라에 대해 논의합니다.
대한민국(온라인 또는 현장)에서 진행되는 이 강사가 진행하는 실시간 교육은 데이터 처리 워크플로를 최적화하고, 데이터 무결성을 보장하며, 현대 빅 데이터의 복잡성을 처리할 수 있는 강력한 데이터 레이크하우스 솔루션을 구현하려는 고급 수준의 데이터 전문가를 대상으로 합니다. 데이터 애플리케이션.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
메타데이터 관리 및 파일 레이아웃을 포함하여 Iceberg의 아키텍처에 대해 심층적으로 이해하세요.
다양한 환경에서 최적의 성능을 발휘하도록 Iceberg를 구성하고 이를 여러 데이터 처리 엔진과 통합합니다.
대규모 Iceberg 테이블을 관리하고, 복잡한 스키마 변경을 수행하고, 파티션 발전을 처리합니다.
대규모 데이터 세트의 쿼리 성능과 데이터 스캔 효율성을 최적화하는 마스터 기술입니다.
데이터 일관성을 보장하고 트랜잭션 보장을 관리하며 분산 환경에서 오류를 처리하는 메커니즘을 구현합니다.
대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 대규모 데이터 세트를 관리하고 데이터 무결성을 보장하기 위해 Apache Iceberg를 효과적으로 활용하는 데 필요한 지식과 기술을 습득하려는 초급 수준의 데이터 전문가를 대상으로 합니다. 데이터 처리 워크플로우 최적화.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 데이터 아키텍처, 거버넌스, 클라우드 컴퓨팅 및 빅 데이터 기술에 대한 기술을 향상하여 대규모 데이터 세트를 효과적으로 관리하고 분석하려는 중급 IT 전문가를 대상으로 합니다. 조직 내 데이터 마이그레이션을 위해.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 효과적인 데이터 분석 솔루션을 위해 Azure Data Lake Storage Gen2를 사용하는 방법을 배우려는 중급 수준의 데이터 엔지니어를 대상으로 합니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
Azure Data Lake Storage Gen2의 아키텍처와 주요 기능을 이해합니다.
비용과 성능을 고려하여 데이터 스토리지와 액세스를 최적화합니다.
분석 및 데이터 처리를 위해 Azure Data Lake Storage Gen2를 다른 Azure 서비스와 통합합니다.
Azure Data Lake Storage Gen2 API를 사용하여 솔루션을 개발합니다.
대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 관리 및 개발 관점 모두에서 IBM DataStage에 대한 포괄적인 이해를 갖고 이를 관리하고 활용하려는 중급 IT 전문가를 대상으로 합니다. 각자의 작업장에서 효과적으로 도구를 사용하세요.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
DataStage의 핵심 개념을 이해합니다.
DataStage 환경을 효과적으로 설치, 구성 및 관리하는 방법을 알아보세요.
다양한 데이터 소스에 연결하고 데이터베이스, 플랫 파일, 외부 소스에서 데이터를 효율적으로 추출합니다.
이 강사 주도의 실시간 트레이닝(대한민국 온라인 또는 현장)은 대규모 데이터 집합에 대한 다차원 분석을 수행하고 실시간 데이터 웨어하우스를 구축하기 위해 Apache Kylin을 활용하고자 하는 중급 레벨의 빅데이터 전문가들을 대상으로 합니다.이 트레이닝을 마치면 참가자는 다음과 같은 능력을 갖추게 됩니다:
Apache Kylin을 실시간 스트리밍 데이터 소스와 함께 설정하고 구성합니다.
배치 및 스트림 데이터를 위한 OLAP 큐브를 설계하고 구축합니다.
Kylin의 SQL 인터페이스를 사용하여 서브세컨드 지연 시간으로 복잡한 쿼리를 수행합니다.
대한민국에서 강사가 진행하는 실시간 교육을 이수하는 참가자는 Big Data과 관련 기술, 방법론 및 도구에 대한 실용적이고 실제적인 이해를 얻게 됩니다.
참가자들은 실습을 통해 이러한 지식을 실제로 적용할 수 있는 기회를 갖게 됩니다. 그룹 상호 작용과 강사 피드백은 수업의 중요한 구성 요소입니다.
이 과정은 빅 데이터의 기본 개념 소개로 시작하여 데이터 분석을 수행하는 데 사용되는 프로그래밍 언어와 방법론으로 진행됩니다. 마지막으로 빅 데이터 스토리지, 분산 처리 및 Scala 기능을 가능하게 하는 도구와 인프라에 대해 논의합니다.
This instructor-led, live training in 대한민국 (online or onsite) is aimed at intermediate-level database administrators, developers, and analysts who wish to master advanced SQL functionalities for complex data operations and database management.
By the end of this training, participants will be able to:
Perform advanced querying techniques using unions, subqueries, and complex joins.
Add, update, and delete data, tables, views, and indexes with precision.
Ensure data integrity through transactions and manipulate database structures.
Create and manage databases efficiently for robust data storage and retrieval.
Dremio 오픈소스 "자신 서비스 데이터 플랫폼" 다른 유형의 데이터 소스에 대한 검색을 가속화합니다. Dremio 관계 데이터베이스, Apache Hadoop, MongoDB, Amazon S3, ElasticSearch, 그리고 다른 데이터 출처와 통합. 그것은 SQL을 지원하고 건설 요청을위한 웹 UI를 제공합니다.
이 강사가 이끄는 라이브 훈련에서 참가자들은 데이터 분석 도구와 기본 데이터 저장소를 통합하는 레이어로 설치, 구성 및 사용하는 방법을 배울 것입니다.
이 훈련이 끝나면 참가자는 다음을 할 수 있습니다 :
Apache Accumulo은 견고하고 확장 가능한 데이터 저장 및 검색을 제공하는 정렬된 분산 키/값 저장소입니다. Google의 BigTable 디자인을 기반으로 하며 Apache Hadoop, Apache Zookeeper 및 Apache Thrift로 구동됩니다.
강사가 진행하는 이 라이브 과정에서는 Accumulo의 작동 원리를 다루며 참가자들에게 Apache Accumulo에서 샘플 애플리케이션을 개발하는 과정을 안내합니다.
과정 형식
기술의 발전과 정보의 양 증가로 인해 정부를 포함한 다양한 산업 분야에서 비즈니스 수행 방식이 변화하고 있습니다. Go 모바일 장치 및 애플리케이션, 스마트 센서 및 장치, 클라우드 컴퓨팅 솔루션, 시민 대면 포털의 급속한 성장으로 인해 정부 데이터 생성 및 디지털 보관 비율이 증가하고 있습니다. 디지털 정보가 확장되고 복잡해짐에 따라 정보 관리, 처리, 저장, 보안 및 폐기도 더욱 복잡해집니다. 새로운 캡처, 검색, 발견 및 분석 도구는 조직이 구조화되지 않은 데이터에서 통찰력을 얻는 데 도움이 됩니다. 정부 시장은 정보가 전략적 자산이며, 정부가 임무 요구 사항을 더 잘 충족하고 충족하기 위해 정형 정보와 비정형 정보를 모두 보호, 활용 및 분석해야 한다는 사실을 깨닫는 전환점에 있습니다. 정부 지도자들은 임무를 성공적으로 완수하기 위해 데이터 기반 조직을 발전시키기 위해 노력하면서 이벤트, 사람, 프로세스 및 정보 전반에 걸쳐 종속성을 상호 연관시킬 수 있는 기반을 마련하고 있습니다.
가장 파괴적인 기술의 매시업을 통해 고부가가치 정부 솔루션이 만들어질 것입니다.
모바일 장치 및 애플리케이션 클라우드 서비스 소셜 비즈니스 기술 및 네트워킹 Big Data 및 분석
IDC는 2020년까지 IT 산업 규모가 현재보다 약 1조 7000억 달러 더 많은 5조 달러에 이를 것이며, 업계 성장의 80%가 이러한 3차 플랫폼 기술에 의해 주도될 것으로 예측하고 있습니다. 장기적으로 이러한 기술은 증가하는 디지털 정보의 복잡성을 처리하는 핵심 도구가 될 것입니다. Big Data은 지능형 산업 솔루션 중 하나이며, 관련 및 비관련, 구조화 및 비구조화 등 대량의 데이터를 분석하여 밝혀진 패턴을 기반으로 정부가 조치를 취함으로써 더 나은 결정을 내릴 수 있도록 해줍니다.
그러나 이러한 성과를 달성하려면 단순히 엄청난 양의 데이터를 축적하는 것보다 훨씬 더 많은 것이 필요합니다. "이러한 볼륨을 이해하려면 방대하고 다양한 정보 스트림에서 유용한 지식을 분석하고 추출할 수 있는 최첨단 도구와 기술이 필요합니다."라고 Tom Kalil과 백악관 과학기술정책실의 Fen Zhao는 OSTP 블로그에 글을 올렸습니다.
백악관은 2012년에 국가 Big Data 연구 및 개발 이니셔티브를 설립하면서 기관들이 이러한 기술을 찾을 수 있도록 돕기 위한 조치를 취했습니다. 이 이니셔티브에는 Big Data의 폭발적인 증가를 최대한 활용하기 위한 2억 달러 이상이 포함되었으며 이를 위해 필요한 도구가 포함되었습니다. 그것을 분석하십시오.
Big Data이 제기하는 과제는 그 가능성이 고무적인 만큼 위협적입니다. 데이터를 효율적으로 저장하는 것은 이러한 과제 중 하나입니다. 늘 그렇듯 예산은 부족하므로 기관은 메가바이트당 스토리지 가격을 최소화하고 사용자가 원할 때 필요한 방식으로 데이터를 얻을 수 있도록 쉽게 액세스할 수 있는 위치에 데이터를 보관해야 합니다. 막대한 양의 데이터를 백업하면 문제가 더욱 커집니다.
데이터를 효과적으로 분석하는 것은 또 다른 주요 과제입니다. 많은 기관에서는 방대한 데이터를 조사하고 보다 효율적으로 운영하는 데 도움이 되는 추세를 파악하는 데 사용할 수 있는 상용 도구를 사용합니다. (MeriTalk의 최근 연구에 따르면 연방 IT 경영진은 Big Data이 기관이 임무 목표를 달성하는 동시에 5,000억 달러 이상을 절약하는 데 도움이 될 수 있다고 생각하는 것으로 나타났습니다.)
또한 맞춤형으로 개발된 Big Data 도구를 통해 기관은 데이터 분석 요구 사항을 해결할 수 있습니다. 예를 들어, Oak Ridge National Laboratory의 컴퓨터 데이터 분석 그룹은 Piranha 데이터 분석 시스템을 다른 기관에서 사용할 수 있도록 만들었습니다. 이 시스템은 의료 연구자들이 대동맥류가 발생하기 전에 의사에게 경고할 수 있는 링크를 찾는 데 도움이 되었습니다. 또한 이력서를 선별하여 채용 후보자와 채용 관리자를 연결하는 등 보다 일상적인 작업에도 사용됩니다.
Apache Beam은 병렬 데이터 처리 파이프라인을 정의하고 실행하기 위한 오픈 소스 통합 프로그래밍 모델입니다. 이 모델의 장점은 일괄 및 스트리밍 파이프라인을 모두 실행할 수 있는 기능이며, 실행은 Beam에서 지원하는 분산 처리 백엔드 중 하나인 Apache Apex, Apache Flink, Apache Spark, Google Cloud Dataflow에서 수행됩니다. Apache Beam은 다양한 저장 매체와 데이터 소스 간에 데이터를 이동하고, 데이터를 더 바람직한 형식으로 변환하고, 데이터를 새 시스템에 로드하는 것과 같은 ETL(추출, 변환 및 로드) 작업에 유용합니다.
강사가 진행하는 이 실시간 교육(현장 또는 원격)에서 참가자는 Java 또는 Python 애플리케이션에서 Apache Beam SDK를 구현하는 방법을 배우게 됩니다. 이 애플리케이션은 독립적이고 병렬적인 처리를 위해 큰 데이터 세트를 더 작은 청크로 분해하기 위한 데이터 처리 파이프라인을 정의합니다.
이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
Apache Beam을 설치하고 구성합니다.
Java 또는 Python 애플리케이션 내에서 일괄 처리와 스트림 처리를 모두 수행하기 위해 단일 프로그래밍 모델을 사용합니다.
1 일차 - 필수 Big Data 토픽 영역에 대한 개요를 제공합니다. 모듈은 일련의 섹션으로 나누어 져 있으며 각 섹션에는 실습이 수반됩니다.
2 일차 - Big Data 환경에 대한 분석 관행 및 도구와 관련된 다양한 주제를 탐구합니다. 구현 또는 프로그래밍 세부 사항에 포함되지는 않지만 참여자가 Big Data 솔루션에서 제공하는 일반적인 분석 기능 및 기능에 대한 포괄적 인 이해를 개발할 수 있도록하는 주제에 중점을두고 개념 수준의 범위를 유지합니다.
Day 3 - Big Data 솔루션 플랫폼 아키텍처와 관련된 기본적이고 필수적인 주제 영역의 개요를 제공합니다. Big Data 솔루션 플랫폼 개발에 필요한 Big Data 메커니즘과 데이터 처리 플랫폼을 구축하기위한 아키텍처 옵션을 다룹니다. Big Data 솔루션 플랫폼이 일반적으로 어떻게 사용되는지에 대한 기본적인 이해를 제공하기 위해 일반적인 시나리오도 제시됩니다.
4 일째 - Big Data 솔루션 플랫폼 아키텍처와 관련된 고급 주제를 탐구하여 3 일차에 구축됩니다. 특히 데이터 소스, 데이터 입력, 데이터 저장, 데이터 처리 및 보안을 비롯하여 Big Data 솔루션 플랫폼을 구성하는 다양한 아키텍처 계층을 소개하고 논의합니다.
5 일차 - 주제와 3 일과 4 일 주제에 대한 지식을 적용 할 수있는 대표자 능력을 시험하기 위해 고안된 여러 가지 연습 문제.
대한민국에서 강사가 주도하는 이 라이브 교육에서 참가자는 Big Data 기술에 접근하는 사고방식, 기존 프로세스 및 정책에 미치는 영향을 평가하는 방법, 범죄 활동을 식별하고 범죄를 예방하기 위해 이러한 기술을 구현하는 방법을 배웁니다. 전 세계 법 집행 기관의 사례 연구를 검토하여 채택 방식, 과제 및 결과에 대한 통찰력을 얻습니다. 이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
조사 중에 스토리를 조각해내기 위해 Big Data 기술을 기존 데이터 수집 프로세스와 결합합니다.
데이터 분석을 위한 산업용 빅데이터 저장 및 처리 솔루션을 구현합니다.
범죄 수사에 데이터 중심적 접근 방식을 적용하는 데 가장 적합한 도구와 프로세스를 도입하기 위한 제안을 준비하세요.
Big Data 는 대규모 데이터 세트를 저장하고 처리하기위한 솔루션을 의미하는 용어입니다. 처음에 Go ogle에 의해 개발 된이 Big Data 솔루션은 다른 유사한 프로젝트를 진화시키고 영감을주었습니다. 그 중 많은 프로젝트가 오픈 소스로 제공됩니다. R은 금융 산업에서 널리 사용되는 프로그래밍 언어입니다.
기존의 스토리지 기술이 저장해야하는 데이터 양을 처리하지 못하면 대체 솔루션이 필요합니다. 이 과정은 Big Data 를 저장하고 분석하기위한 대안이 무엇인지, 그리고 그들의 장점과 단점이 무엇인지 참가자들에게 안내하려고합니다.
이 과정은 대부분 솔루션 논의 및 발표에 중점을두고 있지만 실습은 필요에 따라 제공됩니다.
청중
액세스 권한이있는 데이터를 이해하려고하거나 Twitter, Linked in 등의 인터넷에서 사용할 수있는 구조화되지 않은 데이터를 분석하려는 경우이 과정은 사용자를위한 것입니다.
대부분의 의사 결정자와 수집 할 가치가있는 데이터와 분석 할 가치가있는 데이터를 선택해야하는 사람들을 대상으로합니다.
솔루션을 구성하는 사람들을 대상으로하는 것이 아니기 때문에 사람들은 큰 그림의 이점을 누릴 수 있습니다.
배달 모드
과정 중에 대표자는 주로 오픈 소스 기술의 실례를 제시합니다.
단기 강연은 참가자의 발표와 간단한 연습으로 이어진다.
사용 된 컨텐츠 및 소프트웨어
사용 된 모든 소프트웨어는 코스가 실행될 때마다 업데이트되므로 가능한 최신 버전을 확인합니다.
여기에는 데이터 획득, 형식 지정, 처리 및 분석, 기계 학습을 통한 의사 결정 프로세스 자동화 방법을 설명하는 프로세스가 포함됩니다.
Apache Druid 는 Java 작성된 오픈 소스, 열 중심의 분산 데이터 저장소입니다. 대량의 이벤트 데이터를 신속하게 수집하고 해당 데이터에 대해 짧은 대기 시간 OLAP 쿼리를 실행하도록 설계되었습니다. Druid는 일반적으로 비즈니스 인텔리전스 응용 프로그램에서 대량의 실시간 및 과거 데이터를 분석하는 데 사용됩니다. 또한 최종 사용자를위한 빠른 대화식 분석 대시 보드를 제공하는 데 적합합니다. Druid는 Alibaba, Airbnb, Cisco , eBay, Netflix, Paypal 및 Yahoo와 같은 회사에서 사용합니다.
이 강사 주도 라이브 코스에서 데이터웨어 하우스 솔루션의 한계를 살펴보고 Druid가 이러한 기술을 보완하여 유연하고 확장 가능한 스트리밍 분석 스택을 형성하는 방법에 대해 논의합니다. 실습 환경에서 Druid 기반 솔루션을 구현하고 테스트 할 수있는 기회를 제공하는 많은 예제를 살펴 봅니다.
코스의 형식
대한민국에서 강사가 진행하는 이 실시간 교육(온라인 또는 현장)에서는 분산 스트림 및 일괄 데이터 처리의 원리와 접근 방식을 소개하고 참가자에게 Apache Flink에서 실시간 데이터 스트리밍 애플리케이션을 만드는 방법을 안내합니다.
이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
데이터 분석 애플리케이션을 개발하기 위한 환경을 설정합니다.
Apache Flink의 그래프 처리 라이브러리(Gelly)가 어떻게 작동하는지 이해해 보세요.
Flink 기반의 내결함성 데이터 스트리밍 애플리케이션을 패키징, 실행 및 모니터링합니다.
대한민국에서 강사가 진행하는 이 실시간 교육에서 참가자는 그래프 데이터 처리를 위한 기술 제공 및 구현 방식에 대해 알아봅니다. 목표는 실제 객체, 해당 특성 및 관계를 식별한 다음 이러한 관계를 모델링하고 Graph Computing(그래프 분석이라고도 함) 방식을 사용하여 데이터로 처리하는 것입니다. 광범위한 개요로 시작하여 일련의 사례 연구, 실습 및 실시간 배포를 거치면서 특정 도구에 대해 자세히 알아봅니다.
이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
그래프 데이터가 어떻게 저장되고 탐색되는지 이해합니다.
주어진 작업에 가장 적합한 프레임워크를 선택합니다(그래프 데이터베이스부터 일괄 처리 프레임워크까지)
Hadoop, Spark, GraphX 및 Pregel을 구현하여 여러 머신에서 병렬로 그래프 컴퓨팅을 수행합니다.
ClouderaImpala는 ApacheHadoop 클러스터를 위한 오픈 소스 대규모 병렬 처리(MPP)SQL 쿼리 엔진입니다.
Impala을 사용하면 사용자는 데이터 이동이나 변환을 요구하지 않고도 Hadoop 분산 파일 시스템 및 Apache Hbase에 저장된 데이터에 대한 저지연 SQL 쿼리를 실행할 수 있습니다.
청중
본 과정은 Business 인텔리전스 또는 SQL 도구를 통해 Hadoop에 저장된 데이터에 대한 분석을 수행하는 분석가 및 데이터 과학자를 대상으로 합니다.
이 과정을 마친 후 대의원들은 다음을 수행할 수 있습니다.
Impala을 사용하여 Hadoop 클러스터에서 의미 있는 정보를 추출합니다.
Impala SQL 방언으로 Business 지능을 촉진하기 위한 특정 프로그램을 작성하십시오.
강사가 진행하는 이 대한민국 실시간 교육(현장 또는 원격)에서 참가자는 다양한 Stream Processing 프레임워크를 기존 빅 데이터 스토리지 시스템과 관련 소프트웨어 애플리케이션 및 마이크로서비스로 설정하고 통합하는 방법을 배우게 됩니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
Spark Streaming 및 Kafka Streaming과 같은 다양한 Stream Processing 프레임워크를 설치하고 구성합니다.
업무에 가장 적합한 프레임워크를 이해하고 선택하세요.
연속적으로, 동시에, 기록별로 데이터를 처리합니다.
Stream Processing 솔루션을 기존 데이터베이스, 데이터 웨어하우스, 데이터 레이크 등과 통합합니다.
가장 적합한 스트림 처리 라이브러리를 엔터프라이즈 애플리케이션 및 마이크로서비스와 통합합니다.
대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 Python을 통해 데이터 스트리밍에서 Apache Kafka 기능을 사용하려는 데이터 엔지니어, 데이터 과학자 및 프로그래머를 대상으로 합니다.
이 교육이 끝나면 참가자는 Apache Kafka을 사용하여 Python 프로그래밍을 사용하여 연속 데이터 스트림의 상태를 모니터링하고 관리할 수 있습니다.
Kafka Streams는 카프카 (Cafka) 메시징 시스템으로 데이터를주고받는 마이크로 애플리케이션을 구축하기위한 클라이언트 측 라이브러리입니다. 전통적으로 Apache Kafka 는 메시지 생성자와 소비자 간의 데이터를 처리하기 위해 Apache Spark 또는 Apache Storm 에 의존했습니다. 응용 프로그램 내에서 Kafka Streams API를 호출하면 Kafka 내에서 직접 데이터를 처리 할 수 있으므로 처리를 위해 별도의 클러스터로 데이터를 전송할 필요가 없습니다.
강사가 진행하는이 실습에서는 Kafka Streams를 스트림 처리를 위해 Apache Kafka 와 데이터를주고받는 샘플 Java 응용 프로그램 세트에 Kafka Streams를 통합하는 방법을 배우게됩니다.
이 훈련이 끝나면 참가자는 다음을 할 수 있습니다.
Kafka Streams의 기능과 다른 스트림 처리 프레임워크에 비해 장점을 이해합니다
Kafka 클러스터 내에서 스트림 데이터를 직접 처리합니다
Kafka와 Kafka Streams와 통합된 Java 또는 Scala 애플리케이션 또는 마이크로 서비스를 작성합니다
Apache Solr클라는 분산 네트워크 상에서 파일의 검색 및 인덱싱을 용이하게 해주는 분산 데이터 처리 엔진입니다.
강사가 진행하는 이 라이브 교육에서 참가자는 Amazon AWS에서 SolrCloud 인스턴스를 설정하는 방법을 알아봅니다.
이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
SolCloud의 기능을 이해하고 이것이 기존 마스터-슬레이브 클러스터의 기능과 어떻게 비교되는지 알아보세요.
대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 실시간 데이터 처리 및 분석에 Spark Streaming 기능을 사용하려는 데이터 엔지니어, 데이터 과학자 및 프로그래머를 대상으로 합니다.
이 교육이 끝나면 참가자는 Spark Streaming을 사용하여 데이터베이스, 파일 시스템 및 라이브 대시보드에서 사용할 라이브 데이터 스트림을 처리할 수 있습니다.
MLlib는 Spark의 기계 학습 (ML) 라이브러리입니다. 그 목표는 실용적인 기계 학습을 확장 가능하고 쉽게 만들어주는 것입니다. 분류, 회귀, 클러스터링, 협업 필터링, 차원 감소, 하위 레벨 최적화 프리미티브 및 상위 레벨 파이프 라인 API 등 일반적인 학습 알고리즘과 유틸리티로 구성됩니다.
두 개의 패키지로 나뉩니다.
spark.mllib는 RDD 위에 구축 된 원래 API를 포함합니다.
spark.ml은 ML 파이프 라인을 구성하기 위해 DataFrames 위에 구축 된 고급 API를 제공합니다.
청중
이 과정은 Apache Spark 용 내장 라이브러리를 활용하고자하는 엔지니어 및 개발자를 대상으로합니다.
Teradata는 널리 사용되는 관계형 Database Management 시스템 중 하나입니다. 주로 대규모 데이터웨어하우징 애플리케이션을 구축하는 데 적합합니다. Teradata는 병렬성 개념을 통해 이를 달성합니다.
이 과정에서는 대표자들에게 Teradata를 소개합니다.
ZooKeeper는 구성 정보 유지, 명명, 분산 동기화 제공, 그룹 서비스 제공을 위한 중앙 집중식 서비스입니다.
Read more...
Last Updated:
회원 평가(25)
단순히 교육 과정을 제공하는 것이 아니라 조직의 요구 사항에 맞게 교육 과정을 조정할 수 있는 교육자의 능력입니다.
Masilonyane - Revenue Services Lesotho
Course - Big Data Business Intelligence for Govt. Agencies
Machine Translated
많은 실제 사례, 동일한 문제에 접근하는 다양한 방법, 때로는 현재 솔루션을 개선하는 방법이 명확하지 않은 경우도 있습니다.
Rafal - Nordea
Course - Apache Spark MLlib
Machine Translated
트레이너가 개념을 잘 이해하고 있었습니다.
Josheel - Verizon Connect
Course - Amazon Redshift
Machine Translated
analytical functions
khusboo dassani - Tech Northwest Skillnet
Course - SQL Advanced
The live examples
Ahmet Bolat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
how the trainor shows his knowledge in the subject he's teachign
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Course - Data Vault: Building a Scalable Data Warehouse
I enjoyed the Maven training and how to configure it. I like to use Java programming language.
Robert Cost - Corning Incorporated
Course - Apache ActiveMQ
trainer's knowledge
Fatma Badi - Dubai Electricity & Water Authority
Course - Big Data - Data Science
very interactive...
Richard Langford
Course - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Course - A Practical Introduction to Stream Processing
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Course - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
Open discussion with trainer
Tomek Danowski - GE Medical Systems Polska Sp. Z O.O.
Course - Process Mining
Get to learn spark streaming , databricks and aws redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Course - Apache Spark in the Cloud
Very useful in because it helps me understand what we can do with the data in our context. It will also help me
Nicolas NEMORIN - Adecco Groupe France
Course - KNIME Analytics Platform for BI
That I had it in the first place.
Peter Scales - CACI Ltd
Course - Apache NiFi for Developers
Instructor very knowledgeable and very happy to stop and explain stuff to the group or to an individual.
Paul Anstee - Northrop Grumman
Course - Apache Accumulo Fundamentals
Nice training, full of interesting topics. After each topic helpful examples were provided.
Pawel Wojcikowski - MicroStrategy Poland Sp. z o.o.
Course - Teradata Fundamentals
practical things of doing, also theory was served good by Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Course - Hadoop Administration on MapR
practice tasks
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Course - Python and Spark for Big Data (PySpark)
Recalling/reviewing keypoints of the topics discussed.
Paolo Angelo Gaton - SMS Global Technologies Inc.
Course - Building Stream Processing Applications with Kafka Streams
The VM I liked very much
The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly
I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Course - Big Data Analytics in Health
I genuinely enjoyed the hands passed exercises.
Yunfa Zhu - Environmental and Climate Change Canada
Course - Foundation R
I generally liked the fernando's knowledge.
Valentin de Dianous - Informatique ProContact INC.
Course - Big Data Architect
Richard's training style kept it interesting, the real world examples used helped to drive the concepts home.
Jamie Martin-Royle - NBrown Group
Course - From Data to Decision with Big Data and Predictive Analytics
주말빅 데이터코스, 밤의빅 데이터트레이닝, 빅 데이터부트 캠프, 빅 데이터 강사가 가르치는, 주말빅 데이터교육, 밤의빅 데이터과정, 빅 데이터코칭, 빅 데이터강사, 빅 데이터트레이너, 빅 데이터교육 과정, 빅 데이터클래스, 빅 데이터현장, 빅 데이터개인 강좌, 빅 데이터1 대 1 교육