Hadoop and Spark for Administrators 교육 과정
Apache Hadoop는 많은 컴퓨터를 통해 큰 데이터 세트를 처리하기위한 인기있는 데이터 처리 프레임 워크입니다.
이 강사가 이끄는 라이브 훈련 (온라인 또는 온라인)은 조직 내에서 Hadoop 클러스터를 설정, 배치 및 관리하는 방법을 배우고자하는 시스템 관리자를 대상으로합니다.
이 훈련이 끝나면 참가자는 다음을 할 수 있습니다 :
- Apache를 설치하고 설정하십시오 Hadoop
- Hadoop 생태계의 네 가지 주요 구성 요소를 이해하십시오 : HDFS, MapReduce, YARN 및 Hadoop Common.
- Hadoop 분산 파일 시스템 (HDFS)을 사용하여 클러스터를 수백 또는 수천 개의 노드로 확장합니다.   ·
- HDFS를 설치하여 사전 Spark 배포를 위한 스토리지 엔진으로 작동합니다.
- Spark를 설정하여 Amazon S3 및 NoSQL 데이터베이스 시스템과 같은 대체 저장 솔루션에 액세스할 수 있습니다 Redis, Elasticsearch, Couchbase, Aerospike 등.
- Apache Hadoop 클러스터의 공급, 관리, 모니터링 및 보안과 같은 관리 작업을 수행합니다.
코스의 형식
- 인터랙티브 강의 및 토론
- 많은 연습과 연습이 있습니다.
- 라이브 실험실 환경에서 핸드-온 구현.
코스 Customization 옵션
- 이 과정에 대한 사용자 지정 훈련을 요청하려면 저희에게 연락하여 배치하십시오.
Course Outline
소개
- Cloud Computing 및 Big Data 솔루션 소개
- Apache Hadoop 기능 및 아키텍처 개요
설정 Hadoop
- Hadoop 클러스터 계획(온프레미스, 클라우드 등)
- OS 및 Hadoop 배포판 선택
- 리소스 프로비저닝(하드웨어, 네트워크 등)
- 소프트웨어 다운로드 및 설치
- 유연성을 위해 클러스터 크기 조정
HDFS 작업
- Hadoop 분산 파일 시스템(HDFS) 이해
- HDFS 명령 참조 개요
- AccessHDFS 중
- HDFS에서 기본 파일 작업 수행
- S3를 HDFS의 보완재로 사용
맵리듀스 개요
- MapReduce 프레임워크의 데이터 흐름 이해
- 매핑, 셔플, 정렬 및 축소
- 데모: 최고 급여 계산
YARN 작업
- Hadoop의 리소스 관리 이해
- ResourceManager, NodeManager, 애플리케이션 마스터 작업
- YARN에서 작업 예약
- 다수의 노드 및 클러스터에 대한 예약
- 데모: 작업 예약
Hadoop을 Spark와 통합
- Spark용 스토리지 설정(HDFS, Amazon, S3, NoSQL 등)
- 탄력적인 분산 데이터 세트(RDD) 이해
- RDD 생성
- RDD 변환 구현
- 데모: 영화 제목을 위한 텍스트 Search 프로그램 구현
Hadoop 클러스터 관리
- 모니터링 Hadoop
- Hadoop 클러스터 보안
- 노드 추가 및 제거
- 성능 벤치마크 실행
- 성능 최적화를 위해 Hadoop 클러스터 조정
- 백업, 복구 및 비즈니스 연속성 계획
- 고가용성(HA) 보장
Hadoop 클러스터 업그레이드 및 마이그레이션
- 워크로드 요구 사항 평가
- 업그레이드 중 Hadoop
- 온프레미스에서 클라우드로 또는 그 반대로 이동
- 오류 복구
문제 해결
요약 및 결론
Requirements
- 시스템 관리 경험
- Linux 명령줄 사용 경험
- 빅데이터 개념에 대한 이해
청중
- 시스템 관리자
- DBA
Open Training Courses require 5+ participants.
Hadoop and Spark for Administrators 교육 과정 - Booking
Hadoop and Spark for Administrators 교육 과정 - Enquiry
Hadoop and Spark for Administrators - Consultancy Enquiry
Consultancy Enquiry
회원 평가 (5)
많은 실제 사례, 동일한 문제에 접근하는 다양한 방법, 때로는 현재 솔루션을 개선하는 방법이 명확하지 않은 경우도 있습니다.
Rafal - Nordea
Course - Apache Spark MLlib
Machine Translated
very interactive...
Richard Langford
Course - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Course - A Practical Introduction to Stream Processing
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
Get to learn spark streaming , databricks and aws redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Course - Apache Spark in the Cloud
Upcoming Courses
Related Courses
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 Hours이 과정은 애플리케이션에서 인공 지능을 이해하고 구현하려는 개발자와 데이터 과학자를 대상으로 합니다. 특히 데이터 분석, 분산 인공지능, 자연어 처리에 중점을 두고 있습니다.
Big Data Analytics with Google Colab and Apache Spark
14 Hours대한민국에서 강사가 진행하는 이 실시간 교육(온라인 또는 현장)은 Google Colab과 Apache Spark을 사용하여 빅데이터 처리 및 분석을 수행하려는 중급 수준의 데이터 과학자와 엔지니어를 대상으로 합니다.
이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
- Google Colab과 Spark를 활용하여 빅데이터 환경을 구축해 보세요.
- Apache Spark을 사용하여 대용량 데이터 세트를 효율적으로 처리하고 분석하세요.
- 협업 환경에서 빅데이터를 시각화하세요.
- Apache Spark을 클라우드 기반 도구와 통합합니다.
Big Data Analytics in Health
21 Hours빅 데이터 분석은 상관 관계, 숨겨진 패턴 및 기타 유용한 통찰력을 발굴하기 위해 대량의 다양한 데이터 세트를 검사하는 프로세스를 필요로합니다.
보건 산업은 복잡한 이기종 의학 및 임상 데이터를 가지고 있습니다. 건강 데이터에 큰 데이터 분석을 적용하면 건강 관리 제공 개선에 대한 통찰력을 얻는 데 큰 잠재력이 있습니다. 그러나 이러한 데이터 세트의 엄청난 양은 임상 환경에 대한 분석 및 실제 응용에 큰 문제를 제기합니다.
이 강사 주도의 실시간 교육 (원격)에서는 참가자가 실습 랩 연습을 단계별로 수행하면서 건강에 큰 데이터 분석을 수행하는 방법을 배웁니다.
이 훈련이 끝나면 참가자는 다음을 할 수 있습니다.
- Hadoop MapReduce 및 Spark와 같은 대규모 데이터 분석 도구 설치 및 구성
- 의료 데이터의 특성 이해
- 큰 데이터 기술을 적용하여 의료 데이터 처리
- 건강 응용 프로그램의 맥락에서 큰 데이터 시스템과 알고리즘 연구
청중
- 개발자
- 데이터 과학자
코스 형식
- 파트 강의, 파트 토론, 연습 및 무거운 실습.
노트
- 이 과정에 대한 맞춤 교육을 요청하려면 Google에 문의하여 준비하십시오.
Introduction to Graph Computing
28 Hours대한민국에서 강사가 진행하는 이 실시간 교육에서 참가자는 그래프 데이터 처리를 위한 기술 제공 및 구현 방식에 대해 알아봅니다. 목표는 실제 객체, 해당 특성 및 관계를 식별한 다음 이러한 관계를 모델링하고 Graph Computing(그래프 분석이라고도 함) 방식을 사용하여 데이터로 처리하는 것입니다. 광범위한 개요로 시작하여 일련의 사례 연구, 실습 및 실시간 배포를 거치면서 특정 도구에 대해 자세히 알아봅니다.
이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
- 그래프 데이터가 어떻게 저장되고 탐색되는지 이해합니다.
- 주어진 작업에 가장 적합한 프레임워크를 선택합니다(그래프 데이터베이스부터 일괄 처리 프레임워크까지)
- Hadoop, Spark, GraphX 및 Pregel을 구현하여 여러 머신에서 병렬로 그래프 컴퓨팅을 수행합니다.
- 그래프, 프로세스, 탐색을 통해 실제 빅데이터 문제를 살펴보세요.
Hortonworks Data Platform (HDP) for Administrators
21 Hours대한민국에서 강사가 진행하는 이 실시간 교육(온라인 또는 현장)에서는 Hortonworks Data Platform (HDP)을 소개하고 참가자에게 Spark + Hadoop 솔루션 배포 과정을 안내합니다.
이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
- Hortonworks를 사용하여 대규모로 Hadoop을 안정적으로 실행하세요.
- Spark의 민첩한 분석 워크플로우를 통해 Hadoop의 보안, 거버넌스 및 운영 기능을 통합합니다.
- Hortonworks를 사용하여 Spark 프로젝트의 각 구성 요소를 조사, 검증, 인증하고 지원합니다.
- 구조화된 데이터, 구조화되지 않은 데이터, 전송 중 데이터, 저장 중 데이터를 포함한 다양한 유형의 데이터를 처리합니다.
Data Analysis with Hive/HiveQL
7 Hours이 과정은 사용하는 방법에 대해 설명 Hive SQL 언어를 (일명 : Hive HQL, SQL 에 Hive , Hive QL)에서 데이터를 추출하는 사람들을위한 Hive
Impala for Business Intelligence
21 HoursClouderaImpala는 ApacheHadoop 클러스터를 위한 오픈 소스 대규모 병렬 처리(MPP)SQL 쿼리 엔진입니다.
Impala을 사용하면 사용자는 데이터 이동이나 변환을 요구하지 않고도 Hadoop 분산 파일 시스템 및 Apache Hbase에 저장된 데이터에 대한 저지연 SQL 쿼리를 실행할 수 있습니다.
청중
본 과정은 Business 인텔리전스 또는 SQL 도구를 통해 Hadoop에 저장된 데이터에 대한 분석을 수행하는 분석가 및 데이터 과학자를 대상으로 합니다.
이 과정을 마친 후 대의원들은 다음을 수행할 수 있습니다.
- Impala을 사용하여 Hadoop 클러스터에서 의미 있는 정보를 추출합니다.
- Impala SQL 방언으로 Business 지능을 촉진하기 위한 특정 프로그램을 작성하십시오.
- 문제 해결 Impala.
A Practical Introduction to Stream Processing
21 Hours강사가 진행하는 이 대한민국 실시간 교육(현장 또는 원격)에서 참가자는 다양한 Stream Processing 프레임워크를 기존 빅 데이터 스토리지 시스템과 관련 소프트웨어 애플리케이션 및 마이크로서비스로 설정하고 통합하는 방법을 배우게 됩니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- Spark Streaming 및 Kafka Streaming과 같은 다양한 Stream Processing 프레임워크를 설치하고 구성합니다.
- 업무에 가장 적합한 프레임워크를 이해하고 선택하세요.
- 연속적으로, 동시에, 기록별로 데이터를 처리합니다.
- Stream Processing 솔루션을 기존 데이터베이스, 데이터 웨어하우스, 데이터 레이크 등과 통합합니다.
- 가장 적합한 스트림 처리 라이브러리를 엔터프라이즈 애플리케이션 및 마이크로서비스와 통합합니다.
SMACK Stack for Data Science
14 Hours대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 SMACK 스택을 사용하여 빅 데이터 솔루션용 데이터 처리 플랫폼을 구축하려는 데이터 과학자를 대상으로 합니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- 빅데이터 처리를 위한 데이터 파이프라인 아키텍처를 구현합니다.
- Apache Mesos 및 Docker를 사용하여 클러스터 인프라를 개발합니다.
- Spark 및 Scala을 사용하여 데이터를 분석합니다.
- Apache Cassandra를 사용하여 구조화되지 않은 데이터를 관리하세요.
Apache Spark Fundamentals
21 Hours대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 매우 많은 양의 데이터를 처리하기 위해 Apache Spark 시스템을 설정하고 배포하려는 엔지니어를 대상으로 합니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- Apache Spark를 설치하고 구성합니다.
- 매우 큰 데이터 세트를 신속하게 처리하고 분석합니다.
- Apache Spark와 Hadoop MapReduce의 차이점과 언제 어느 것을 사용해야 하는지 이해합니다.
- Apache Spark를 다른 기계 학습 도구와 통합합니다.
Administration of Apache Spark
35 Hours대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 Spark 클러스터를 배포, 유지 관리 및 최적화하려는 초급 및 중급 시스템 관리자를 대상으로 합니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- 다양한 환경에서 Apache Spark을 설치하고 구성합니다.
- 클러스터 리소스를 관리하고 Spark 애플리케이션을 모니터링합니다.
- Spark 클러스터의 성능을 최적화합니다.
- 보안 조치를 구현하고 고가용성을 보장합니다.
- 일반적인 Spark 문제를 디버그하고 해결합니다.
Apache Spark in the Cloud
21 HoursApache Spark 의 학습 곡선은 처음에 천천히 증가하고 있습니다. 첫 번째 수익을 얻으려면 많은 노력이 필요합니다. 이 과정은 첫 힘든 부분을 뛰어 넘는 것을 목표로합니다. 이 과정을 수강 한 참가자는 Apache Spark 의 기본 사항을 이해하고, RDD를 DataFrame과 명확하게 구분하고, Python 및 Scala API를 배우며, 실행 프로그램 및 작업 등을 이해합니다. 또한 우수 사례에 따라 강의에 중점을 둡니다. 클라우드 배포, Databricks 및 AWS. 학생들은 또한 AWS의 최신 Spark 서비스 중 하나 인 AWS EMR과 AWS Glue의 차이점을 이해합니다.
청중:
데이터 엔지니어, DevOps , 데이터 과학자
Python and Spark for Big Data (PySpark)
21 Hours이 강사가 진행하는 대한민국 실시간 교육에서 참가자는 실습을 하면서 Python와 Spark를 함께 사용하여 빅 데이터를 분석하는 방법을 배웁니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- Python와 함께 Spark를 사용하여 Big Data을 분석하는 방법을 알아보세요.
- 실제 사례를 모방한 연습을 해보세요.
- PySpark을 사용하여 빅데이터 분석을 위한 다양한 도구와 기술을 사용합니다.
Apache Spark MLlib
35 HoursMLlib는 Spark의 기계 학습 (ML) 라이브러리입니다. 그 목표는 실용적인 기계 학습을 확장 가능하고 쉽게 만들어주는 것입니다. 분류, 회귀, 클러스터링, 협업 필터링, 차원 감소, 하위 레벨 최적화 프리미티브 및 상위 레벨 파이프 라인 API 등 일반적인 학습 알고리즘과 유틸리티로 구성됩니다.
두 개의 패키지로 나뉩니다.
spark.mllib는 RDD 위에 구축 된 원래 API를 포함합니다.
spark.ml은 ML 파이프 라인을 구성하기 위해 DataFrames 위에 구축 된 고급 API를 제공합니다.
청중
이 과정은 Apache Spark 용 내장 라이브러리를 활용하고자하는 엔지니어 및 개발자를 대상으로합니다.