Python, Spark, and Hadoop for Big Data 교육 과정
Python는 데이터 과학 및 기계 학습을 위해 확장 가능하고 유연하며 널리 사용되는 프로그래밍 언어입니다. Spark는 빅데이터 쿼리, 분석, 변환에 사용되는 데이터 처리 엔진인 반면, Hadoop는 대규모 데이터 저장 및 처리를 위한 소프트웨어 라이브러리 프레임워크입니다.
이 강사가 진행하는 실시간 교육(온라인 또는 현장)은 Spark Hadoop 및 Python를 사용하고 통합하여 크고 복잡한 데이터 세트를 처리, 분석 및 변환하려는 개발자를 대상으로 합니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- Spark, Hadoop, Python를 사용하여 빅데이터 처리를 시작하는 데 필요한 환경을 설정합니다.
- Spark 및 Hadoop의 기능, 핵심 구성 요소 및 아키텍처를 이해합니다.
- 빅 데이터 처리를 위해 Spark, Hadoop 및 Python를 통합하는 방법을 알아보세요.
- Spark 에코시스템(Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka 및 Flume)의 도구를 살펴보세요.
- Netflix, YouTube, Amazon, Spotify 및 Google과 유사한 협업 필터링 추천 시스템을 구축하세요.
- Apache Mahout을 사용하여 기계 학습 알고리즘을 확장합니다.
코스의 형식
- 대화형 강의 및 토론.
- 많은 연습과 연습.
- 라이브 랩 환경에서 직접 구현합니다.
코스 맞춤화 옵션
- 이 과정에 대한 맞춤형 교육을 요청하려면 당사에 연락하여 예약하시기 바랍니다.
Course Outline
소개
- Spark 개요 및 Hadoop 기능 및 아키텍처
- 빅데이터 이해
- Python 프로그래밍 기초
시작하기
- Python, Spark 및 Hadoop 설정
- Python의 데이터 구조 이해
- PySpark API 이해
- HDFS 및 MapReduce 이해
Spark와 Hadoop을 Python와 통합
- Python에서 Spark RDD 구현
- MapReduce를 사용하여 데이터 처리
- HDFS에서 분산 데이터세트 생성
Machine Learning Spark MLlib 사용
Spark Streaming로 Big Data 처리 중
추천 시스템 작업
Kafka, Sqoop, Kafka 및 Flume을 사용한 작업
Spark 및 Hadoop을 사용하는 Apache Mahout
문제 해결
요약 및 다음 단계
Requirements
- Spark 및 경험 Hadoop
- Python 프로그래밍 경험
청중
- 데이터 과학자
- 개발자
Open Training Courses require 5+ participants.
Python, Spark, and Hadoop for Big Data 교육 과정 - Booking
Python, Spark, and Hadoop for Big Data 교육 과정 - Enquiry
Python, Spark, and Hadoop for Big Data - Consultancy Enquiry
Consultancy Enquiry
회원 평가 (3)
The fact that we were able to take with us most of the information/course/presentation/exercises done, so that we can look over them and perhaps redo what we didint understand first time or improve what we already did.
Raul Mihail Rat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
I liked that it managed to lay the foundations of the topic and go to some quite advanced exercises. Also provided easy ways to write/test the code.
Ionut Goga - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
The live examples
Ahmet Bolat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
Upcoming Courses
Related Courses
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 Hours이 과정은 애플리케이션에서 인공 지능을 이해하고 구현하려는 개발자와 데이터 과학자를 대상으로 합니다. 특히 데이터 분석, 분산 인공지능, 자연어 처리에 중점을 두고 있습니다.
Big Data Analytics with Google Colab and Apache Spark
14 Hours대한민국에서 강사가 진행하는 이 실시간 교육(온라인 또는 현장)은 Google Colab과 Apache Spark을 사용하여 빅데이터 처리 및 분석을 수행하려는 중급 수준의 데이터 과학자와 엔지니어를 대상으로 합니다.
이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
- Google Colab과 Spark를 활용하여 빅데이터 환경을 구축해 보세요.
- Apache Spark을 사용하여 대용량 데이터 세트를 효율적으로 처리하고 분석하세요.
- 협업 환경에서 빅데이터를 시각화하세요.
- Apache Spark을 클라우드 기반 도구와 통합합니다.
Big Data Analytics in Health
21 Hours빅 데이터 분석은 상관 관계, 숨겨진 패턴 및 기타 유용한 통찰력을 발굴하기 위해 대량의 다양한 데이터 세트를 검사하는 프로세스를 필요로합니다.
보건 산업은 복잡한 이기종 의학 및 임상 데이터를 가지고 있습니다. 건강 데이터에 큰 데이터 분석을 적용하면 건강 관리 제공 개선에 대한 통찰력을 얻는 데 큰 잠재력이 있습니다. 그러나 이러한 데이터 세트의 엄청난 양은 임상 환경에 대한 분석 및 실제 응용에 큰 문제를 제기합니다.
이 강사 주도의 실시간 교육 (원격)에서는 참가자가 실습 랩 연습을 단계별로 수행하면서 건강에 큰 데이터 분석을 수행하는 방법을 배웁니다.
이 훈련이 끝나면 참가자는 다음을 할 수 있습니다.
- Hadoop MapReduce 및 Spark와 같은 대규모 데이터 분석 도구 설치 및 구성
- 의료 데이터의 특성 이해
- 큰 데이터 기술을 적용하여 의료 데이터 처리
- 건강 응용 프로그램의 맥락에서 큰 데이터 시스템과 알고리즘 연구
청중
- 개발자
- 데이터 과학자
코스 형식
- 파트 강의, 파트 토론, 연습 및 무거운 실습.
노트
- 이 과정에 대한 맞춤 교육을 요청하려면 Google에 문의하여 준비하십시오.
Introduction to Graph Computing
28 Hours대한민국에서 강사가 진행하는 이 실시간 교육에서 참가자는 그래프 데이터 처리를 위한 기술 제공 및 구현 방식에 대해 알아봅니다. 목표는 실제 객체, 해당 특성 및 관계를 식별한 다음 이러한 관계를 모델링하고 Graph Computing(그래프 분석이라고도 함) 방식을 사용하여 데이터로 처리하는 것입니다. 광범위한 개요로 시작하여 일련의 사례 연구, 실습 및 실시간 배포를 거치면서 특정 도구에 대해 자세히 알아봅니다.
이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
- 그래프 데이터가 어떻게 저장되고 탐색되는지 이해합니다.
- 주어진 작업에 가장 적합한 프레임워크를 선택합니다(그래프 데이터베이스부터 일괄 처리 프레임워크까지)
- Hadoop, Spark, GraphX 및 Pregel을 구현하여 여러 머신에서 병렬로 그래프 컴퓨팅을 수행합니다.
- 그래프, 프로세스, 탐색을 통해 실제 빅데이터 문제를 살펴보세요.
Hadoop and Spark for Administrators
35 Hours대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 조직 내에서 Hadoop 클러스터를 설정, 배포 및 관리하는 방법을 배우려는 시스템 관리자를 대상으로 합니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- Apache Hadoop을 설치하고 구성합니다.
- Hadoop 생태계의 네 가지 주요 구성 요소인 HDFS, MapReduce, YARN 및 Hadoop Common을 이해합니다.
- HDFS(Hadoop 분산 파일 시스템)를 사용하여 클러스터를 수백 또는 수천 개의 노드로 확장합니다.
- 온프레미스 Spark 배포를 위한 스토리지 엔진으로 작동하도록 HDFS를 설정합니다.
- Redis, Elasticsearch, Couchbase, Aerospike 등과 같은 Amazon S3 및 NoSQL 데이터베이스 시스템과 같은 대체 스토리지 솔루션에 액세스하도록 Spark를 설정하십시오.
- Apache Hadoop 클러스터 프로비저닝, 관리, 모니터링 및 보안과 같은 관리 작업을 수행합니다.
Hortonworks Data Platform (HDP) for Administrators
21 Hours대한민국에서 강사가 진행하는 이 실시간 교육(온라인 또는 현장)에서는 Hortonworks Data Platform (HDP)을 소개하고 참가자에게 Spark + Hadoop 솔루션 배포 과정을 안내합니다.
이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
- Hortonworks를 사용하여 대규모로 Hadoop을 안정적으로 실행하세요.
- Spark의 민첩한 분석 워크플로우를 통해 Hadoop의 보안, 거버넌스 및 운영 기능을 통합합니다.
- Hortonworks를 사용하여 Spark 프로젝트의 각 구성 요소를 조사, 검증, 인증하고 지원합니다.
- 구조화된 데이터, 구조화되지 않은 데이터, 전송 중 데이터, 저장 중 데이터를 포함한 다양한 유형의 데이터를 처리합니다.
Data Analysis with Hive/HiveQL
7 Hours이 과정은 사용하는 방법에 대해 설명 Hive SQL 언어를 (일명 : Hive HQL, SQL 에 Hive , Hive QL)에서 데이터를 추출하는 사람들을위한 Hive
Impala for Business Intelligence
21 HoursClouderaImpala는 ApacheHadoop 클러스터를 위한 오픈 소스 대규모 병렬 처리(MPP)SQL 쿼리 엔진입니다.
Impala을 사용하면 사용자는 데이터 이동이나 변환을 요구하지 않고도 Hadoop 분산 파일 시스템 및 Apache Hbase에 저장된 데이터에 대한 저지연 SQL 쿼리를 실행할 수 있습니다.
청중
본 과정은 Business 인텔리전스 또는 SQL 도구를 통해 Hadoop에 저장된 데이터에 대한 분석을 수행하는 분석가 및 데이터 과학자를 대상으로 합니다.
이 과정을 마친 후 대의원들은 다음을 수행할 수 있습니다.
- Impala을 사용하여 Hadoop 클러스터에서 의미 있는 정보를 추출합니다.
- Impala SQL 방언으로 Business 지능을 촉진하기 위한 특정 프로그램을 작성하십시오.
- 문제 해결 Impala.
A Practical Introduction to Stream Processing
21 Hours강사가 진행하는 이 대한민국 실시간 교육(현장 또는 원격)에서 참가자는 다양한 Stream Processing 프레임워크를 기존 빅 데이터 스토리지 시스템과 관련 소프트웨어 애플리케이션 및 마이크로서비스로 설정하고 통합하는 방법을 배우게 됩니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- Spark Streaming 및 Kafka Streaming과 같은 다양한 Stream Processing 프레임워크를 설치하고 구성합니다.
- 업무에 가장 적합한 프레임워크를 이해하고 선택하세요.
- 연속적으로, 동시에, 기록별로 데이터를 처리합니다.
- Stream Processing 솔루션을 기존 데이터베이스, 데이터 웨어하우스, 데이터 레이크 등과 통합합니다.
- 가장 적합한 스트림 처리 라이브러리를 엔터프라이즈 애플리케이션 및 마이크로서비스와 통합합니다.
SMACK Stack for Data Science
14 Hours대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 SMACK 스택을 사용하여 빅 데이터 솔루션용 데이터 처리 플랫폼을 구축하려는 데이터 과학자를 대상으로 합니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- 빅데이터 처리를 위한 데이터 파이프라인 아키텍처를 구현합니다.
- Apache Mesos 및 Docker를 사용하여 클러스터 인프라를 개발합니다.
- Spark 및 Scala을 사용하여 데이터를 분석합니다.
- Apache Cassandra를 사용하여 구조화되지 않은 데이터를 관리하세요.
Apache Spark Fundamentals
21 Hours대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 매우 많은 양의 데이터를 처리하기 위해 Apache Spark 시스템을 설정하고 배포하려는 엔지니어를 대상으로 합니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- Apache Spark를 설치하고 구성합니다.
- 매우 큰 데이터 세트를 신속하게 처리하고 분석합니다.
- Apache Spark와 Hadoop MapReduce의 차이점과 언제 어느 것을 사용해야 하는지 이해합니다.
- Apache Spark를 다른 기계 학습 도구와 통합합니다.
Administration of Apache Spark
35 Hours대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 Spark 클러스터를 배포, 유지 관리 및 최적화하려는 초급 및 중급 시스템 관리자를 대상으로 합니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- 다양한 환경에서 Apache Spark을 설치하고 구성합니다.
- 클러스터 리소스를 관리하고 Spark 애플리케이션을 모니터링합니다.
- Spark 클러스터의 성능을 최적화합니다.
- 보안 조치를 구현하고 고가용성을 보장합니다.
- 일반적인 Spark 문제를 디버그하고 해결합니다.
Python and Spark for Big Data (PySpark)
21 Hours이 강사가 진행하는 대한민국 실시간 교육에서 참가자는 실습을 하면서 Python와 Spark를 함께 사용하여 빅 데이터를 분석하는 방법을 배웁니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- Python와 함께 Spark를 사용하여 Big Data을 분석하는 방법을 알아보세요.
- 실제 사례를 모방한 연습을 해보세요.
- PySpark을 사용하여 빅데이터 분석을 위한 다양한 도구와 기술을 사용합니다.
Apache Spark MLlib
35 HoursMLlib는 Spark의 기계 학습 (ML) 라이브러리입니다. 그 목표는 실용적인 기계 학습을 확장 가능하고 쉽게 만들어주는 것입니다. 분류, 회귀, 클러스터링, 협업 필터링, 차원 감소, 하위 레벨 최적화 프리미티브 및 상위 레벨 파이프 라인 API 등 일반적인 학습 알고리즘과 유틸리티로 구성됩니다.
두 개의 패키지로 나뉩니다.
spark.mllib는 RDD 위에 구축 된 원래 API를 포함합니다.
spark.ml은 ML 파이프 라인을 구성하기 위해 DataFrames 위에 구축 된 고급 API를 제공합니다.
청중
이 과정은 Apache Spark 용 내장 라이브러리를 활용하고자하는 엔지니어 및 개발자를 대상으로합니다.