SMACK Stack for Data Science 교육 과정
SMACK는 데이터 플랫폼 소프트웨어의 컬렉션입니다, 즉 Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, 및 Apache Kafka. SMACK 스택을 사용하면 사용자가 데이터 처리 플랫폼을 만들고 확장할 수 있습니다.
이 강사가 이끄는, 라이브 훈련 (온라인 또는 온라인)은 큰 데이터 솔루션을위한 데이터 처리 플랫폼을 구축하기 위해 SMACK 스택을 사용하고자하는 데이터 과학자를 대상으로합니다.
이 훈련이 끝나면 참가자는 다음을 할 수 있습니다 :
- 큰 데이터를 처리하기위한 데이터 파이프 라인 아키텍처를 구현합니다.
- [중고] [중고] [중고] [중고] [중고] [중고] [중고] [중고] [중고] [중고] [중고] [중고]
- Spark 및 Scala로 데이터를 분석합니다.
- Apache를 사용하여 구조화되지 않은 데이터를 관리합니다 Cassandra.
코스의 형식
- 인터랙티브 강의 및 토론
- 많은 연습과 연습이 있습니다.
- 라이브 실험실 환경에서 핸드-온 구현.
코스 Customization 옵션
- 이 과정에 대한 사용자 지정 훈련을 요청하려면 저희에게 연락하여 배치하십시오.
Course Outline
소개
SMACK 스택 개요
- Apache Spark이란 무엇입니까? Apache Spark 특징
- Apache Mesos란 무엇인가요? Apache Mesos 특징
- 아파치Akka란 무엇인가요? 아파치 Akka 기능
- 아파치Cassandra란 무엇입니까? 아파치 Cassandra 기능
- Apache Kafka은 무엇입니까? Apache Kafka 특징
Scala 언어
- Scala 구문과 구조
- Scala 제어 흐름
개발 환경 준비
- SMACK 스택 설치 및 구성
- 설치 및 구성 Docker
아파치 Akka
- 액터 사용
아파치 Cassandra
- 읽기 작업을 위한 데이터베이스 만들기
- 백업 및 복구 작업
커넥터
- 스트림 만들기
- Akka 애플리케이션 구축
- Cassandra로 데이터 저장하기
- 커넥터 검토
Apache Kafka
- 클러스터 작업
- 메시지 생성, 게시 및 소비
Apache Mesos
- 자원 할당
- 클러스터 실행
- Apache Aurora 및 Docker 작업
- 서비스 및 작업 실행
- Mesos에 Spark, Cassandra 및 Kafka 배포
[삼]
- 데이터 흐름 관리
- RDD 및 데이터프레임 작업
- 데이터 분석 수행
문제 해결
- 서비스 실패 및 오류 처리
요약 및 결론
Requirements
- 데이터 처리 시스템에 대한 이해
청중
- 데이터 과학자
Open Training Courses require 5+ participants.
SMACK Stack for Data Science 교육 과정 - Booking
SMACK Stack for Data Science 교육 과정 - Enquiry
SMACK Stack for Data Science - Consultancy Enquiry
Consultancy Enquiry
회원 평가 (1)
very interactive...
Richard Langford
Course - SMACK Stack for Data Science
Upcoming Courses
Related Courses
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 Hours이 과정은 애플리케이션에서 인공 지능을 이해하고 구현하려는 개발자와 데이터 과학자를 대상으로 합니다. 특히 데이터 분석, 분산 인공지능, 자연어 처리에 중점을 두고 있습니다.
Anaconda Ecosystem for Data Scientists
14 Hours대한민국에서 강사가 진행하는 이 라이브 교육(온라인 또는 현장)은 단일 플랫폼에서 패키지 및 데이터 분석 워크플로를 캡처, 관리, 배포하기 위해 Anaconda 에코시스템을 사용하려는 데이터 과학자를 대상으로 합니다.
이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
- Anaconda개의 구성 요소와 라이브러리를 설치하고 구성합니다.
- Anaconda의 핵심 개념, 기능 및 이점을 이해하세요.
- Anaconda Navigator를 사용하여 패키지, 환경 및 채널을 관리하세요.
- 데이터 과학 및 머신 러닝에는 Conda, R 및 Python 패키지를 사용합니다.
- 여러 데이터 환경을 관리하기 위한 몇 가지 실제 사용 사례와 기술을 알아보세요.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 Hours리뷰 보기
Communication의 서비스 제공 업체 (CSP)는 비용을 줄이고 사용자당 평균 수입 (ARPU)을 최대화하는 데 압박을 받고 있으며, 동시에 훌륭한 고객 경험을 보장하지만 데이터 볼륨은 계속 증가합니다. 글로벌 모바일 데이터 트래픽은 2016 년에 합성 연간 성장률 (CAGR)으로 성장하여 매월 10.8 exabytes에 도달 할 것입니다.
한편, CSP는 전화 세부 사항 기록 (CDR), 네트워크 데이터 및 고객 데이터를 포함하여 큰 양의 데이터를 생성하고 있습니다. 이 데이터를 완전히 활용하는 회사는 경쟁력있는 경계를 얻습니다. The Economist Intelligence Unit의 최근 설문 조사에 따르면 데이터 지향적 인 의사 결정을 사용하는 회사는 생산성 증가 5-6 %를 누리고 있습니다. 그럼에도 불구하고 회사의 53 %는 귀중한 데이터의 절반만 사용하고 있으며 응답자의 4 분의 1은 유용한 데이터의 엄청난 양이 실패한다고 지적했습니다. 데이터 볼륨은 너무 높아서 수동 분석은 불가능하며 대부분의 유산 소프트웨어 시스템은 유지할 수 없으며 귀중한 데이터가 무시되거나 무시됩니다.
Big Data & Analytics’ 고속, 확장 가능한 대형 데이터 소프트웨어로, CSP는 더 적은 시간 내에 더 나은 의사 결정을 위해 모든 데이터를 광산 할 수 있습니다. 다른 Big Data 제품 및 기술은 대형 데이터에 대한 인식을 수집, 준비, 분석 및 제시하기위한 최종 소프트웨어 플랫폼을 제공합니다. 응용 분야에는 네트워크 성과 모니터링, 사기 탐지, 고객 탐지 및 신용 위험 분석이 포함됩니다. Big Data & 분석 제품 스케일 데이터 테라비트를 처리하지만 이러한 도구의 구현은 클라우드 기반 데이터베이스 시스템의 새로운 유형을 필요로 Hadoop 또는 대규모 스케일 병렬 컴퓨팅 프로세서 (KPU 등)
이 과정은 Telco를위한 Big Data BI에서 작동하며 CSP가 생산성을 향상시키고 새로운 비즈니스 수입 흐름을 열기 위해 투자하는 모든 새로 나타나는 영역을 다루고 있습니다. 이 과정은 Telco에서 Big Data BI의 전체 360 학점을 제공하여 의사 결정자와 관리자가 생산성과 수익을 위해 Telco에서 Big Data BI의 가능성에 대한 매우 광범위하고 포괄적 인 통찰력을 가질 수 있도록합니다.
코스 목표
이 과정의 주요 목적은 Telecom Business의 4 분야에서 새로운 Big Data 비즈니스 인텔리전스 기술을 소개하는 것입니다 (Marketing/판매, 네트워크 운영, 금융 운영 및 고객 관계 Management). 학생들은 다음과 같이 소개됩니다 :
- 소개 Big Data-어떻게 4Vs (량, 속도, 다양성 및 진실성)에서 Big Data- 텔코 관점에서 생성, 추출 및 관리
- 어떻게 Big Data 분석은 유산 데이터 분석과 다릅니다
- 내부 정당화 Big Data -Telco 관점
- Hadoop 생태계에 대한 소개 - Hive, 돼지, SPARC와 같은 모든 Hadoop 도구에 대한 인식, 언제 그리고 어떻게 그들이 문제를 해결하는 데 사용되는지 Big Data
- 어떻게 Big Data 분석을 위해 추출되는 분석 도구-어떻게 Business Analysis’s 통증 포인트 수집 및 데이터 분석을 통합 Hadoop 다이어트 접근 방식을 통해 줄일 수 있는지
- Telco에 대한 Insight 분석, 시각화 분석 및 예측 분석의 기본 소개
- 고객 Churn 분석 및 Big Data-how Big Data 분석은 Telco 사례 연구에서 고객 Churn 및 고객 불만을 줄일 수 있습니다.
- 네트워크 실패 및 서비스 실패 분석 네트워크 메타 데이터 및 IPDR
- 금융 분석 - 사기, 납치 및 판매 및 운영 데이터에서 ROI 추정
- 고객 인수 문제-목표 마케팅, 고객 분류 및 판매 데이터의 크로스 판매
- 소개 및 모든 Big Data 분석 제품의 요약 및 그들이 Telco 분석 공간에 적합한 곳
- 결론 - 조직에 소개하기 위해 단계별 접근 방식을 취하는 방법 Big Data Business Intelligence
목표 관객
- 네트워크 운영, 금융 관리자, CRM 관리자 및 Telco CIO 사무실의 최고 IT 관리자.
- Business 텔코의 분석가
- CFO 사무실 관리자 / 분석가
- 운영 관리자
- QA 관리자
Data Science Programme
245 Hours오늘날 세계에서 정보와 데이터의 폭발적인 증가는 비교할 수 없을 만큼 증가하고 있으며, 혁신하고 가능성의 경계를 넓히는 우리의 능력은 그 어느 때보다 빠르게 성장하고 있습니다. 데이터 과학자의 역할은 오늘날 업계 전반에 걸쳐 가장 수요가 많은 기술 중 하나입니다.
우리는 이론을 통한 학습 이상의 것을 제공합니다. 우리는 학계와 산업계의 요구 사이의 격차를 해소하는 실용적이고 시장성이 있는 기술을 제공합니다.
이 7주 커리큘럼은 귀하의 특정 산업 요구 사항에 맞게 맞춤화될 수 있습니다. 자세한 내용은 당사에 문의하거나 Nobleprog Institute 웹사이트를 방문하십시오.
청중:
이 프로그램은 졸업 후 졸업생뿐만 아니라 평가와 인터뷰를 통해 결정되는 필수 사전 필수 기술을 갖춘 모든 사람을 대상으로 합니다.
배달:
이 과정은 강사가 진행하는 강의실과 강사가 진행하는 온라인이 혼합되어 제공됩니다. 일반적으로 첫 번째 주는 '교실 주도', 2~6주차는 '가상 교실', 7주차는 다시 '교실 주도'입니다.
Data Science for Big Data Analytics
35 Hours빅 데이터는 너무 방대하고 복잡한 데이터 세트로 전통적인 데이터 처리 응용 프로그램 소프트웨어가 처리하기에 부적합합니다. 큰 데이터 문제로는 데이터 캡처, 데이터 저장, 데이터 분석, 검색, 공유, 전송, 시각화, 쿼리, 업데이트 및 정보 프라이버시가 있습니다.
Introduction to Graph Computing
28 Hours대한민국에서 강사가 진행하는 이 실시간 교육에서 참가자는 그래프 데이터 처리를 위한 기술 제공 및 구현 방식에 대해 알아봅니다. 목표는 실제 객체, 해당 특성 및 관계를 식별한 다음 이러한 관계를 모델링하고 Graph Computing(그래프 분석이라고도 함) 방식을 사용하여 데이터로 처리하는 것입니다. 광범위한 개요로 시작하여 일련의 사례 연구, 실습 및 실시간 배포를 거치면서 특정 도구에 대해 자세히 알아봅니다.
이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
- 그래프 데이터가 어떻게 저장되고 탐색되는지 이해합니다.
- 주어진 작업에 가장 적합한 프레임워크를 선택합니다(그래프 데이터베이스부터 일괄 처리 프레임워크까지)
- Hadoop, Spark, GraphX 및 Pregel을 구현하여 여러 머신에서 병렬로 그래프 컴퓨팅을 수행합니다.
- 그래프, 프로세스, 탐색을 통해 실제 빅데이터 문제를 살펴보세요.
Jupyter for Data Science Teams
7 HoursThis instructor-led, live training in 대한민국 (online or onsite) introduces the idea of collaborative development in data science and demonstrates how to use Jupyter to track and participate as a team in the "life cycle of a computational idea". It walks participants through the creation of a sample data science project based on top of the Jupyter ecosystem.
By the end of this training, participants will be able to:
- Install and configure Jupyter, including the creation and integration of a team repository on Git.
- Use Jupyter features such as extensions, interactive widgets, multiuser mode and more to enable project collaboraton.
- Create, share and organize Jupyter Notebooks with team members.
- Choose from Scala, Python, R, to write and execute code against big data systems such as Apache Spark, all through the Jupyter interface.
Kaggle
14 Hours대한민국에서 강사가 진행하는 이 실시간 교육(온라인 또는 현장)은 Kaggle을 사용하여 Data Science에서 학습하고 경력을 쌓고자 하는 데이터 과학자와 개발자를 대상으로 합니다.
이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
- 데이터 과학과 머신러닝에 대해 알아보세요.
- 데이터 분석을 살펴보세요.
- Kaggle에 대해 알아보고 작동 방식을 알아보세요.
MATLAB Fundamentals, Data Science & Report Generation
35 Hours이 교육의 첫 번째 부분에서는 MATLAB의 기본 사항과 언어 및 플랫폼으로서의 기능을 다룹니다. 이 토론에는 MATLAB 구문, 배열 및 행렬, 데이터 시각화, 스크립트 개발 및 객체 지향 원칙에 대한 소개가 포함되어 있습니다.
두 번째 부분에서는 데이터 마이닝, 기계 학습 및 예측 분석에 MATLAB을 사용하는 방법을 보여줍니다. 참가자들에게 MATLAB의 접근 방식과 성능에 대한 명확하고 실용적인 관점을 제공하기 위해 MATLAB을 사용하는 것과 스프레드시트, C, C++ 및 Visual Basic과 같은 다른 도구를 사용하는 것을 비교합니다.
교육의 세 번째 부분에서 참가자는 데이터 처리 및 보고서 생성을 자동화하여 작업을 간소화하는 방법을 배웁니다.
과정 전반에 걸쳐 참가자들은 실습을 통해 배운 아이디어를 실험실 환경에서 실습하게 됩니다. 교육이 끝나면 참가자는 MATLAB의 기능을 철저하게 파악하고 이를 실제 데이터 과학 문제를 해결하고 자동화를 통해 작업을 간소화하는 데 사용할 수 있습니다.
진행 상황을 측정하기 위해 과정 전반에 걸쳐 평가가 실시됩니다.
코스의 형식
- 이 과정에는 사례 토론, 샘플 코드 검사 및 실습 구현을 포함한 이론 및 실습이 포함됩니다.
메모
- 연습 세션은 미리 준비된 샘플 데이터 보고서 템플릿을 기반으로 진행됩니다. 특정 요구 사항이 있는 경우 당사에 문의하여 준비하십시오.
Accelerating Python Pandas Workflows with Modin
14 Hours대한민국에서 강사가 진행하는 이 실시간 교육(온라인 또는 현장)은 Modin을 사용하여 Pandas를 통해 더 빠른 데이터 분석을 위한 병렬 계산을 구축하고 구현하려는 데이터 과학자와 개발자를 대상으로 합니다.
이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.
- Modin을 사용하여 대규모로 Pandas 워크플로 개발을 시작하는 데 필요한 환경을 설정하세요.
- Modin의 기능, 아키텍처 및 장점을 이해하세요.
- Modin, Dask, Ray의 차이점을 알아보세요.
- Modin을 사용하여 Pandas개의 작업을 더 빠르게 수행하십시오.
- 전체 Pandas API 및 기능을 구현합니다.
Python Programming for Finance
35 HoursPython 은 금융 산업에서 큰 인기를 얻은 프로그래밍 언어입니다. 가장 큰 투자 은행과 헤지 펀드가 채택한이 솔루션은 핵심 거래 프로그램에서 위험 관리 시스템에 이르기까지 광범위한 금융 애플리케이션을 구축하는 데 사용되고 있습니다.
이 강사 주도형 라이브 교육에서 참가자는 Python 을 사용하여 여러 특정 재무 관련 문제를 해결하기위한 실용적인 응용 프로그램을 개발하는 방법을 배웁니다.
이 교육이 끝나면 참가자는 다음을 수행 할 수 있습니다.
- Python 프로그래밍 언어의 기본 사항 이해
- 금융 애플리케이션을 Python 로 생성하기 위한 최상의 개발 도구 다운로드, 설치 및 유지 관리
- 다양한 소스(CSV, Excel, 데이터베이스, 웹 등)의 금융 데이터를 구성, 시각화 및 분석하기 위한 가장 적합한 Python 패키지 및 프로그래밍 기술 선택 및 활용
- 자산 배분, 위험 분석, 투자 성과 등과 관련된 문제를 해결하는 애플리케이션 구축
- Python 애플리케이션 문제 해결, 통합, 배포 및 최적화
청중
- 개발자
- 분석가
- 퀀트
과정의 형식
- 강의, 토론, 연습 및 실습의 조합
노트
- 이 교육은 금융 전문가들이 직면한 주요 문제에 대한 해결책을 제공하는 것을 목표로 합니다. 그러나 특정 주제, 도구 또는 기술에 대해 추가하거나 자세히 설명하고 싶다면 문의하여 조정하십시오.
GPU Data Science with NVIDIA RAPIDS
14 Hours대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 RAPIDS를 사용하여 GPU 가속화된 데이터 파이프라인, 워크플로 및 시각화를 구축하고 기계 학습 알고리즘을 적용하려는 데이터 과학자 및 개발자를 대상으로 합니다. XGBoost, cuML 등과 같은
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- NVIDIA를 사용하여 데이터 모델을 구축하는 데 필요한 개발 환경을 설정합니다RAPIDS.
- RAPIDS의 기능, 구성 요소 및 장점을 이해합니다.
- GPU을 활용하여 엔드투엔드 데이터 및 분석 파이프라인을 가속화하세요.
- cuDF 및 Apache Arrow을 사용하여 GPU 가속 데이터 준비 및 ETL을 구현합니다.
- XGBoost 및 cuML 알고리즘을 사용하여 기계 학습 작업을 수행하는 방법을 알아보세요.
- cuXfilter 및 cuGraph를 사용하여 데이터 시각화를 구축하고 그래프 분석을 실행하세요.
Python and Spark for Big Data (PySpark)
21 Hours이 강사가 진행하는 대한민국 실시간 교육에서 참가자는 실습을 하면서 Python와 Spark를 함께 사용하여 빅 데이터를 분석하는 방법을 배웁니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- Python와 함께 Spark를 사용하여 Big Data을 분석하는 방법을 알아보세요.
- 실제 사례를 모방한 연습을 해보세요.
- PySpark을 사용하여 빅데이터 분석을 위한 다양한 도구와 기술을 사용합니다.
Apache Spark MLlib
35 HoursMLlib는 Spark의 기계 학습 (ML) 라이브러리입니다. 그 목표는 실용적인 기계 학습을 확장 가능하고 쉽게 만들어주는 것입니다. 분류, 회귀, 클러스터링, 협업 필터링, 차원 감소, 하위 레벨 최적화 프리미티브 및 상위 레벨 파이프 라인 API 등 일반적인 학습 알고리즘과 유틸리티로 구성됩니다.
두 개의 패키지로 나뉩니다.
spark.mllib는 RDD 위에 구축 된 원래 API를 포함합니다.
spark.ml은 ML 파이프 라인을 구성하기 위해 DataFrames 위에 구축 된 고급 API를 제공합니다.
청중
이 과정은 Apache Spark 용 내장 라이브러리를 활용하고자하는 엔지니어 및 개발자를 대상으로합니다.
Data Science: Analysis and Presentation
7 HoursWolfram 시스템의 통합 환경은 데이터를 분석하고 표시하는 데 효율적인 도구입니다. 이 과정에서는 통계 계산, 시각화, 데이터 가져오기 및 내보내기, 보고서 자동 생성 등 분석과 관련된 Wolfram 언어의 측면을 다룹니다.