홈
빅 데이터 트레이닝
빅 데이터 분석을 위한 데이터 사이언스 교육 과정

빅 데이터 분석을 위한 데이터 사이언스 교육 과정

빅 데이터는 너무 방대하고 복잡한 데이터 세트로 전통적인 데이터 처리 응용 프로그램 소프트웨어가 처리하기에 부적합합니다. 큰 데이터 문제로는 데이터 캡처, 데이터 저장, 데이터 분석, 검색, 공유, 전송, 시각화, 쿼리, 업데이트 및 정보 프라이버시가 있습니다.

문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.

예약을 보내주셔서 감사합니다! 저희 팀 멤버 중 한 분이 곧 연락드리겠습니다.

코스 개요

빅 데이터 분석을 위한 데이터 사이언스 소개

데이터 사이언스 개요
빅 데이터 개요
데이터 구조
빅 데이터의 주요 동인 및 복잡성
빅 데이터 생태계와 분석에 대한 새로운 접근 방식
빅 데이터의 주요 기술
데이터 마이닝 과정과 문제
- 관련 패턴 마이닝
- 데이터 클러스터링
- 이상치 탐지
- 데이터 분류

데이터 분석 라이프사이클 소개

발견
데이터 준비
모델 계획
모델 구축
결과 발표/소통
운영화
연습: 사례 연구

이 지점부터 대부분의 교육 시간(80%)은 R과 관련된 빅 데이터 기술에 대한 예제와 연습에 할애됩니다.

R 시작하기

R과 RStudio 설치
R 언어의 특징
R의 객체
R의 데이터
데이터 조작
빅 데이터 문제
연습

Hadoop 시작하기

Hadoop 설치
Hadoop 모드 이해
HDFS
MapReduce 아키텍처
Hadoop 관련 프로젝트 개요
Hadoop MapReduce로 프로그램 작성
연습

RHadoop을 통해 R과 Hadoop 통합

RHadoop의 구성 요소
RHadoop 설치 및 Hadoop 연결
RHadoop의 아키텍처
R을 통한 Hadoop 스트리밍
RHadoop을 통한 데이터 분석 문제 해결
연습

데이터 전처리 및 준비

데이터 준비 단계
특징 추출
데이터 정제
데이터 통합 및 변환
데이터 축소 – 샘플링, 특징 부분 선택,
차원 축소
이산화 및 분할
연습 및 사례 연구

R에서의 탐색적 데이터 분석 방법

기술 통계
탐색적 데이터 분석
시각화 – 초보 단계
단일 변수의 시각화
다중 변수 검토
평가용 통계 방법
가설 검증
연습 및 사례 연구

데이터 시각화

R의 기본 시각화
데이터 시각화 패키지 ggplot2, lattice, plotly, lattice
R에서 플롯 포맷팅
고급 그래프
연습

회귀 (미래 값 추정)

선형 회귀
사용 사례
모델 설명
진단
선형 회귀의 문제점
축소 방법, 리지 회귀, 라소
일반화 및 비선형성
회귀 스플라인
로컬 다항식 회귀
일반화 추가 모델
RHadoop을 통한 회귀
연습 및 사례 연구

모델 성능 평가 및 선택

편향, 분산 및 모델 복잡성
정확성 vs 해석 가능성
분류기 평가
모델/알고리즘 성능 측정
홀드아웃 검증 방법
교차 검증
caret 패키지로 머신 러닝 알고리즘 조정
Profit ROC 및 Lift 곡선으로 모델 성능 시각화

앙상블 방법

배깅
랜덤 포레스트
부스팅
경사 부스팅
연습 및 사례 연구

분류 및 회귀를 위한 서포트 벡터 머신

최대 마진 분류기
- 서포트 벡터 분류기
- 서포트 벡터 머신
- 분류 문제용 SVM
- 회귀 문제용 SVM
연습 및 사례 연구

데이터 세트 내의 알려지지 않은 그룹 식별

클러스터링을 위한 특성 선택
대표 기반 알고리즘: k-평균, k-중앙값
계층적 알고리즘: 병합 및 분할 방법
확률 기반 알고리즘: EM
밀도 기반 알고리즘: DBSCAN, DENCLUE
클러스터 유효성 검사
고급 클러스터링 개념
RHadoop을 통한 클러스터링
연습 및 사례 연구

링크 분석을 통한 연결 발견

링크 분석 개념
네트워크 분석을 위한 지표
Pagerank 알고리즘
하이퍼링크-유도 토픽 검색
링크 예측
연습 및 사례 연구

연관 패턴 마이닝

빈도 패턴 마이닝 모델
빈도 패턴 마이닝의 확장성 문제
브루트 포스 알고리즘
Apriori 알고리즘
FP 성장 접근법
후보 규칙 평가
연관 규칙의 응용
검증 및 테스트
진단
R과 Hadoop을 통한 연관 규칙
연습 및 사례 연구

텍스트 분석

텍스트 분석 단계
생 데이터 수집
Bag of words
문서 빈도 역수
감정 분석
연습 및 사례 연구

35 시간

참가자 수

온라인

강의실

위치 선택

venues를 선택하세요

참가자별 가격

오픈 트레이닝 코스는 5명 이상의 참가자가 필요합니다.

빅 데이터 분석을 위한 데이터 사이언스 교육 과정 - 예약

�r� 네임 *

이메일 *

전화번호 *

직무명

회사명

주소 1 *

도시 *

주/성

국가 *

우편번호 *

시작 날짜

세금 번호

날짜는 이용 가능성을 기준으로 10:00과 17:00 사이에 진행됩니다.

결제 *

은행 이체 (청구서, 구매 주문서)

직불 / 신용 카드

의견

이용 약관 *

저는 위에 명시된 고객의 공식 대표자이며, NobleProg 이용 약관 및 개인 정보 보호 정책에 따라 위 코스 또는 서비스를 예약하려 합니다.

할인 및 프로모션 정보를 받아보세요

개인정보 보호정책을 읽어보세요. 개인정보 보호정책 에서 데이터 사용 방법을 확인하실 수 있습니다.

빅 데이터 분석을 위한 데이터 사이언스 교육 과정 - 문의

�r� 네임 *

이메일 *

전화번호 *

참가자 수

회사명

회사 주소

코스를 어떻게 수강하시겠습니까?

고객 사무실

(온라인)

강의실

의견

할인 및 프로모션 정보를 받아보세요

개인정보 보호정책을 읽어보세요. 개인정보 보호정책 에서 데이터 사용 방법을 확인하실 수 있습니다.

빅 데이터 분석을 위한 데이터 사이언스 - 컨설팅 문의

�r� 네임 *

전화번호 *

이메일 *

회사명

컨설팅 주제 *

컨설팅 목표

컨설턴트가 누구와 함께 일할까요?

컨설팅 시급성 *

의견

할인 및 프로모션 정보를 받아보세요

개인정보 보호정책을 읽어보세요. 개인정보 보호정책 에서 데이터 사용 방법을 확인하실 수 있습니다.

회원 평가 (2)

강도, 훈련 자료 및 전문성, 명확성, 알레산드라와의 우수한 소통

Marija Hornis Dmitrovic - Marija Hornis

코스 - Data Science for Big Data Analytics

기계 번역됨

The example and training material were sufficient and made it easy to understand what you are doing.

Teboho Makenete

코스 - Data Science for Big Data Analytics

Anaconda개의 구성 요소와 라이브러리를 설치하고 구성합니다.
Anaconda의 핵심 개념, 기능 및 이점을 이해하세요.
Anaconda Navigator를 사용하여 패키지, 환경 및 채널을 관리하세요.
데이터 과학 및 머신 러닝에는 Conda, R 및 Python 패키지를 사용합니다.
여러 데이터 환경을 관리하기 위한 몇 가지 실제 사용 사례와 기술을 알아보세요.

Google Colab 및 Apache Spark을 활용한 빅데이터 분석

14 시간

이 온라인 또는 현장에서 진행되는 강사 지도형 라이브 교육은 중간 수준의 데이터 과학자 및 엔지니어가 빅데이터 처리 및 분석을 위해 Google Colab과 Apache Spark을 사용하고자 할 때 대상입니다.

이 교육을 마친 후 참가자는 다음과 같은 능력을 갖출 것입니다.

Google Colab과 Spark를 사용하여 빅데이터 환경을 설정합니다.
Apache Spark로 대용량 데이터를 효율적으로 처리하고 분석합니다.
협업 환경에서 빅데이터를 시각화합니다.
Apache Spark을 클라우드 기반 도구와 통합합니다.

건강 분야의 빅데이터 분석

21 시간

빅데이터 분석은 대량의 다양한 데이터 세트를 검토하여 상관 관계, 숨겨진 패턴 및 기타 유용한 통찰력을 발견하는 과정을 포함합니다.

의료 산업은 복잡하고 이질적인 의학적 및 임상 데이터가 대량으로 존재합니다. 건강 데이터에 빅데이터 분석을 적용하면 의료 서비스 제공 개선을 위한 통찰력을 도출하는 큰 잠재력이 있습니다. 그러나 이러한 데이터셋의 크기는 분석과 임상 환경에서의 실제 응용에 큰 도전을 제시합니다.

이 강사 주도형 실시간 교육(원격)에서는 참가자들이 빅데이터 분석 기술을 건강 분야에 적용하는 방법을 배우면서 일련의 실습 실습을 진행하게 됩니다.

본 교육을 마치면 참가자는 다음과 같은 능력을 갖추게 될 것입니다:

Hadoop MapReduce와 Spark 등 빅데이터 분석 도구를 설치하고 구성할 수 있습니다.
의료 데이터의 특성을 이해합니다.
의료 데이터를 처리하기 위한 빅데이터 기술을 적용할 수 있습니다.
건강 관련 응용 프로그램의 문맥에서 빅데이터 시스템과 알고리즘을 연구합니다.

대상군

개발자
데이터 과학자

코스 형식

강의, 토론, 연습 및 실습을 병행합니다.

참고사항

본 과정에 대한 맞춤형 교육을 요청하려면 문의하여 일정을 조율해 주세요.

해돕과 스파크 관리자를 위한

35 시간

대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 조직 내에서 Hadoop 클러스터를 설정, 배포 및 관리하는 방법을 배우려는 시스템 관리자를 대상으로 합니다.

이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.

Apache Hadoop을 설치하고 구성합니다.
Hadoop 생태계의 네 가지 주요 구성 요소인 HDFS, MapReduce, YARN 및 Hadoop Common을 이해합니다.
HDFS(Hadoop 분산 파일 시스템)를 사용하여 클러스터를 수백 또는 수천 개의 노드로 확장합니다.
온프레미스 Spark 배포를 위한 스토리지 엔진으로 작동하도록 HDFS를 설정합니다.
Redis, Elasticsearch, Couchbase, Aerospike 등과 같은 Amazon S3 및 NoSQL 데이터베이스 시스템과 같은 대체 스토리지 솔루션에 액세스하도록 Spark를 설정하십시오.
Apache Hadoop 클러스터 프로비저닝, 관리, 모니터링 및 보안과 같은 관리 작업을 수행합니다.

스트림 처리에 대한 실용적인 소개

21 시간

이 강사 주도형 실시간 교육(대한민국 현장 또는 원격)에서 참가자들은 다양한 스트림 처리 프레임워크를 기존의 빅 데이터 저장 시스템 및 관련 소프트웨어 애플리케이션과 마이크로서비스와 통합하는 방법을 배울 것입니다.

이 교육을 통해 참가자들은 다음과 같은 능력을 갖추게 될 것입니다:

Spark Streaming 및 Kafka Streaming과 같은 다양한 스트림 처리 프레임워크를 설치하고 구성합니다.
작업에 가장 적합한 프레임워크를 이해하고 선택합니다.
데이터를 연속적으로, 동시에, 각 기록별로 처리합니다.
스트림 처리 솔루션을 기존의 데이터베이스, 데이터 웨어하우스, 데이터 레이크 등과 통합합니다.
가장 적합한 스트림 처리 라이브러리를 기업 애플리케이션 및 마이크로서비스와 통합합니다.

Kaggle

14 시간

대한민국에서 강사가 진행하는 이 실시간 교육(온라인 또는 현장)은 Kaggle을 사용하여 Data Science에서 학습하고 경력을 쌓고자 하는 데이터 과학자와 개발자를 대상으로 합니다.

이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.

데이터 과학과 머신러닝에 대해 알아보세요.
데이터 분석을 살펴보세요.
Kaggle에 대해 알아보고 작동 방식을 알아보세요.

파이썬 판다스 워크플로우를 모딘으로 가속화

14 시간

대한민국에서 강사가 진행하는 이 실시간 교육(온라인 또는 현장)은 Modin을 사용하여 Pandas를 통해 더 빠른 데이터 분석을 위한 병렬 계산을 구축하고 구현하려는 데이터 과학자와 개발자를 대상으로 합니다.

이 교육을 마치면 참가자는 다음을 수행할 수 있습니다.

Modin을 사용하여 대규모로 Pandas 워크플로 개발을 시작하는 데 필요한 환경을 설정하세요.
Modin의 기능, 아키텍처 및 장점을 이해하세요.
Modin, Dask, Ray의 차이점을 알아보세요.
Modin을 사용하여 Pandas개의 작업을 더 빠르게 수행하십시오.
전체 Pandas API 및 기능을 구현합니다.

PySpark 및 머신러닝

21 시간

본 훈련은 PySpark 를 활용하여 확장 가능한 데이터 처리 및 머신러닝 워크플로우 구축에 대한 실용적인 개요를 제공합니다. 참가자는 현대적인 빅데이터 생태계 내에서 Apache Spark 가 어떻게 작동하는지, 그리고 분산 컴퓨팅 원리를 사용하여 대규모 데이터 세트를 효율적으로 처리하는 방법을 학습합니다.

NVIDIA RAPIDS를 이용한 GPU 데이터 과학

14 시간

이 인스트럭터-리드 라이브 트레이닝은 대한민국 (온라인 또는 오프라인) 에서 데이터 과학자 및 개발자가 GPU 가속 데이터 파이프라인, 워크플로우, 시각화, 그리고 XGBoost, cuML 등의 머신러닝 알고리즘을 사용하여 RAPIDS를 활용할 수 있도록 지원합니다.

이 트레이닝을 마친 후, 참가자는 다음을 할 수 있게 됩니다:

NVIDIA RAPIDS로 데이터 모델을 구축하기 위한 개발 환경을 설정합니다.
RAPIDS의 기능, 구성 요소, 그리고 장점을 이해합니다.
GPU를 활용하여 데이터 및 분석 파이프라인을 가속화합니다.
cuDF와 Apache Arrow를 사용하여 GPU 가속 데이터 준비 및 ETL을 구현합니다.
XGBoost 및 cuML 알고리즘을 사용하여 머신러닝 작업을 수행하는 방법을 학습합니다.
cuXfilter와 cuGraph를 사용하여 데이터 시각화 및 그래프 분석을 구축합니다.

SMACK Stack for Data Science

14 시간

이 강사 주도형 라이브 교육은 온라인 또는 현장에서 제공되며, 빅데이터 솔루션을 위한 데이터 처리 플랫폼을 구축하기 위해 SMACK 스택을 활용하고자 하는 데이터 과학자들을 대상으로 합니다.

이 교육을 마친 후 참가자들은 다음과 같은 능력을 갖출 것입니다:

빅데이터 처리를 위한 데이터 파이프라인 아키텍처를 구현할 수 있습니다.
Apache Mesos와 Docker를 사용하여 클러스터 인프라를 개발할 수 있습니다.
Spark와 Scala를 사용하여 데이터를 분석할 수 있습니다.
Apache Cassandra를 사용하여 비구조화된 데이터를 관리할 수 있습니다.

Apache Spark 기본 사항

21 시간

대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 매우 많은 양의 데이터를 처리하기 위해 Apache Spark 시스템을 설정하고 배포하려는 엔지니어를 대상으로 합니다.

이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.

Apache Spark를 설치하고 구성합니다.
매우 큰 데이터 세트를 신속하게 처리하고 분석합니다.
Apache Spark와 Hadoop MapReduce의 차이점과 언제 어느 것을 사용해야 하는지 이해합니다.
Apache Spark를 다른 기계 학습 도구와 통합합니다.

아파치 스파크 관리

35 시간

대한민국에서 진행되는 이 실시간 교육(온라인 또는 현장)은 Spark 클러스터를 배포, 유지 관리 및 최적화하려는 초급 및 중급 시스템 관리자를 대상으로 합니다.

이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.

다양한 환경에서 Apache Spark을 설치하고 구성합니다.
클러스터 리소스를 관리하고 Spark 애플리케이션을 모니터링합니다.
Spark 클러스터의 성능을 최적화합니다.
보안 조치를 구현하고 고가용성을 보장합니다.
일반적인 Spark 문제를 디버그하고 해결합니다.

Apache Spark의 학습 곡선은 초기에 천천히 증가하며, 처음의 성과를 얻기 위해 많은 노력이 필요합니다. 이 과정은 첫 번째 어려운 부분을 넘어가는 것을 목표로 합니다. 이 과정을 수강한 후 참가자들은 Apache Spark의 기본 사항을 이해하게 될 것입니다. 또한 RDD와 DataFrame을 명확하게 구분할 수 있으며, Python과 Scala API를 배우고, 실행자와 작업 등의 개념을 이해할 것입니다. 또한 최상의 실습을 따라, 이 과정은 클라우드 배포, Databricks 및 AWS에 강한 초점을 맞추고 있습니다. 학생들은 또한 AWS의 최신 Spark 서비스인 AWS EMR과 AWS Glue의 차이점을 이해할 것입니다.

대상:

데이터 엔지니어, DevOps, 데이터 과학자

파이썬과 스파크로 큰 데이터 분석하기 (PySpark)

21 시간

이 강사가 진행하는 대한민국 실시간 교육에서 참가자는 실습을 하면서 Python와 Spark를 함께 사용하여 빅 데이터를 분석하는 방법을 배웁니다.

이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.

Python와 함께 Spark를 사용하여 Big Data을 분석하는 방법을 알아보세요.
실제 사례를 모방한 연습을 해보세요.
PySpark을 사용하여 빅데이터 분석을 위한 다양한 도구와 기술을 사용합니다.

Stratio: Rocket and Intelligence Modules with PySpark

14 시간

Stratio는 빅 데이터, AI, 그리고 가버넌스를 하나의 솔루션으로 통합하는 데이터 중심의 플랫폼입니다. Rocket과 Intelligence 모듈은 기업 환경에서 빠르게 데이터를 탐색, 변환하고 고급 분석을 수행할 수 있게 합니다.

이 강사는 온라인 또는 현장에서 진행되는 실습 중심의 라이브 강의로, PySpark를 활용하여 Rocket과 Intelligence 모듈을 효과적으로 사용하는 중급 데이터 전문가를 대상으로 합니다. 이 강의는 루프 구조, 사용자 정의 함수, 그리고 고급 데이터 논리에 중점을 둡니다.

이 교육을 마치면 참가자는 다음과 같은 능력을 갖추게 됩니다:

Rocket과 Intelligence 모듈을 사용하여 Stratio 플랫폼을 탐색하고 작업할 수 있습니다.
데이터 수집, 변환, 분석의 맥락에서 PySpark를 적용할 수 있습니다.
루프와 조건 논리를 사용하여 데이터 워크플로우와 피처 엔지니어링 작업을 제어할 수 있습니다.
PySpark에서 재사용 가능한 데이터 작업을 위한 사용자 정의 함수(UDF)를 만들고 관리할 수 있습니다.

강의 형식

상호작용적인 강의와 토론.
많은 연습과 실습.
라이브-랩 환경에서의 실습 구현.

강의 커스터마이징 옵션

이 강의를 위한 맞춤형 교육을 요청하려면 연락 주시기 바랍니다.

빅 데이터 분석을 위한 데이터 사이언스 교육 과정

코스 개요

빅 데이터 분석을 위한 데이터 사이언스 소개

데이터 분석 라이프사이클 소개

이 지점부터 대부분의 교육 시간(80%)은 R과 관련된 빅 데이터 기술에 대한 예제와 연습에 할애됩니다.

R 시작하기

Hadoop 시작하기

RHadoop을 통해 R과 Hadoop 통합

데이터 전처리 및 준비

R에서의 탐색적 데이터 분석 방법

데이터 시각화

회귀 (미래 값 추정)

분류

모델 성능 평가 및 선택

앙상블 방법

분류 및 회귀를 위한 서포트 벡터 머신

데이터 세트 내의 알려지지 않은 그룹 식별

링크 분석을 통한 연결 발견

연관 패턴 마이닝

추천 엔진 구축

텍스트 분석

회원 평가 (2)

Marija Hornis Dmitrovic - Marija Hornis

코스 - Data Science for Big Data Analytics

Teboho Makenete

코스 - Data Science for Big Data Analytics

예정된 코스

빅 데이터 분석을 위한 데이터 사이언스

빅 데이터 분석을 위한 데이터 사이언스

빅 데이터 분석을 위한 데이터 사이언스

빅 데이터 분석을 위한 데이터 사이언스

관련 카테고리

다른 국가/지역의 사이트

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

빅 데이터 분석을 위한 데이터 사이언스 교육 과정

코스 개요

빅 데이터 분석을 위한 데이터 사이언스 소개

데이터 분석 라이프사이클 소개

이 지점부터 대부분의 교육 시간(80%)은 R과 관련된 빅 데이터 기술에 대한 예제와 연습에 할애됩니다.

R 시작하기

Hadoop 시작하기

RHadoop을 통해 R과 Hadoop 통합

데이터 전처리 및 준비

R에서의 탐색적 데이터 분석 방법

데이터 시각화

회귀 (미래 값 추정)

분류

모델 성능 평가 및 선택

앙상블 방법

분류 및 회귀를 위한 서포트 벡터 머신

데이터 세트 내의 알려지지 않은 그룹 식별

링크 분석을 통한 연결 발견

연관 패턴 마이닝

추천 엔진 구축

텍스트 분석

회원 평가 (2)

Marija Hornis Dmitrovic - Marija Hornis

코스 - Data Science for Big Data Analytics

Teboho Makenete

코스 - Data Science for Big Data Analytics

예정된 코스

빅 데이터 분석을 위한 데이터 사이언스

빅 데이터 분석을 위한 데이터 사이언스

빅 데이터 분석을 위한 데이터 사이언스

빅 데이터 분석을 위한 데이터 사이언스

관련 코스

Anaconda 데이터 과학자를 위한 에코시스템

Google Colab 및 Apache Spark을 활용한 빅데이터 분석

건강 분야의 빅데이터 분석

해돕과 스파크 관리자를 위한

스트림 처리에 대한 실용적인 소개

Kaggle

파이썬 판다스 워크플로우를 모딘으로 가속화

PySpark 및 머신러닝

NVIDIA RAPIDS를 이용한 GPU 데이터 과학

SMACK Stack for Data Science

Apache Spark 기본 사항

아파치 스파크 관리

Apache Spark in the Cloud

파이썬과 스파크로 큰 데이터 분석하기 (PySpark)

Stratio: Rocket and Intelligence Modules with PySpark

관련 카테고리

빅 데이터

Data Science

다른 국가/지역의 사이트

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites