Course Outline

Data Science for Big Data Analytics 소개

    Data Science 개요 빅 데이터 개요 데이터 구조 빅 데이터의 동인 및 복잡성 빅 데이터 생태계 및 분석에 대한 새로운 접근 방식 빅 데이터 데이터 마이닝 프로세스 및 문제의 핵심 기술 연관 패턴 마이닝 데이터 클러스터링 이상치 탐지 데이터 분류

데이터 분석 수명주기 소개

    발견 데이터 준비 모델 계획 모델 구축 결과 발표/Communication 운영화 연습: 사례 연구

이 시점부터 대부분의 훈련 시간(80%)은 R 및 관련 빅 데이터 기술의 예제와 연습에 사용됩니다.

R 시작하기

    R 및 Rstudio 설치 R 언어의 기능 R의 개체 R의 데이터 데이터 조작 빅 데이터 문제 연습

Hadoop 시작하기

    설치 Hadoop Hadoop 모드 이해 HDFS MapReduce 아키텍처 Hadoop 관련 프로젝트 개요 Hadoop MapReduce에서 프로그램 작성 연습

R과 Hadoop를 RHadoop와 통합

    RHadoop의 구성 요소 RHadoop 설치 및 Hadoop와 연결 R을 사용한 RHadoop Hadoop 스트리밍 아키텍처 RHadoop를 사용한 데이터 분석 문제 해결 연습

데이터 전처리 및 준비

    데이터 준비 단계 특징 추출 데이터 정리 데이터 통합 및 변환 데이터 축소 - 샘플링, 특징 하위 집합 선택, 차원 축소 이산화 및 비닝 연습 및 사례 연구

R의 탐색적 데이터 분석 방법

    기술 통계 탐색적 데이터 분석 시각화 - 예비 단계 단일 변수 시각화 다중 변수 조사 통계적 평가 방법 가설 테스트 연습 및 사례 연구

Data Visualization

    R의 기본 시각화 데이터 시각화를 위한 패키지 ggplot2, lattice,ploly, lattice R의 플롯 서식 지정 고급 그래프 연습

회귀(미래 가치 추정)

    선형 회귀 사용 사례 모델 설명 진단 선형 회귀 문제 축소 방법, 능선 회귀, 올가미 일반화 및 비선형 회귀 스플라인 국소 다항식 회귀 일반화된 덧셈 모델 R을 사용한 회귀 연습 및 사례 연구

분류

    분류 관련 문제 베이지안 리프레셔 Naive Bayes 로지스틱 회귀 K-최근접 이웃 의사결정 트리 알고리즘 신경망 지원 벡터 머신 분류기 진단 분류 방법 비교 Scala 분류 알고리즘 연습 및 사례 연구

모델 성능 평가 및 선택

    편향, 분산 및 모델 복잡성 정확도 대 해석성 분류기 평가 모델/알고리즘 성능 측정 홀드아웃 검증 방법 교차 검증 캐럿 패키지를 사용하여 기계 학습 알고리즘 조정 이익 ROC 및 리프트 곡선을 사용하여 모델 성능 시각화

앙상블 방법

    배깅 Random Forest 부스팅 그라디언트 부스팅 연습 및 사례 연구

분류 및 회귀를 위한 서포트 벡터 머신

    최대 마진 분류자 지원 벡터 분류자 지원 벡터 머신 분류 문제용 SVM 회귀 문제용 SVM
연습 및 사례 연구
  • 데이터 세트 내에서 알 수 없는 그룹화 식별
  • 클러스터링을 위한 기능 선택 대표적인 기반 알고리즘: k-평균, k-medoids 계층적 알고리즘: 응집 및 분할 방법 확률적 기본 알고리즘: EM 밀도 기반 알고리즘: DBSCAN, DENCLUE 클러스터 검증 고급 클러스터링 개념 RHadoop을 사용한 클러스터링 연습 및 사례 연구

      링크 분석으로 연결 검색

    링크 분석 개념 네트워크 분석을 위한 메트릭 Pagerank 알고리즘 하이퍼링크 유도 주제 Search 링크 예측 연습 및 사례 연구

      연관 패턴 마이닝

    빈번한 패턴 마이닝 모델 Scala빈번한 패턴 마이닝의 가능성 문제 무차별 대입 알고리즘 Apriori 알고리즘 FP 성장 접근 방식 후보 규칙 평가 연관 규칙 적용 검증 및 테스트 진단 R 및 Hadoop과 연관 규칙 연습 및 사례 연구

      추천 엔진 구축

    추천 시스템 이해 추천 시스템에 사용되는 데이터 마이닝 기술recommenderlab 패키지를 사용하는 추천 시스템 추천 시스템 평가 RHadoop를 사용한 추천 연습: 추천 엔진 구축

      텍스트 분석

    텍스트 분석 단계 원시 텍스트 수집 단어 빈도 – 역 문서 빈도 감정 결정 연습 및 사례 연구

     35 Hours

    Number of participants



    Price per participant

    회원 평가 (2)

    Related Courses

    Unified Batch and Stream Processing with Apache Beam

    14 Hours

    Related Categories