코스 개요

빅 데이터 분석을 위한 데이터 사이언스 소개

  • 데이터 사이언스 개요
  • 빅 데이터 개요
  • 데이터 구조
  • 빅 데이터의 주요 동인 및 복잡성
  • 빅 데이터 생태계와 분석에 대한 새로운 접근 방식
  • 빅 데이터의 주요 기술
  • 데이터 마이닝 과정과 문제
    • 관련 패턴 마이닝
    • 데이터 클러스터링
    • 이상치 탐지
    • 데이터 분류

데이터 분석 라이프사이클 소개

  • 발견
  • 데이터 준비
  • 모델 계획
  • 모델 구축
  • 결과 발표/소통
  • 운영화
  • 연습: 사례 연구

이 지점부터 대부분의 교육 시간(80%)은 R과 관련된 빅 데이터 기술에 대한 예제와 연습에 할애됩니다.

R 시작하기

  • R과 RStudio 설치
  • R 언어의 특징
  • R의 객체
  • R의 데이터
  • 데이터 조작
  • 빅 데이터 문제
  • 연습

Hadoop 시작하기

  • Hadoop 설치
  • Hadoop 모드 이해
  • HDFS
  • MapReduce 아키텍처
  • Hadoop 관련 프로젝트 개요
  • Hadoop MapReduce로 프로그램 작성
  • 연습

RHadoop을 통해 R과 Hadoop 통합

  • RHadoop의 구성 요소
  • RHadoop 설치 및 Hadoop 연결
  • RHadoop의 아키텍처
  • R을 통한 Hadoop 스트리밍
  • RHadoop을 통한 데이터 분석 문제 해결
  • 연습

데이터 전처리 및 준비

  • 데이터 준비 단계
  • 특징 추출
  • 데이터 정제
  • 데이터 통합 및 변환
  • 데이터 축소 – 샘플링, 특징 부분 선택,
  • 차원 축소
  • 이산화 및 분할
  • 연습 및 사례 연구

R에서의 탐색적 데이터 분석 방법

  • 기술 통계
  • 탐색적 데이터 분석
  • 시각화 – 초보 단계
  • 단일 변수의 시각화
  • 다중 변수 검토
  • 평가용 통계 방법
  • 가설 검증
  • 연습 및 사례 연구

데이터 시각화

  • R의 기본 시각화
  • 데이터 시각화 패키지 ggplot2, lattice, plotly, lattice
  • R에서 플롯 포맷팅
  • 고급 그래프
  • 연습

회귀 (미래 값 추정)

  • 선형 회귀
  • 사용 사례
  • 모델 설명
  • 진단
  • 선형 회귀의 문제점
  • 축소 방법, 리지 회귀, 라소
  • 일반화 및 비선형성
  • 회귀 스플라인
  • 로컬 다항식 회귀
  • 일반화 추가 모델
  • RHadoop을 통한 회귀
  • 연습 및 사례 연구

분류

  • 분류 관련 문제
  • 베이지안 리프레셔
  • 나이브 베이즈
  • 로지스틱 회귀
  • k-최근접 이웃
  • 결정 트리 알고리즘
  • 뉴럴 네트워크
  • 서포트 벡터 머신
  • 분류기의 진단
  • 분류 방법 비교
  • 확장 가능한 분류 알고리즘
  • 연습 및 사례 연구

모델 성능 평가 및 선택

  • 편향, 분산 및 모델 복잡성
  • 정확성 vs 해석 가능성
  • 분류기 평가
  • 모델/알고리즘 성능 측정
  • 홀드아웃 검증 방법
  • 교차 검증
  • caret 패키지로 머신 러닝 알고리즘 조정
  • Profit ROC 및 Lift 곡선으로 모델 성능 시각화

앙상블 방법

  • 배깅
  • 랜덤 포레스트
  • 부스팅
  • 경사 부스팅
  • 연습 및 사례 연구

분류 및 회귀를 위한 서포트 벡터 머신

  • 최대 마진 분류기
    • 서포트 벡터 분류기
    • 서포트 벡터 머신
    • 분류 문제용 SVM
    • 회귀 문제용 SVM
  • 연습 및 사례 연구

데이터 세트 내의 알려지지 않은 그룹 식별

  • 클러스터링을 위한 특성 선택
  • 대표 기반 알고리즘: k-평균, k-중앙값
  • 계층적 알고리즘: 병합 및 분할 방법
  • 확률 기반 알고리즘: EM
  • 밀도 기반 알고리즘: DBSCAN, DENCLUE
  • 클러스터 유효성 검사
  • 고급 클러스터링 개념
  • RHadoop을 통한 클러스터링
  • 연습 및 사례 연구

링크 분석을 통한 연결 발견

  • 링크 분석 개념
  • 네트워크 분석을 위한 지표
  • Pagerank 알고리즘
  • 하이퍼링크-유도 토픽 검색
  • 링크 예측
  • 연습 및 사례 연구

연관 패턴 마이닝

  • 빈도 패턴 마이닝 모델
  • 빈도 패턴 마이닝의 확장성 문제
  • 브루트 포스 알고리즘
  • Apriori 알고리즘
  • FP 성장 접근법
  • 후보 규칙 평가
  • 연관 규칙의 응용
  • 검증 및 테스트
  • 진단
  • R과 Hadoop을 통한 연관 규칙
  • 연습 및 사례 연구

추천 엔진 구축

  • 추천 시스템 이해
  • 추천 시스템에서 사용된 데이터 마이닝 기술
  • recommenderlab 패키지를 통한 추천 시스템
  • 추천 시스템 평가
  • RHadoop을 통한 추천
  • 연습: 추천 엔진 구축

텍스트 분석

  • 텍스트 분석 단계
  • 생 데이터 수집
  • Bag of words
  • 문서 빈도 역수
  • 감정 분석
  • 연습 및 사례 연구
 35 시간

참가자 수


참가자당 가격

회원 평가 (2)

예정된 코스

관련 카테고리