문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
예약을 보내주셔서 감사합니다! 저희 팀 멤버 중 한 분이 곧 연락드리겠습니다.
코스 개요
빅 데이터 분석을 위한 데이터 사이언스 소개
- 데이터 사이언스 개요
- 빅 데이터 개요
- 데이터 구조
- 빅 데이터의 주요 동인 및 복잡성
- 빅 데이터 생태계와 분석에 대한 새로운 접근 방식
- 빅 데이터의 주요 기술
- 데이터 마이닝 과정과 문제
- 관련 패턴 마이닝
- 데이터 클러스터링
- 이상치 탐지
- 데이터 분류
데이터 분석 라이프사이클 소개
- 발견
- 데이터 준비
- 모델 계획
- 모델 구축
- 결과 발표/소통
- 운영화
- 연습: 사례 연구
이 지점부터 대부분의 교육 시간(80%)은 R과 관련된 빅 데이터 기술에 대한 예제와 연습에 할애됩니다.
R 시작하기
- R과 RStudio 설치
- R 언어의 특징
- R의 객체
- R의 데이터
- 데이터 조작
- 빅 데이터 문제
- 연습
Hadoop 시작하기
- Hadoop 설치
- Hadoop 모드 이해
- HDFS
- MapReduce 아키텍처
- Hadoop 관련 프로젝트 개요
- Hadoop MapReduce로 프로그램 작성
- 연습
RHadoop을 통해 R과 Hadoop 통합
- RHadoop의 구성 요소
- RHadoop 설치 및 Hadoop 연결
- RHadoop의 아키텍처
- R을 통한 Hadoop 스트리밍
- RHadoop을 통한 데이터 분석 문제 해결
- 연습
데이터 전처리 및 준비
- 데이터 준비 단계
- 특징 추출
- 데이터 정제
- 데이터 통합 및 변환
- 데이터 축소 – 샘플링, 특징 부분 선택,
- 차원 축소
- 이산화 및 분할
- 연습 및 사례 연구
R에서의 탐색적 데이터 분석 방법
- 기술 통계
- 탐색적 데이터 분석
- 시각화 – 초보 단계
- 단일 변수의 시각화
- 다중 변수 검토
- 평가용 통계 방법
- 가설 검증
- 연습 및 사례 연구
데이터 시각화
- R의 기본 시각화
- 데이터 시각화 패키지 ggplot2, lattice, plotly, lattice
- R에서 플롯 포맷팅
- 고급 그래프
- 연습
회귀 (미래 값 추정)
- 선형 회귀
- 사용 사례
- 모델 설명
- 진단
- 선형 회귀의 문제점
- 축소 방법, 리지 회귀, 라소
- 일반화 및 비선형성
- 회귀 스플라인
- 로컬 다항식 회귀
- 일반화 추가 모델
- RHadoop을 통한 회귀
- 연습 및 사례 연구
분류
- 분류 관련 문제
- 베이지안 리프레셔
- 나이브 베이즈
- 로지스틱 회귀
- k-최근접 이웃
- 결정 트리 알고리즘
- 뉴럴 네트워크
- 서포트 벡터 머신
- 분류기의 진단
- 분류 방법 비교
- 확장 가능한 분류 알고리즘
- 연습 및 사례 연구
모델 성능 평가 및 선택
- 편향, 분산 및 모델 복잡성
- 정확성 vs 해석 가능성
- 분류기 평가
- 모델/알고리즘 성능 측정
- 홀드아웃 검증 방법
- 교차 검증
- caret 패키지로 머신 러닝 알고리즘 조정
- Profit ROC 및 Lift 곡선으로 모델 성능 시각화
앙상블 방법
- 배깅
- 랜덤 포레스트
- 부스팅
- 경사 부스팅
- 연습 및 사례 연구
분류 및 회귀를 위한 서포트 벡터 머신
- 최대 마진 분류기
- 서포트 벡터 분류기
- 서포트 벡터 머신
- 분류 문제용 SVM
- 회귀 문제용 SVM
- 연습 및 사례 연구
데이터 세트 내의 알려지지 않은 그룹 식별
- 클러스터링을 위한 특성 선택
- 대표 기반 알고리즘: k-평균, k-중앙값
- 계층적 알고리즘: 병합 및 분할 방법
- 확률 기반 알고리즘: EM
- 밀도 기반 알고리즘: DBSCAN, DENCLUE
- 클러스터 유효성 검사
- 고급 클러스터링 개념
- RHadoop을 통한 클러스터링
- 연습 및 사례 연구
링크 분석을 통한 연결 발견
- 링크 분석 개념
- 네트워크 분석을 위한 지표
- Pagerank 알고리즘
- 하이퍼링크-유도 토픽 검색
- 링크 예측
- 연습 및 사례 연구
연관 패턴 마이닝
- 빈도 패턴 마이닝 모델
- 빈도 패턴 마이닝의 확장성 문제
- 브루트 포스 알고리즘
- Apriori 알고리즘
- FP 성장 접근법
- 후보 규칙 평가
- 연관 규칙의 응용
- 검증 및 테스트
- 진단
- R과 Hadoop을 통한 연관 규칙
- 연습 및 사례 연구
추천 엔진 구축
- 추천 시스템 이해
- 추천 시스템에서 사용된 데이터 마이닝 기술
- recommenderlab 패키지를 통한 추천 시스템
- 추천 시스템 평가
- RHadoop을 통한 추천
- 연습: 추천 엔진 구축
텍스트 분석
- 텍스트 분석 단계
- 생 데이터 수집
- Bag of words
- 문서 빈도 역수
- 감정 분석
- 연습 및 사례 연구
35 시간
회원 평가 (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
코스 - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing.