코스 개요
소개
Dataiku Data Science Studio(DSS) 설치 및 구성
- Dataiku DSS의 시스템 요구 사항
- Apache Hadoop 및 Apache Spark 통합 설정
- 웹 프록시를 사용하여 Dataiku DSS 구성
- 다른 플랫폼에서 Dataiku DSS로 이동
Dataiku DSS 기능 및 아키텍처 개요
- Dataiku DSS의 핵심 개체 및 그래프
- Dataiku DSS의 레시피란?
- Dataiku DSS에서 지원하는 데이터셋 유형
Dataiku DSS 프로젝트 생성
Dataiku DSS의 데이터 리소스에 연결하여 데이터셋 정의
- DSS 커넥터 및 파일 형식 작업
- 표준 DSS 형식 vs. Hadoop 특정 형식
- Dataiku DSS 프로젝트용 파일 업로드
Dataiku DSS의 서버 파일 시스템 개요
관리 폴더 생성 및 사용
- Dataiku DSS 병합 폴더 레시피
- 지역 관리 폴더 vs. 비지역 관리 폴더
관리 폴더 내용을 사용하여 파일 시스템 데이터셋 구성
- DSS 코드 레시피로 정리 수행
메트릭 데이터셋 및 내부 통계 데이터셋 작업
HTTP 데이터셋을 위한 DSS 다운로드 레시피 구현
DSS를 사용하여 SQL 데이터셋 및 HDFS 데이터셋 재배치
Dataiku DSS에서 데이터셋 순서 지정
- 작성자 순서 vs. 읽기 시간 순서
Dataiku DSS 프로젝트의 데이터 시각화 탐색 및 준비
Dataiku 스키마, 저장 유형 및 의미 개요
Dataiku DSS에서 데이터 정제, 정규화 및 풍부화 스크립트 수행
Dataiku DSS 차트 인터페이스 및 시각적 집계 유형 작업
DSS의 상호작용 통계 기능 활용
- 단변량 분석 vs. 이변량 분석
- 주성분 분석(PCA) DSS 도구 활용
Dataiku DSS의 머신러닝 개요
- 지도 학습 vs. 비지도 학습
- DSS ML 알고리즘 및 기능 처리 참조
- Dataiku DSS의 딥러닝
DSS 데이터셋 및 레시피에서 유도된 플로우 개요
DSS에서 시각 레시피를 사용하여 기존 데이터셋 변환
사용자 정의 코드 기반 DSS 레시피 활용
DSS 코드 노트북을 사용하여 코드 탐색 및 실험 최적화
웹앱을 사용하여 고급 DSS 시각화 및 사용자 정의 프론트엔드 기능 작성
Dataiku DSS 코드 보고 기능 작업
Data Project 요소 공유 및 DSS 대시보드 익숙해지기
Dataiku DSS 프로젝트를 재사용 가능한 애플리케이션으로 설계 및 패키징
Dataiku DSS의 고급 방법 개요
- DSS를 사용하여 최적화된 데이터셋 분할 구현
- Kubernetes 컨테이너에서 DSS 처리 부분 실행
Dataiku DSS의 협업 및 버전 관리 개요
DSS 프로젝트 테스트를 위한 자동화 시나리오, 메트릭 및 체크 구현
DSS 자동화 노드 및 번들을 사용하여 프로젝트 배포 및 업데이트
Dataiku DSS의 실시간 API 작업
- DSS의 추가 API 및 REST API
Dataiku DSS 시간 시리즈 분석 및 예측
Dataiku DSS에서 프로젝트 보호
- 프로젝트 권한 및 대시보드 권한 관리
- 고급 보안 옵션 구현
Dataiku DSS를 클라우드와 통합
문제 해결
요약 및 결론
요건
- Python, SQL, R 프로그래밍 언어에 대한 경험
- Apache Hadoop 및 Spark를 활용한 데이터 처리 기본 지식
- 기계 학습 개념 및 데이터 모델에 대한 이해
- 통계 분석 및 데이터 사이언스 개념에 대한 배경
- 데이터 시각화 및 커뮤니케이션 경험
대상자
- 엔지니어
- 데이터 사이언티스트
- 데이터 분석가