Course Outline
소개
Dataiku Data Science Studio(DSS) 설치 및 구성
- Dataiku DSS의 시스템 요구 사항
- Apache Hadoop 및 Apache Spark 통합 설정
- 웹 프록시로 Dataiku DSS 구성
- 다른 플랫폼에서 Dataiku DSS로 마이그레이션
Dataiku DSS 기능 및 아키텍처 개요
- Dataiku DSS의 기초가 되는 핵심 개체 및 그래프
- Dataiku DSS의 레시피는 무엇입니까?
- Dataiku DSS가 지원하는 데이터 세트 유형
Dataiku DSS 프로젝트 생성
Dataiku DSS의 데이터 리소스에 연결하기 위한 데이터 세트 정의
- DSS 커넥터 및 파일 형식 작업
- 표준 DSS 형식과 Hadoop 특정 형식
- Dataiku DSS 프로젝트용 파일 업로드
Dataiku DSS의 서버 파일 시스템 개요
관리되는 폴더 생성 및 사용
- 병합 폴더를 위한 Dataiku DSS 레시피
- 로컬 및 비로컬 관리 폴더
관리되는 폴더 콘텐츠를 사용하여 파일 시스템 데이터 세트 구성
- DSS 코드 레시피로 정리 수행
측정항목 데이터세트 및 내부 통계 데이터세트 작업
HTTP 데이터 세트에 대한 DSS 다운로드 레시피 구현
DSS를 사용하여 SQL 데이터 세트 및 HDFS 데이터 세트 재배치
Dataiku DSS에서 데이터 세트 주문
- 기록기 순서와 읽기 시간 순서
Dataiku DSS 프로젝트를 위한 데이터 시각화 탐색 및 준비
Dataiku 스키마, 저장소 유형 및 의미 개요
Dataiku DSS에서 데이터 정리, 정규화 및 강화 스크립트 수행
Dataiku DSS 차트 인터페이스 및 시각적 집계 유형 작업
DSS의 Interactive Statistics 기능 활용
- 일변량 분석과 이변량 분석 비교
- 주성분 분석(PCA) DSS 도구 활용
Dataiku DSS를 사용한 Machine Learning 개요
- 감독된 ML과 감독되지 않은 ML
- DSS ML 알고리즘 및 기능 처리에 대한 참조
- Deep Learning Dataiku DSS 사용
DSS 데이터 세트 및 레시피에서 파생된 흐름 개요
시각적 레시피를 사용하여 DSS의 기존 데이터세트 변환
사용자 정의 코드 기반 DSS 레시피 활용
DSS 코드 노트북으로 코드 탐색 및 실험 최적화
웹앱을 사용하여 고급 DSS 시각화 및 사용자 정의 프런트엔드 기능 작성
Dataiku DSS 코드 보고서 기능 작업
데이터 프로젝트 Element 공유 및 DSS 대시보드 익히기
재사용 가능한 애플리케이션으로 Dataiku DSS 프로젝트 설계 및 패키징
Dataiku DSS의 고급 방법 개요
- DSS를 사용하여 최적화된 데이터 세트 파티셔닝 구현
- Kubernetes 컨테이너의 계산을 통해 특정 DSS 처리 부분을 실행
Dataiku DSS의 Collaboration 및 버전 관리 개요
DSS 프로젝트 테스트를 위한 자동화 시나리오, 지표 및 검사 구현
DSS 자동화 노드 및 번들을 사용하여 프로젝트 배포 및 업데이트
Dataiku DSS에서 실시간 API 작업
- DSS의 추가 API 및 Rest API
분석 및 Forecasting Dataiku DSS 시계열
Dataiku DSS에서 프로젝트 보안
- 프로젝트 권한 및 대시보드 권한 관리
- 고급 보안 옵션 구현
Dataiku DSS를 클라우드와 통합
문제 해결
요약 및 결론
Requirements
- Python, SQL 및 R 프로그래밍 언어 사용 경험
- Apache Hadoop 및 Spark를 사용한 데이터 처리에 대한 기본 지식
- 머신러닝 개념 및 데이터 모델 이해
- 통계 분석 및 데이터 과학 개념의 배경
- 데이터 시각화 및 전달 경험
청중
- 엔지니어
- 데이터 과학자
- 데이터 분석가