코스 개요

도입

  • 데이터 과학 프로세스
  • 데이터 과학자의 역할과 책임

개발 환경 준비

  • 라이브러리, 프레임워크, 언어 및 도구
  • 로컬 개발
  • 협업 기반 웹 개발

데이터 수집

  • 다양한 유형의 데이터
    • 구조화된 데이터
      • 로컬 데이터베이스
      • 데이터베이스 연결자
      • 일반 형식: xlxs, XML, Json, csv, ...
    • 비구조화된 데이터
      • 클릭, 센서, 스마트폰
      • API
      • 사물인터넷 (IoT)
      • 문서, 사진, 비디오, 소리
  • 사례 연구: 대량의 비구조화된 데이터 지속적으로 수집하기

데이터 저장

  • 관계형 데이터베이스
  • 비관계형 데이터베이스
  • Hadoop: 분산 파일 시스템 (HDFS)
  • Spark: 탄력적인 분산 데이터셋 (RDD)
  • 클라우드 저장소

데이터 준비

  • 수집, 선택, 정화, 변환
  • 데이터 품질 보장 - 올바름, 의미성, 보안성
  • 예외 보고서

데이터 준비, 처리 및 분석에 사용되는 언어

  • R 언어
    • R 소개
    • 데이터 조작, 계산 및 그래픽 표시
  • Python
    • Python 소개
    • 데이터 조작, 처리, 정화, 분석

데이터 분석

  • 탐색적 분석
    • 기본 통계
    • 초안 시각화
    • 데이터 이해
  • 인과관계
  • 특성 및 변환
  • 기계 학습
    • 지도학습 vs 비지도학습
    • 언제 어떤 모델을 사용할 것인지
  • 자연어 처리 (NLP)

데이터 시각화

  • 최선의 실천
  • 적합한 차트 선택하기
  • 색상 팔레트
  • 다음 단계로 발전시키기
    • 대시보드
    • 상호작용형 시각화
  • 데이터로 이야기하기

요약 및 결론

요건

  • 데이터베이스 개념에 대한 일반적인 이해
  • 통계에 대한 기본적인 이해
 35 시간

참가자 수


참가자당 가격

회원 평가 (1)

예정된 코스

관련 카테고리