Course Outline

머신 러닝 소개

  • 머신 러닝의 종류 – 지도 학습 vs 비지도 학습
  • 통계적 학습에서 머신 러닝으로
  • 데이터 마이닝 워크플로: 비즈니스 이해, 데이터 준비, 모델링, 배포
  • 작업에 맞는 알고리즘 선택
  • 과적합과 편향-분산 트레이드오프

Python과 ML 라이브러리 개요

  • 머신 러닝을 위해 프로그래밍 언어를 사용하는 이유
  • R과 Python 중 선택하기
  • Python 빠른 시작 및 Jupyter Notebooks
  • Python 라이브러리: pandas, NumPy, scikit-learn, matplotlib, seaborn

ML 알고리즘 테스트 및 평가

  • 일반화, 과적합 및 모델 검증
  • 평가 전략: 홀드아웃, 교차 검증, 부트스트래핑
  • 회귀를 위한 지표: ME, MSE, RMSE, MAPE
  • 분류를 위한 지표: 정확도, 혼동 행렬, 불균형 클래스
  • 모델 성능 시각화: 이익 곡선, ROC 곡선, 리프트 곡선
  • 모델 선택 및 그리드 서치 튜닝

데이터 준비

  • Python에서의 데이터 가져오기 및 저장
  • 탐색적 분석 및 요약 통계
  • 누락값 및 이상치 처리
  • 표준화, 정규화 및 변환
  • pandas를 이용한 질적 데이터 재인코딩 및 데이터 정제

분류 알고리즘

  • 이진 분류 vs 다중 클래스 분류
  • 로지스틱 회귀 및 판별 함수
  • 나이브 베이즈, k-최근접 이웃
  • 결정 트리: CART, 랜덤 포레스트, 배깅, 부스팅, XGBoost
  • 서포트 벡터 머신 및 커널
  • 앙상블 학습 기법

회귀 및 수치 예측

  • 최소제곱법 및 변수 선택
  • 정규화 방법: L1, L2
  • 다항 회귀 및 비선형 모델
  • 회귀 트리와 스플라인

신경망

  • 신경망 및 딥러닝 소개
  • 활성화 함수, 레이어 및 역전파
  • 다층 퍼셉트론(MLP)
  • TensorFlow 또는 PyTorch를 이용한 기본 신경망 모델링
  • 분류 및 회귀를 위한 신경망

판매 예측 및 예측 분석

  • 시간 시리즈 vs 회귀 기반 예측
  • 계절성 및 트렌드 기반 데이터 처리
  • ML 기법을 이용한 판매 예측 모델 구축
  • 예측 정확도 및 불확실성 평가
  • 결과의 비즈니스 해석 및 커뮤니케이션

비지도 학습

  • 클러스터링 기법: k-평균, k-중심, 계층적 클러스터링, SOMs
  • 차원 축소: PCA, 요인 분석, SVD
  • 다차원 척도법

텍스트 마이닝

  • 텍스트 전처리 및 토큰화
  • 바구니 단어, 어간 추출, 어형 원형 추출
  • 감정 분석 및 단어 빈도
  • 워드 클라우드를 통한 텍스트 데이터 시각화

추천 시스템

  • 사용자 기반 및 아이템 기반 협업 필터링
  • 추천 엔진 설계 및 평가

연관 패턴 마이닝

  • 빈발 항목집합 및 Apriori 알고리즘
  • 마켓 바스켓 분석 및 리프트 비율

이상치 탐지

  • 극단값 분석
  • 거리 기반 및 밀도 기반 방법
  • 고차원 데이터에서의 이상치 탐지

머신 러닝 사례 연구

  • 비즈니스 문제 이해
  • 데이터 전처리 및 피처 엔지니어링
  • 모델 선택 및 매개변수 튜닝
  • 평가 및 결과 발표
  • 배포

요약 및 다음 단계

Requirements

  • 머신러닝의 기본 개념인 지도 학습과 비지도 학습에 대한 이해
  • Python 프로그래밍에 대한 familiarity (변수, 반복문, 함수)
  • pandas 또는 NumPy와 같은 라이브러리를 사용하여 데이터를 처리하는 경험은 유용하지만 필수는 아님
  • 고급 모델링이나 신경망에 대한 사전 경험은 필요하지 않음

대상

  • 데이터 과학자
  • 비즈니스 분석가
  • 데이터와 함께 작업하는 소프트웨어 엔지니어 및 기술 전문가
 28 Hours

Number of participants


Price per participant

회원 평가 (2)

Upcoming Courses

Related Categories