Course Outline
머신 러닝 소개
- 머신 러닝의 종류 – 지도 학습 vs 비지도 학습
- 통계적 학습에서 머신 러닝으로
- 데이터 마이닝 워크플로: 비즈니스 이해, 데이터 준비, 모델링, 배포
- 작업에 맞는 알고리즘 선택
- 과적합과 편향-분산 트레이드오프
Python과 ML 라이브러리 개요
- 머신 러닝을 위해 프로그래밍 언어를 사용하는 이유
- R과 Python 중 선택하기
- Python 빠른 시작 및 Jupyter Notebooks
- Python 라이브러리: pandas, NumPy, scikit-learn, matplotlib, seaborn
ML 알고리즘 테스트 및 평가
- 일반화, 과적합 및 모델 검증
- 평가 전략: 홀드아웃, 교차 검증, 부트스트래핑
- 회귀를 위한 지표: ME, MSE, RMSE, MAPE
- 분류를 위한 지표: 정확도, 혼동 행렬, 불균형 클래스
- 모델 성능 시각화: 이익 곡선, ROC 곡선, 리프트 곡선
- 모델 선택 및 그리드 서치 튜닝
데이터 준비
- Python에서의 데이터 가져오기 및 저장
- 탐색적 분석 및 요약 통계
- 누락값 및 이상치 처리
- 표준화, 정규화 및 변환
- pandas를 이용한 질적 데이터 재인코딩 및 데이터 정제
분류 알고리즘
- 이진 분류 vs 다중 클래스 분류
- 로지스틱 회귀 및 판별 함수
- 나이브 베이즈, k-최근접 이웃
- 결정 트리: CART, 랜덤 포레스트, 배깅, 부스팅, XGBoost
- 서포트 벡터 머신 및 커널
- 앙상블 학습 기법
회귀 및 수치 예측
- 최소제곱법 및 변수 선택
- 정규화 방법: L1, L2
- 다항 회귀 및 비선형 모델
- 회귀 트리와 스플라인
신경망
- 신경망 및 딥러닝 소개
- 활성화 함수, 레이어 및 역전파
- 다층 퍼셉트론(MLP)
- TensorFlow 또는 PyTorch를 이용한 기본 신경망 모델링
- 분류 및 회귀를 위한 신경망
판매 예측 및 예측 분석
- 시간 시리즈 vs 회귀 기반 예측
- 계절성 및 트렌드 기반 데이터 처리
- ML 기법을 이용한 판매 예측 모델 구축
- 예측 정확도 및 불확실성 평가
- 결과의 비즈니스 해석 및 커뮤니케이션
비지도 학습
- 클러스터링 기법: k-평균, k-중심, 계층적 클러스터링, SOMs
- 차원 축소: PCA, 요인 분석, SVD
- 다차원 척도법
텍스트 마이닝
- 텍스트 전처리 및 토큰화
- 바구니 단어, 어간 추출, 어형 원형 추출
- 감정 분석 및 단어 빈도
- 워드 클라우드를 통한 텍스트 데이터 시각화
추천 시스템
- 사용자 기반 및 아이템 기반 협업 필터링
- 추천 엔진 설계 및 평가
연관 패턴 마이닝
- 빈발 항목집합 및 Apriori 알고리즘
- 마켓 바스켓 분석 및 리프트 비율
이상치 탐지
- 극단값 분석
- 거리 기반 및 밀도 기반 방법
- 고차원 데이터에서의 이상치 탐지
머신 러닝 사례 연구
- 비즈니스 문제 이해
- 데이터 전처리 및 피처 엔지니어링
- 모델 선택 및 매개변수 튜닝
- 평가 및 결과 발표
- 배포
요약 및 다음 단계
Requirements
- 머신러닝의 기본 개념인 지도 학습과 비지도 학습에 대한 이해
- Python 프로그래밍에 대한 familiarity (변수, 반복문, 함수)
- pandas 또는 NumPy와 같은 라이브러리를 사용하여 데이터를 처리하는 경험은 유용하지만 필수는 아님
- 고급 모델링이나 신경망에 대한 사전 경험은 필요하지 않음
대상
- 데이터 과학자
- 비즈니스 분석가
- 데이터와 함께 작업하는 소프트웨어 엔지니어 및 기술 전문가
회원 평가 (2)
the ML ecosystem not only MLFlow but Optuna, hyperops, docker , docker-compose
Guillaume GAUTIER - OLEA MEDICAL
Course - MLflow
I enjoyed participating in the Kubeflow training, which was held remotely. This training allowed me to consolidate my knowledge for AWS services, K8s, all the devOps tools around Kubeflow which are the necessary bases to properly tackle the subject. I wanted to thank Malawski Marcin for his patience and professionalism for training and advice on best practices. Malawski approaches the subject from different angles, different deployment tools Ansible, EKS kubectl, Terraform. Now I am definitely convinced that I am going into the right field of application.