Course Outline
Machine Learning 머신러닝 소개
- 지정된 학습과 비지정된 학습의 종류 – 지도 학습 vs 비지도 학습
- 통계적 학습에서 머신러닝으로
- 데이터 마이닝 워크플로우: 비즈니스 이해, 데이터 준비, 모델링, 배포
- 작업에 맞는 적절한 알고리즘 선택
- 과적합과 편향-분산 트레이드오프
Python 및 ML 라이브러리 개요
- 프로그래밍 언어를 ML에 사용하는 이유
- R과 Python 사이에서 선택
- Python 빠른 시작 및 Jupyter Notebooks
- Python 라이브러리: pandas, NumPy, scikit-learn, matplotlib, seaborn
ML 알고리즘 테스트 및 평가
- 일반화, 과적합 및 모델 검증
- 평가 전략: 홀드아웃, 교차 검증, 부트스트래핑
- 회귀에 대한 메트릭: ME, MSE, RMSE, MAPE
- 분류에 대한 메트릭: 정확도, 혼동 행렬, 불균형 클래스
- 모델 성능 시각화: 수익 곡선, ROC 곡선, 리프트 곡선
- 모델 선택 및 그리드 검색 튜닝
데이터 준비
- Python에서의 데이터 수입 및 저장
- 탐색적 분석 및 요약 통계
- 결측 값 및 이상치 처리
- 표준화, 정규화 및 변환
- pandas를 사용한 질적 데이터 재인코딩 및 데이터 정리
분류 알고리즘
- 이진 vs 다중 클래스 분류
- 로지스틱 회귀 및 판별 함수
- Naïve Bayes, k-최근접 이웃
- 결정 트리: CART, Random Forests, Bagging, Boosting, XGBoost
- 서포트 벡터 머신 및 커널
- 앙상블 학습 기법
회귀 및 수치 예측
- 최소 제곱 및 변수 선택
- 규제 방법: L1, L2
- 다항 회귀 및 비선형 모델
- 회귀 트리 및 스플라인
Neural Networks
- 신경망 및 심층 학습 소개
- 활성화 함수, 레이어 및 역전파
- 다층 퍼셉트론 (MLP)
- 기본 신경망 모델링을 위한 TensorFlow 또는 PyTorch 사용
- 분류 및 회귀를 위한 신경망
판매 Forecasting 및 Predictive Analytics
- 시간 시리즈 vs 회귀 기반 예측
- 계절 및 추세 기반 데이터 처리
- ML 기술을 사용하여 판매 예측 모델 구축
- 예측 정확도 및 불확실성 평가
- Business 결과 해석 및 전달
Unsupervised Learning
- 클러스터링 기법: k-means, k-medoids, 계층적 클러스터링, SOMs
- 차원 축소: PCA, 인자 분석, SVD
- 다차원 스케일링
텍스트 마이닝
- 텍스트 전처리 및 토큰화
- Bag-of-words, 어간 추출, 어휘화
- 감성 분석 및 단어 빈도
- 단어 클라우드로 텍스트 데이터 시각화
추천 시스템
- 사용자 기반 및 항목 기반 협업 필터링
- 추천 엔진 설계 및 평가
연관 패턴 마이닝
- 자주 항목 집합 및 Apriori 알고리즘
- 시장 바스켓 분석 및 리프트 비율
이상치 탐지
- 극단값 분석
- 거리 기반 및 밀도 기반 방법
- 고차원 데이터에서의 이상치 탐지
Machine Learning 사례 연구
- 비즈니스 문제 이해
- 데이터 전처리 및 특징 공학
- 모델 선택 및 매개변수 튜닝
- 평가 및 결과 제시
- 배포
요약 및 다음 단계
Requirements
- 기계 학습 개념, 예를 들어 지도 학습과 비지도 학습에 대한 기본 지식
- Python 프로그래밍에 대한 익숙함 (변수, 루프, 함수)
- pandas 또는 NumPy와 같은 라이브러리를 사용한 데이터 처리 경험이 있으면 유용하지만 필수는 아닙니다
- 고급 모델링 또는 신경망에 대한 이전 경험은 필요하지 않습니다
Audience
- 데이터 과학자
- Business 분석가
- 데이터를 다루는 소프트웨어 엔지니어 및 기술 전문가
회원 평가 (2)
the ML ecosystem not only MLFlow but Optuna, hyperops, docker , docker-compose
Guillaume GAUTIER - OLEA MEDICAL
Course - MLflow
I enjoyed participating in the Kubeflow training, which was held remotely. This training allowed me to consolidate my knowledge for AWS services, K8s, all the devOps tools around Kubeflow which are the necessary bases to properly tackle the subject. I wanted to thank Malawski Marcin for his patience and professionalism for training and advice on best practices. Malawski approaches the subject from different angles, different deployment tools Ansible, EKS kubectl, Terraform. Now I am definitely convinced that I am going into the right field of application.