Course Outline
Machine Learning 머신러닝 개요
- 유퍼바이즈드와 언슈퍼바이즈드 머신러닝의 종류
- 통계적 학습에서 머신러닝으로
- 데이터 마이닝 워크플로우: 비즈니스 이해, 데이터 준비, 모델링, 배포
- 작업에 맞는 적절한 알고리즘 선택
- 오버피팅과 편향-분산 트레이드오프
Python 및 ML 라이브러리 개요
- 머신러닝을 위한 프로그래밍 언어 사용 이유
- R과 Python 선택
- Python 개요 및 Jupyter Notebooks
- Python 라이브러리: pandas, NumPy, scikit-learn, matplotlib, seaborn
ML 알고리즘 테스트 및 평가
- 일반화, 과적합 및 모델 검증
- 평가 전략: 홀드아웃, 교차 검증, 부트스트래핑
- 회귀를 위한 지표: ME, MSE, RMSE, MAPE
- 분류를 위한 지표: 정확도, 혼동 행렬, 불균형 클래스
- 모델 성능 시각화: 이익 곡선, ROC 곡선, 리프트 곡선
- 모델 선택 및 그리드 서치 튜닝
데이터 준비
- Python에서 데이터 가져오기 및 저장
- 탐색적 분석 및 요약 통계
- 결측값 및 이상치 처리
- 표준화, 정규화 및 변환
- pandas를 사용한 질적 데이터 재인코딩 및 데이터 처리
분류 알고리즘
- 이진 분류와 다중 분류
- 로지스틱 회귀 및 판별 함수
- 나이브 베이즈, k-최근접 이웃
- 결정 트리: CART, Random Forests, Bagging, Boosting, XGBoost
- 서포트 벡터 머신 및 커널
- 앙상블 학습 기법
회귀 및 수치 예측
- 최소제곱법 및 변수 선택
- 정규화 방법: L1, L2
- 다항 회귀 및 비선형 모델
- 회귀 트리와 스플라인
Unsupervised Learning
- 군집화 기법: k-평균, k-중심, 계층적 군집화, SOMs
- 차원 축소: PCA, 요인 분석, SVD
- 다차원 척도법
텍스트 마이닝
- 텍스트 전처리 및 토큰화
- Bag-of-words, 어간 추출 및 표제어 추출
- 감성 분석 및 단어 빈도
- 워드 클라우드를 사용한 텍스트 데이터 시각화
추천 시스템
- 사용자 기반 및 항목 기반 협업 필터링
- 추천 엔진 설계 및 평가
연관 패턴 마이닝
- 자주 발생하는 항목 집합 및 Apriori 알고리즘
- 마켓 바스켓 분석 및 리프트 비율
이상치 탐지
- 극단치 분석
- 거리 기반 및 밀도 기반 방법
- 고차원 데이터에서 이상치 탐지
Machine Learning 사례 연구
- 비즈니스 문제 이해
- 데이터 전처리 및 특징 공학
- 모델 선택 및 매개변수 튜닝
- 평가 및 결과 제시
- 배포
요약 및 다음 단계
Requirements
- 통계 및 선형대수학에 대한 기본 이해
- 데이터 분석 또는 비즈니스 인텔리전스 개념에 대한 숙지
- 프로그래밍에 대한 경험 (가능하면 Python 또는 R)이 권장됩니다
- 데이터 기반 프로젝트에서 응용 기계 학습을 배우려는 관심
대상
- 데이터 분석가 및 과학자
- 통계학자 및 연구 전문가
- 기계 학습 도구를 탐색하는 개발자 및 IT 전문가
- 데이터 과학 또는 예측 분석 프로젝트에 참여하는 모든 사람
회원 평가 (3)
Even with having to miss a day due to customer meetings, I feel I have a much clearer understanding of the processes and techniques used in Machine Learning and when I would use one approach over another. Our challenge now is to practice what we have learned and start to apply it to our problem domain
Richard Blewett - Rock Solid Knowledge Ltd
Course - Machine Learning – Data science
I like that training was focused on examples and coding. I thought that it is impossible to pack so much content into three days of training, but I was wrong. Training covered many topics and everything was done in a very detailed manner (especially tuning of model's parameters - I didn't expected that there will be a time for this and I was gratly surprised).
Bartosz Rosiek - GE Medical Systems Polska Sp. Zoo
Course - Machine Learning – Data science
It is showing many methods with pre prepared scripts- very nicely prepared materials & easy to traceback