Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Course Outline
소개
- 긍정적 강화를 통한 학습
Reinforcement Learning 중 Element
중요한 용어(행동, 상태, 보상, 정책, 가치, Q-값 등)
테이블 형식 솔루션 방법 개요
소프트웨어 에이전트 생성
가치 기반, 정책 기반, 모델 기반 접근 방식 이해
마르코프 결정 프로세스(MDP) 작업
정책이 상담원의 행동 방식을 정의하는 방법
몬테카를로 방법 사용
시간차 학습
n단계 Bootstrap핑
대략적인 해결 방법
근사치를 이용한 정책 예측
근사치를 이용한 온폴리시 제어
근사치를 이용한 정책 외 방법
자격 추적 이해
정책 그라데이션 방법 사용
요약 및 결론
Requirements
- 머신러닝 경험
- Programming 경험
청중
- 데이터 과학자
21 Hours