Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Course Outline
소개
- 긍정적인 강화를 통한 학습
Element 중 Reinforcement Learning
중요 용어(행동, 상태, 보상, 정책, 가치, Q-가치 등)
표형 솔루션 방법 개요
소프트웨어 에이전트 생성
가치 기반, 정책 기반 및 모델 기반 접근 방식 이해
마르코프 결정 프로세스(MDP)를 사용하여 작업하기
정책이 에이전트의 행동 방식을 정의하는 방법
몬테카를로 방법 사용
시간차 학습
n-단계 Bootstrap핑
대략적인 해결 방법
근사치를 사용한 정책 예측
근사치를 사용한 정책 제어
근사화를 사용한 오프 정책 방법
자격 추적 이해
정책 그래디언트 방법 사용
요약 및 결론
Requirements
- 머신러닝 경험
- Programming 경험
청중
- 데이터 과학자
21 Hours