문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
예약을 보내주셔서 감사합니다! 저희 팀 멤버 중 한 분이 곧 연락드리겠습니다.
코스 개요
소개
- 긍정적인 강화를 통한 학습
Element 중 Reinforcement Learning
중요 용어(행동, 상태, 보상, 정책, 가치, Q-가치 등)
표형 솔루션 방법 개요
소프트웨어 에이전트 생성
가치 기반, 정책 기반 및 모델 기반 접근 방식 이해
마르코프 결정 프로세스(MDP)를 사용하여 작업하기
정책이 에이전트의 행동 방식을 정의하는 방법
몬테카를로 방법 사용
시간차 학습
n-단계 Bootstrap핑
대략적인 해결 방법
근사치를 사용한 정책 예측
근사치를 사용한 정책 제어
근사화를 사용한 오프 정책 방법
자격 추적 이해
정책 그래디언트 방법 사용
요약 및 결론
요건
- 머신러닝 경험
- Programming 경험
청중
- 데이터 과학자
21 시간