Course Outline

소개

  • 긍정적 강화를 통한 학습

Reinforcement Learning 중 Element

중요한 용어(행동, 상태, 보상, 정책, 가치, Q-값 등)

테이블 형식 솔루션 방법 개요

소프트웨어 에이전트 생성

가치 기반, 정책 기반, 모델 기반 접근 방식 이해

마르코프 결정 프로세스(MDP) 작업

정책이 상담원의 행동 방식을 정의하는 방법

몬테카를로 방법 사용

시간차 학습

n단계 Bootstrap핑

대략적인 해결 방법

근사치를 이용한 정책 예측

근사치를 이용한 온폴리시 제어

근사치를 이용한 정책 외 방법

자격 추적 이해

정책 그라데이션 방법 사용

요약 및 결론

Requirements

  • 머신러닝 경험
  • Programming 경험

청중

  • 데이터 과학자
 21 Hours

Number of participants



Price per participant

Related Courses

AI and Robotics for Nuclear - Extended

120 Hours

AI and Robotics for Nuclear

80 Hours

Related Categories