Course Outline

소개

  • 긍정적 강화를 통한 학습

Reinforcement Learning 중 Element

중요한 용어(행동, 상태, 보상, 정책, 가치, Q-값 등)

테이블 형식 솔루션 방법 개요

소프트웨어 에이전트 생성

가치 기반, 정책 기반, 모델 기반 접근 방식 이해

마르코프 결정 프로세스(MDP) 작업

정책이 상담원의 행동 방식을 정의하는 방법

몬테카를로 방법 사용

시간차 학습

n단계 Bootstrap핑

대략적인 해결 방법

근사치를 이용한 정책 예측

근사치를 이용한 온폴리시 제어

근사치를 이용한 정책 외 방법

자격 추적 이해

정책 그라데이션 방법 사용

요약 및 결론

Requirements

  • 머신러닝 경험
  • Programming 경험

청중

  • 데이터 과학자
  21 Hours
 

Number of participants


Starts

Ends


Dates are subject to availability and take place between 10:00 and 17:00.
Open Training Courses require 5+ participants.

Related Courses

AI and Robotics for Nuclear - Extended

  120 Hours

AI and Robotics for Nuclear

  80 Hours

Related Categories