Course Outline

소개

  • 긍정적인 강화를 통한 학습

Element 중 Reinforcement Learning

중요 용어(행동, 상태, 보상, 정책, 가치, Q-가치 등)

표형 솔루션 방법 개요

소프트웨어 에이전트 생성

가치 기반, 정책 기반 및 모델 기반 접근 방식 이해

마르코프 결정 프로세스(MDP)를 사용하여 작업하기

정책이 에이전트의 행동 방식을 정의하는 방법

몬테카를로 방법 사용

시간차 학습

n-단계 Bootstrap핑

대략적인 해결 방법

근사치를 사용한 정책 예측

근사치를 사용한 정책 제어

근사화를 사용한 오프 정책 방법

자격 추적 이해

정책 그래디언트 방법 사용

요약 및 결론

Requirements

  • 머신러닝 경험
  • Programming 경험

청중

  • 데이터 과학자
 21 Hours

Number of participants


Price per participant

Upcoming Courses

Related Categories