Course Outline

강화 학습 소개

  • 강화 학습과 그 응용에 대한 개요
  • 지도 학습, 비지도 학습 및 강화 학습의 차이점
  • 주요 개념: 에이전트, 환경, 보상 및 정책

마르코프 결정 과정(MDPs)

  • 상태, 행동, 보상 및 상태 전환 이해
  • 가치 함수 및 벨만 방정식
  • MDPs 해결을 위한 동적 프로그래밍

핵심 RL 알고리즘

  • 표 기반 방법: Q-Learning과 SARSA
  • 정책 기반 방법: REINFORCE 알고리즘
  • 액터-크리틱 프레임워크 및 그 응용

심층 강화 학습

  • 심층 Q-Networks(DQN) 소개
  • 경험 재생 및 타겟 네트워크
  • 정책 기울기와 고급 심층 RL 방법

RL 프레임워크 및 도구

  • OpenAI Gym 및 기타 RL 환경 소개
  • RL 모델 개발을 위한 PyTorch 또는 TensorFlow 사용
  • RL 에이전트 훈련, 테스트 및 벤치마킹

RL의 도전 과제

  • 훈련 중 탐색 및 활용 균형 유지
  • 희소 보상 및 신용 할당 문제 처리
  • RL의 확장성 및 계산 도전 과제

실습 활동

  • Q-Learning 및 SARSA 알고리즘 기본 구현
  • OpenAI Gym에서 DQN 기반 에이전트 훈련하여 간단한 게임 플레이
  • 사용자 지정 환경에서의 RL 모델 성능 개선

요약 및 다음 단계

Requirements

  • 머신러닝의 원리와 알고리즘에 대한 깊은 이해
  • Python 프로그래밍에 능숙함
  • 신경망과 딥러닝 프레임워크에 대한 익숙함

대상

  • 머신러닝 엔지니어
  • AI 전문가
 14 Hours

Number of participants


Price per participant

회원 평가 (1)

Upcoming Courses

Related Categories