코스 개요

강화 학습과 에이전트 AI 소개

  • 불확실성 하의 의사 결정과 순차적 계획
  • RL의 주요 구성 요소: 에이전트, 환경, 상태, 보상
  • 적응형 및 에이전트 AI 시스템에서 RL의 역할

마르코프 결정 과정(MDPs)

  • MDPs의 정식 정의와 속성
  • 가치 함수, 벨만 방정식, 동적 프로그래밍
  • 정책 평가, 개선, 반복

모델 프리 강화 학습

  • 몬테카를로와 시간 차이(TD) 학습
  • Q-학습과 SARSA
  • 실습: Python을 사용한 표준 RL 방법 구현

딥 강화 학습

  • 함수 근사에 신경망과 RL 결합
  • 딥 Q-네트워크(DQN)와 경험 재생
  • 액터-크리틱 구조와 정책 그래디언트
  • 실습: DQN과 PPO를 사용하여 에이전트 훈련 (Stable-Baselines3)

탐사 전략과 보상 설계

  • 탐사와 활용 균형 (ε-greedy, UCB, 엔트로피 방법)
  • 보상 함수 설계와 부작용 방지
  • 보상 설계와 커리큘럼 학습

RL과 의사 결정의 고급 주제

  • 다중 에이전트 강화 학습과 협력 전략
  • 계층적 강화 학습과 옵션 프레임워크
  • 오프라인 RL과 모방 학습을 통한 안전한 배포

시뮬레이션 환경과 평가

  • OpenAI Gym 및 사용자 정의 환경 사용
  • 연속적 vs. 이산 액션 공간
  • 에이전트 성능, 안정성, 샘플 효율성에 대한 평가 지표

RL을 에이전트 AI 시스템에 통합

  • 하이브리드 에이전트 아키텍처에서 추론과 RL 결합
  • 도구 사용 에이전트와의 강화 학습 통합
  • 확장 및 배포를 위한 운영적 고려 사항

캡스톤 프로젝트

  • 시뮬레이션 작업을 위한 강화 학습 에이전트 설계 및 구현
  • 훈련 성능 분석 및 하이퍼파라미터 최적화
  • 에이전트 상황에서 적응 행동과 의사 결정 시연

요약 및 다음 단계

요건

  • Python 프로그래밍에 대한 뛰어난 능력
  • 기계 학습과 딥러닝 개념에 대한 확실한 이해
  • 선형 대수, 확률, 기본 최적화 방법에 대한 익숙함

대상자

  • 강화 학습 엔지니어와 적용 AI 연구원
  • 로봇 공학 및 자동화 개발자
  • 적응형과 에이전트 AI 시스템을 작업하는 엔지니어 팀
 28 시간

참가자 수


참가자별 가격

회원 평가 (3)

예정된 코스

관련 카테고리