코스 개요

1. 심층 강화 학습 소개

  • 강화 학습이 무엇인가요?
  • 지도 학습, 비지도 학습, 강화 학습 간의 차이점
  • 2025년 DRL의 응용 분야 (로보틱스, 헬스케어, 금융, 물류)
  • 에이전트-환경 상호작용 루프 이해

2. 강화 학습 기초

  • 마르코프 의사결정 과정 (MDP)
  • 상태, 행동, 보상, 정책 및 가치 함수
  • 탐험 vs. 활용 균형
  • 몬테카를로 방법 및 시간 차이(TD) 학습

3. 기본 RL 알고리즘 구현

  • 표 기반 방법: 동적 프로그래밍, 정책 평가 및 반복
  • Q-러닝 및 SARSA
  • 에psilon-탐욕적인 탐험 및 감소 전략
  • OpenAI Gymnasium을 사용하여 RL 환경 구현

4. 심층 강화 학습으로의 전환

  • 표 기반 방법의 한계
  • 함수 근사를 위한 신경망 사용
  • 심층 Q-Network (DQN) 구조 및 워크플로우
  • 경험 재생 및 타겟 네트워크

5. 고급 DRL 알고리즘

  • Double DQN, Dueling DQN, 우선 경험 재생
  • 정책 기울기 방법: REINFORCE 알고리즘
  • 액터-크리틱 구조(A2C, A3C)
  • 프록시멀 정책 최적화(PPO)
  • Soft Actor-Critic(SAC)

6. 연속 행동 공간 작업

  • 연속 제어의 도전 과제
  • DDPG(심층 결정적 정책 기울기) 사용
  • Twin Delayed DDPG (TD3)

7. 실용적인 도구 및 프레임워크

  • Stable-Baselines3 및 Ray RLlib 사용
  • TensorBoard로 로깅 및 모니터링
  • DRL 모델의 하이퍼파라미터 조정

8. 보상 설계 및 환경 디자인

  • 보상 형성 및 페널티 균형
  • 시뮬레이션에서 실제로의 전이 학습 개념
  • Gymnasium에서 사용자 환경 생성

9. 부분적으로 관찰된 환경 및 일반화

  • 불완전한 상태 정보 처리(POMDPs)
  • LSTMs 및 RNNs를 사용하여 메모리 기반 접근 방식
  • 에이전트의 강인성과 일반화 향상

10. 게임 이론 및 다중 에이전트 강화 학습

  • 다중 에이전트 환경 소개
  • 협력 vs. 경쟁
  • 적대적 학습 및 전략 최적화에 대한 응용

11. 사례 연구 및 실제 응용

  • 자율 주행 시뮬레이션
  • 동적 가격 및 금융 거래 전략
  • 로보틱스 및 산업 자동화

12. 문제 해결 및 최적화

  • 불안정한 학습 진단
  • 보상 희소성과 과적합 관리
  • GPU 및 분산 시스템에서 DRL 모델 확장

13. 요약 및 다음 단계

  • DRL 아키텍처 및 주요 알고리즘 요약
  • 산업 동향 및 연구 방향 (예: RLHF, 혼합 모델)
  • 추가 자료 및 읽을거리

요건

  • 파이썬 프로그래밍에 능숙함
  • 미분학과 선형대수학 이해
  • 확률과 통계의 기본 지식
  • Python과 NumPy 또는 TensorFlow/PyTorch를 사용하여 머신러닝 모델 구축 경험

대상

  • AI와 지능형 시스템에 관심 있는 개발자
  • 강화 학습 프레임워크를 탐구하는 데이터 과학자
  • 자율 시스템과 작업하는 머신러닝 엔지니어
 21 시간

참가자 수


참가자당 가격

회원 평가 (5)

예정된 코스

관련 카테고리