코스 개요
1. 심층 강화 학습 소개
- 강화 학습이 무엇인가요?
- 지도 학습, 비지도 학습, 강화 학습 간의 차이점
- 2025년 DRL의 응용 분야 (로보틱스, 헬스케어, 금융, 물류)
- 에이전트-환경 상호작용 루프 이해
2. 강화 학습 기초
- 마르코프 의사결정 과정 (MDP)
- 상태, 행동, 보상, 정책 및 가치 함수
- 탐험 vs. 활용 균형
- 몬테카를로 방법 및 시간 차이(TD) 학습
3. 기본 RL 알고리즘 구현
- 표 기반 방법: 동적 프로그래밍, 정책 평가 및 반복
- Q-러닝 및 SARSA
- 에psilon-탐욕적인 탐험 및 감소 전략
- OpenAI Gymnasium을 사용하여 RL 환경 구현
4. 심층 강화 학습으로의 전환
- 표 기반 방법의 한계
- 함수 근사를 위한 신경망 사용
- 심층 Q-Network (DQN) 구조 및 워크플로우
- 경험 재생 및 타겟 네트워크
5. 고급 DRL 알고리즘
- Double DQN, Dueling DQN, 우선 경험 재생
- 정책 기울기 방법: REINFORCE 알고리즘
- 액터-크리틱 구조(A2C, A3C)
- 프록시멀 정책 최적화(PPO)
- Soft Actor-Critic(SAC)
6. 연속 행동 공간 작업
- 연속 제어의 도전 과제
- DDPG(심층 결정적 정책 기울기) 사용
- Twin Delayed DDPG (TD3)
7. 실용적인 도구 및 프레임워크
- Stable-Baselines3 및 Ray RLlib 사용
- TensorBoard로 로깅 및 모니터링
- DRL 모델의 하이퍼파라미터 조정
8. 보상 설계 및 환경 디자인
- 보상 형성 및 페널티 균형
- 시뮬레이션에서 실제로의 전이 학습 개념
- Gymnasium에서 사용자 환경 생성
9. 부분적으로 관찰된 환경 및 일반화
- 불완전한 상태 정보 처리(POMDPs)
- LSTMs 및 RNNs를 사용하여 메모리 기반 접근 방식
- 에이전트의 강인성과 일반화 향상
10. 게임 이론 및 다중 에이전트 강화 학습
- 다중 에이전트 환경 소개
- 협력 vs. 경쟁
- 적대적 학습 및 전략 최적화에 대한 응용
11. 사례 연구 및 실제 응용
- 자율 주행 시뮬레이션
- 동적 가격 및 금융 거래 전략
- 로보틱스 및 산업 자동화
12. 문제 해결 및 최적화
- 불안정한 학습 진단
- 보상 희소성과 과적합 관리
- GPU 및 분산 시스템에서 DRL 모델 확장
13. 요약 및 다음 단계
- DRL 아키텍처 및 주요 알고리즘 요약
- 산업 동향 및 연구 방향 (예: RLHF, 혼합 모델)
- 추가 자료 및 읽을거리
요건
- 파이썬 프로그래밍에 능숙함
- 미분학과 선형대수학 이해
- 확률과 통계의 기본 지식
- Python과 NumPy 또는 TensorFlow/PyTorch를 사용하여 머신러닝 모델 구축 경험
대상
- AI와 지능형 시스템에 관심 있는 개발자
- 강화 학습 프레임워크를 탐구하는 데이터 과학자
- 자율 시스템과 작업하는 머신러닝 엔지니어
회원 평가 (5)
Hunter는 훌륭하고, 매우 매력적이고, 지식이 풍부하고, 개성이 뛰어납니다. 아주 잘 했어요.
Rick Johnson - Laramie County Community College
코스 - Artificial Intelligence (AI) Overview
기계 번역됨
Very flexible.
Frank Ueltzhoffer
코스 - Artificial Neural Networks, Machine Learning and Deep Thinking
I liked the new insights in deep machine learning.
Josip Arneric
코스 - Neural Network in R
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
코스 - Introduction to the use of neural networks
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.