Course Outline

Human Feedback(RLHF)에서 Reinforcement Learning 소개

  • RLHF와 그 중요성
  • 감독 학습 미세 조정 방법과의 비교
  • 현대 AI 시스템에서의 RLHF 응용

Human Feedback을 이용한 보상 모델링

  • 인간의 피드백 수집 및 구조화
  • 보상 모델 구축 및 학습
  • 보상 모델 효과성 평가

Proximal Policy Optimization (PPO)을 이용한 학습

  • RLHF를 위한 PPO 알고리즘 개요
  • 보상 모델과 함께 PPO 구현
  • 모델 반복적이고 안전하게 미세 조정

언어 모델의 실제 Fine-Tuning

  • RLHF 작업 흐름에 대한 데이터셋 준비
  • RLHF를 사용하여 작은 LLM 직접 미세 조정
  • 문제점 및 완화 전략

RLHF를 생산 시스템에 확장

  • 인프라 및 계산 고려 사항
  • 품질 보증 및 지속적인 피드백 루프
  • 배포 및 유지보수에 대한 최선책

윤리적 고려 사항 및 편향 완화

  • 인간 피드백의 윤리적 위험 해결
  • 편향 탐지 및 수정 전략
  • 일치성과 안전 출력 보장

사례 연구 및 실제 사례

  • 사례 연구: RLHF를 이용한 ChatGPT 미세 조정
  • 다른 성공적인 RLHF 배포
  • 배운 점과 산업 통찰력

요약 및 다음 단계

Requirements

  • 감독 학습 및 강화 학습의 기본 개념 이해
  • 모델 미세 조정 및 신경망 구조에 대한 경험
  • Python 프로그래밍 및 딥러닝 프레임워크(예: TensorFlow, PyTorch)에 대한 익숙함

대상자

  • Machine Learning 엔지니어
  • 인공지능 연구원
 14 Hours

Number of participants


Price per participant

Upcoming Courses

Related Categories