연락처 정보

코스 개요

테센트 후위안 프로덕션 기초

  • 테센트 후위안 모델 서비스 시나리오 개요
  • 대규모 모델 및 MoE 모델의 프로덕션 특성
  • 일반적인 지연 시간, 처리량, 비용 병목 현상
  • 추론 워크로드에 대한 서비스 수준 목표(SLO) 정의

배포 아키텍처 및 서비스 흐름

  • 프로덕션 추론 스택의 핵심 구성 요소
  • 컨테이너화, 온프레미스, 클라우드 배포 모델 간 선택
  • 모델 로딩, 요청 라우팅, GPU 할당 기초
  • 신뢰성과 운영 단순성을 고려한 설계

실무적 지연 시간 최적화

  • 적용 가능한 경우 TensorRT와 같은 최적화된 추론 엔진 활용
  • KV-cache 개념 및 실용적 캐시 튜닝
  • 시작 시간, 워밍업, 응답 오버헤드 감소
  • 첫 번째 토큰 도달 시간 및 토큰 생성 속도 측정

처리량, 배치 처리 및 GPU 효율성

  • 지속적 배치 처리 및 요청 배치 전략
  • 동시성 및 큐 동작 관리
  • 사용자 경험을 해치지 않으면서 GPU 활용률 향상
  • 긴 컨텍스트 및 혼합 워크로드 요청 처리

양자화 및 비용 통제

  • 프로덕션 서비스에서 양자화가 중요한 이유
  • FP16, INT8 및 기타 일반적인 정밀도 옵션의 실용적 트레이드오프
  • 모델 품질, 지연 시간, 인프라 비용 간의 균형 유지
  • 간단한 비용 최적화 체크리스트 작성

운영, 모니터링 및 준비도 검토

  • 추론 서비스를 위한 오토스케일링 트리거
  • 지연 시간, 처리량, 캐시 사용량, GPU 상태 모니터링
  • 로깅, 경고, 사고 대응 기초
  • 참조 배포 사례 검토 및 개선 계획 수립

요건

  • 대규모 언어 모델 배포 및 추론 워크플로우에 대한 기본 이해
  • 컨테이너, 클라우드 또는 온프레미스 인프라, 그리고 API 기반 서비스에 대한 경험
  • Python 또는 시스템 엔지니어링 작업에 대한 실무 지식

대상 독자

  • 프로덕션 환경에 LLM을 배포하는 ML 엔지니어
  • GPU 기반 추론 서비스를 담당하는 플랫폼 엔지니어
  • 확장 가능한 AI 서비스 플랫폼을 설계하는 솔루션 아키텍트
 14 시간

참가자 수


참가자별 가격

예정된 코스

관련 카테고리