Course Outline

Ollama 스케일링 소개

  • Ollama의 아키텍처와 스케일링 고려 사항
  • 다중 사용자 배포에서 발생하는 일반적인 병목 현상
  • 인프라 준비에 대한 모범 사례

리소스 할당 및 GPU 최적화

  • 효율적인 CPU/GPU 활용 전략
  • 메모리와 대역폭 고려 사항
  • 컨테이너 수준 리소스 제한

컨테이너 및 Kubernetes를 통한 배포

  • Docker를 사용하여 Ollama 컨테이너화
  • Kubernetes 클러스터에서 Ollama 실행
  • 로드 밸런싱 및 서비스 디스커버리

자동 스케일링 및 배치

  • Ollama를 위한 자동 스케일링 정책 설계
  • 처리량 최적화를 위한 배치 추론 기술
  • 지연 시간 vs. 처리량 트레이드오프

지연 시간 최적화

  • 추론 성능 프로파일링
  • 캐싱 전략 및 모델 warm-up
  • I/O 및 통신 오버헤드 줄이기

모니터링 및 관찰 가능성

  • Prometheus를 통한 지표 통합
  • Grafana를 사용하여 대시보드 구축
  • Ollama 인프라에 대한 알림 및 사고 대응

비용 관리 및 스케일링 전략

  • 비용 인지 GPU 할당
  • 클라우드 vs. 온프레미스 배포 고려 사항
  • 지속 가능한 스케일링 전략

요약 및 다음 단계

Requirements

  • Linux 시스템 관리 경험
  • 컨테이너화 및 오케스트레이션 이해
  • 머신러닝 모델 배포에 대한 익숙함

대상

  • DevOps 엔지니어
  • ML 인프라 팀
  • 사이트 신뢰성 엔지니어
 21 Hours

Number of participants


Price per participant

Upcoming Courses

Related Categories