Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Course Outline
Ollama 스케일링 소개
- Ollama의 아키텍처와 스케일링 고려 사항
- 다중 사용자 배포에서 발생하는 일반적인 병목 현상
- 인프라 준비에 대한 모범 사례
리소스 할당 및 GPU 최적화
- 효율적인 CPU/GPU 활용 전략
- 메모리와 대역폭 고려 사항
- 컨테이너 수준 리소스 제한
컨테이너 및 Kubernetes를 통한 배포
- Docker를 사용하여 Ollama 컨테이너화
- Kubernetes 클러스터에서 Ollama 실행
- 로드 밸런싱 및 서비스 디스커버리
자동 스케일링 및 배치
- Ollama를 위한 자동 스케일링 정책 설계
- 처리량 최적화를 위한 배치 추론 기술
- 지연 시간 vs. 처리량 트레이드오프
지연 시간 최적화
- 추론 성능 프로파일링
- 캐싱 전략 및 모델 warm-up
- I/O 및 통신 오버헤드 줄이기
모니터링 및 관찰 가능성
- Prometheus를 통한 지표 통합
- Grafana를 사용하여 대시보드 구축
- Ollama 인프라에 대한 알림 및 사고 대응
비용 관리 및 스케일링 전략
- 비용 인지 GPU 할당
- 클라우드 vs. 온프레미스 배포 고려 사항
- 지속 가능한 스케일링 전략
요약 및 다음 단계
Requirements
- Linux 시스템 관리 경험
- 컨테이너화 및 오케스트레이션 이해
- 머신러닝 모델 배포에 대한 익숙함
대상
- DevOps 엔지니어
- ML 인프라 팀
- 사이트 신뢰성 엔지니어
21 Hours