문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
Thank you for sending your booking! One of our team members will contact you shortly.
Course Outline
Ollama 스케일링 소개
- Ollama의 아키텍처와 스케일링 고려 사항
- 다중 사용자 배포에서 발생하는 일반적인 병목 현상
- 인프라 준비에 대한 모범 사례
리소스 할당 및 GPU 최적화
- 효율적인 CPU/GPU 활용 전략
- 메모리와 대역폭 고려 사항
- 컨테이너 수준 리소스 제한
컨테이너 및 Kubernetes를 통한 배포
- Docker를 사용하여 Ollama 컨테이너화
- Kubernetes 클러스터에서 Ollama 실행
- 로드 밸런싱 및 서비스 디스커버리
자동 스케일링 및 배치
- Ollama를 위한 자동 스케일링 정책 설계
- 처리량 최적화를 위한 배치 추론 기술
- 지연 시간 vs. 처리량 트레이드오프
지연 시간 최적화
- 추론 성능 프로파일링
- 캐싱 전략 및 모델 warm-up
- I/O 및 통신 오버헤드 줄이기
모니터링 및 관찰 가능성
- Prometheus를 통한 지표 통합
- Grafana를 사용하여 대시보드 구축
- Ollama 인프라에 대한 알림 및 사고 대응
비용 관리 및 스케일링 전략
- 비용 인지 GPU 할당
- 클라우드 vs. 온프레미스 배포 고려 사항
- 지속 가능한 스케일링 전략
요약 및 다음 단계
Requirements
- Linux 시스템 관리 경험
- 컨테이너화 및 오케스트레이션 이해
- 머신러닝 모델 배포에 대한 익숙함
대상
- DevOps 엔지니어
- ML 인프라 팀
- 사이트 신뢰성 엔지니어
21 Hours