문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
예약을 보내주셔서 감사합니다! 저희 팀 멤버 중 한 분이 곧 연락드리겠습니다.
코스 개요
AI 주권(LLM 로컬 배포)
- 클라우드 LLM의 리스크: 데이터 보존, 입력 기반 학습, 해외 관할권
- Ollama 아키텍처: 모델 서버, 레지스트리 및 OpenAI 호환 API
- vLLM, llama.cpp, Text Generation Inference와의 비교
- 모델 라이선스: Llama, Mistral, Qwen, Gemma 사용 조건
설치 및 하드웨어 설정
- CUDA 및 ROCm 지원을 갖춘 Linux에 Ollama 설치
- CPU 전용 폴백(후보) 및 AVX/AVX2 최적화
- Docker 배포 및 지속적 볼륨 매핑
- 멀티 GPU 설정 및 VRAM 할당 전략
모델 관리
- Ollama 레지스트리에서 모델 다운로드: ollama pull llama3
- HuggingFace 및 TheBloke에서 GGUF 모델 가져오기
- 양자화 수준: Q4_K_M, Q5_K_M, Q8_0의 트레이드오프
- 모델 전환 및 동시 모델 로딩 한계
사용자 정의 Modelfile
- Modelfile 구문 작성: FROM, PARAMETER, SYSTEM, TEMPLATE
- temperature, top_p, repeat_penalty 튜닝
- 역할 기반 동작을 위한 시스템 프롬프트 엔지니어링
- 로컬 레지스트리에 사용자 정의 모델 생성 및 게시
API 통합
- OpenAI 호환 /v1/chat/completions 엔드포인트
- 스트리밍 응답 및 JSON 모드
- LangChain, LlamaIndex 및 맞춤형 애플리케이션과 통합
- 리버스 프록시를 통한 인증 및 속도 제한
성능 최적화
- 컨텍스트 창 크기 조정 및 KV 캐시 관리
- 배치 추론 및 병렬 요청 처리
- CPU 스레드 할당 및 NUMA 인식(NUMA awareness)
- GPU 활용도 및 메모리 압력 모니터링
보안 및 규정 준수
- 모델 제공 엔드포인트를 위한 네트워크 격리
- 입력 필터링 및 출력 검토 파이프라인
- 프롬프트 및 응답에 대한 감사 로깅
- 모델 원천 추적 및 해시 검증
요건
- 중급 수준의 Linux 및 컨테이너 관리 경험
- 머신러닝 및 트랜스포머 모델에 대한 고수준 이해
- REST API 및 JSON에 대한 친숙함
대상
- 클라우드 LLM API를 교체하고자 하는 AI 엔지니어 및 개발자
- 데이터 기밀성 때문에 클라우드 모델 사용이 제한되는 조직
- 에어갭(air-gapped) 환경의 언어 모델이 필요한 정부 및 방산 팀
14 시간