연락처 정보

코스 개요

AI 주권(LLM 로컬 배포)

  • 클라우드 LLM의 리스크: 데이터 보존, 입력 기반 학습, 해외 관할권
  • Ollama 아키텍처: 모델 서버, 레지스트리 및 OpenAI 호환 API
  • vLLM, llama.cpp, Text Generation Inference와의 비교
  • 모델 라이선스: Llama, Mistral, Qwen, Gemma 사용 조건

설치 및 하드웨어 설정

  • CUDA 및 ROCm 지원을 갖춘 Linux에 Ollama 설치
  • CPU 전용 폴백(후보) 및 AVX/AVX2 최적화
  • Docker 배포 및 지속적 볼륨 매핑
  • 멀티 GPU 설정 및 VRAM 할당 전략

모델 관리

  • Ollama 레지스트리에서 모델 다운로드: ollama pull llama3
  • HuggingFace 및 TheBloke에서 GGUF 모델 가져오기
  • 양자화 수준: Q4_K_M, Q5_K_M, Q8_0의 트레이드오프
  • 모델 전환 및 동시 모델 로딩 한계

사용자 정의 Modelfile

  • Modelfile 구문 작성: FROM, PARAMETER, SYSTEM, TEMPLATE
  • temperature, top_p, repeat_penalty 튜닝
  • 역할 기반 동작을 위한 시스템 프롬프트 엔지니어링
  • 로컬 레지스트리에 사용자 정의 모델 생성 및 게시

API 통합

  • OpenAI 호환 /v1/chat/completions 엔드포인트
  • 스트리밍 응답 및 JSON 모드
  • LangChain, LlamaIndex 및 맞춤형 애플리케이션과 통합
  • 리버스 프록시를 통한 인증 및 속도 제한

성능 최적화

  • 컨텍스트 창 크기 조정 및 KV 캐시 관리
  • 배치 추론 및 병렬 요청 처리
  • CPU 스레드 할당 및 NUMA 인식(NUMA awareness)
  • GPU 활용도 및 메모리 압력 모니터링

보안 및 규정 준수

  • 모델 제공 엔드포인트를 위한 네트워크 격리
  • 입력 필터링 및 출력 검토 파이프라인
  • 프롬프트 및 응답에 대한 감사 로깅
  • 모델 원천 추적 및 해시 검증

요건

  • 중급 수준의 Linux 및 컨테이너 관리 경험
  • 머신러닝 및 트랜스포머 모델에 대한 고수준 이해
  • REST API 및 JSON에 대한 친숙함

대상

  • 클라우드 LLM API를 교체하고자 하는 AI 엔지니어 및 개발자
  • 데이터 기밀성 때문에 클라우드 모델 사용이 제한되는 조직
  • 에어갭(air-gapped) 환경의 언어 모델이 필요한 정부 및 방산 팀
 14 시간

참가자 수


참가자별 가격

예정된 코스

관련 카테고리