연락처 정보

코스 개요

EXO 인프라-어드-코드

  • EXO 배포 패턴 개요: 단일 노드, 다중 노드 및 RDMA 클러스터
  • 구성 관리를 사용한 종속성 설치 자동화(Xcode, uv, Node.js, Rust)
  • 재현 가능한 EXO 빌드 및 개발자 환경을 위한 Nix flakes 사용
  • 방해받지 않는 클러스터 프로비저닝을 위한 Ansible Playbook 또는 셸 스크립트 작성

재현 가능한 빌드 및 CI 통합

  • CI 파이프라인에서 종속성 고정 및 대시보드 빌드
  • GitHub Actions 또는 GitLab CI 러너에서 EXO 스모크 테스트 실행
  • macOS 및 Linux VM을 위한 골든 이미지 및 스냅샷 기반 롤백 워크플로우 생성
  • 애플리케이션 코드와 함께 커스텀 모델 카드 버전 관리

클러스터 발견 및 네트워킹 자동화

  • 신뢰할 수 있는 libp2p 노드 발견을 위한 mDNS 및 정적 DNS 구성
  • macOS에서 네트워크 프로필 생성 및 Thunderbolt 브릿지 관리 자동화
  • 개발(Dev), 스테이징, 프로덕션 클러스터를 분리하기 위해 커스텀 네임스페이스(EXO_LIBP2P_NAMESPACE) 사용
  • 멀티 테넌트 환경을 위한 방화벽 규칙 및 네트워크 분할

스토리지 및 모델 수명 주기 관리

  • EXO_MODELS_DIRS 및 EXO_MODELS_READ_ONLY_DIRS 전략 설계
  • 빠른 프로비저닝을 위해 NFS 또는 SAN 공유를 읽기 전용 모델 저장소로 마운트
  • 사용되지 않는 캐시 정리(Garbage Collection) 및 버전 관리된 가중치 유지 정책
  • 롤링 업데이트 전 모델 사전 다운로드 및 상태 검사 자동화

모니터링 및 알림

  • EXO 로그를 중앙 집중형 로깅(ELK, Loki, Splunk)으로 전송
  • EXO_TRACING_ENABLED 출력 기반으로 Grafana 대시보드 구축
  • 클러스터 멤버십 변경, OOM(메모리 부족) 이벤트, 추론 지연 시간 급증에 대한 알림 설정
  • macmon 하드웨어テレ메트리를 모델 성능 저하와 상관관계 분석

업데이트, 롤백 및 재해 복구

  • 전체 펌웨어 배포 전에 카나리 노드에서 EXO 바이너리 업데이트 테스트
  • 모델 레벨 롤백: 다시 다운로드하지 않고 양자화된 버전 간 전환
  • 클러스터 상태, 커스텀 네임스페이스, 캐시된 가중치 백업 및 복원
  • 전체 클러스터 재구축 시나리오를 위한 복구 업무 매뉴얼 문서화

보안 강화 및 규정 준수

  • 대시보드 및 API를 위한 역방향 프록시 레이어(nginx, traefik)에서 TLS 적용
  • EXO 엔드포인트를 위한 API 속도 제한 및 IP 화이트리스트 구현
  • VLAN 및 제로 트러스트 네트워크 정책으로 클러스터 격리
  • 액세스 감사 및 배포된 모델 및 버전의 인벤토리 유지

요건

  • DevOps 관행(CI/CD, IaC, 컨테이너 오케스트레이션) 경험
  • macOS 또는 Linux 시스템 관리 및 패키지 관리에 대한 친숙함
  • 네트워킹, DNS, 스토리지 개념에 대한 이해

대상 수강생

  • DevOps 엔지니어
  • 인프라 아키텍트
  • 온프레미스 AI 워크로드를 담당하는 SRE(Site Reliability Engineer)
 21 시간

참가자 수


참가자별 가격

회원 평가 (2)

예정된 코스

관련 카테고리