문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
예약을 보내주셔서 감사합니다! 저희 팀 멤버 중 한 분이 곧 연락드리겠습니다.
코스 개요
EXO 인프라-어드-코드
- EXO 배포 패턴 개요: 단일 노드, 다중 노드 및 RDMA 클러스터
- 구성 관리를 사용한 종속성 설치 자동화(Xcode, uv, Node.js, Rust)
- 재현 가능한 EXO 빌드 및 개발자 환경을 위한 Nix flakes 사용
- 방해받지 않는 클러스터 프로비저닝을 위한 Ansible Playbook 또는 셸 스크립트 작성
재현 가능한 빌드 및 CI 통합
- CI 파이프라인에서 종속성 고정 및 대시보드 빌드
- GitHub Actions 또는 GitLab CI 러너에서 EXO 스모크 테스트 실행
- macOS 및 Linux VM을 위한 골든 이미지 및 스냅샷 기반 롤백 워크플로우 생성
- 애플리케이션 코드와 함께 커스텀 모델 카드 버전 관리
클러스터 발견 및 네트워킹 자동화
- 신뢰할 수 있는 libp2p 노드 발견을 위한 mDNS 및 정적 DNS 구성
- macOS에서 네트워크 프로필 생성 및 Thunderbolt 브릿지 관리 자동화
- 개발(Dev), 스테이징, 프로덕션 클러스터를 분리하기 위해 커스텀 네임스페이스(EXO_LIBP2P_NAMESPACE) 사용
- 멀티 테넌트 환경을 위한 방화벽 규칙 및 네트워크 분할
스토리지 및 모델 수명 주기 관리
- EXO_MODELS_DIRS 및 EXO_MODELS_READ_ONLY_DIRS 전략 설계
- 빠른 프로비저닝을 위해 NFS 또는 SAN 공유를 읽기 전용 모델 저장소로 마운트
- 사용되지 않는 캐시 정리(Garbage Collection) 및 버전 관리된 가중치 유지 정책
- 롤링 업데이트 전 모델 사전 다운로드 및 상태 검사 자동화
모니터링 및 알림
- EXO 로그를 중앙 집중형 로깅(ELK, Loki, Splunk)으로 전송
- EXO_TRACING_ENABLED 출력 기반으로 Grafana 대시보드 구축
- 클러스터 멤버십 변경, OOM(메모리 부족) 이벤트, 추론 지연 시간 급증에 대한 알림 설정
- macmon 하드웨어テレ메트리를 모델 성능 저하와 상관관계 분석
업데이트, 롤백 및 재해 복구
- 전체 펌웨어 배포 전에 카나리 노드에서 EXO 바이너리 업데이트 테스트
- 모델 레벨 롤백: 다시 다운로드하지 않고 양자화된 버전 간 전환
- 클러스터 상태, 커스텀 네임스페이스, 캐시된 가중치 백업 및 복원
- 전체 클러스터 재구축 시나리오를 위한 복구 업무 매뉴얼 문서화
보안 강화 및 규정 준수
- 대시보드 및 API를 위한 역방향 프록시 레이어(nginx, traefik)에서 TLS 적용
- EXO 엔드포인트를 위한 API 속도 제한 및 IP 화이트리스트 구현
- VLAN 및 제로 트러스트 네트워크 정책으로 클러스터 격리
- 액세스 감사 및 배포된 모델 및 버전의 인벤토리 유지
요건
- DevOps 관행(CI/CD, IaC, 컨테이너 오케스트레이션) 경험
- macOS 또는 Linux 시스템 관리 및 패키지 관리에 대한 친숙함
- 네트워킹, DNS, 스토리지 개념에 대한 이해
대상 수강생
- DevOps 엔지니어
- 인프라 아키텍트
- 온프레미스 AI 워크로드를 담당하는 SRE(Site Reliability Engineer)
21 시간
회원 평가 (2)
크레이그는 훈련에 매우 적극적으로 참여하여 항상 우리가 주의를 기울이는지 확인하고, 예제를 우리의 일상 활동에 맞게 조정하며, 프레젠테이션에 포함되지 않은 정보더라도 질문할 때마다 답변을 제공했습니다.
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
코스 - DevOps Foundation®
기계 번역됨
트레이너의 높은 참여도와 지식 수준
Jacek - Softsystem
코스 - DevOps Engineering Foundation (DOEF)®
기계 번역됨