Course Outline

**Predictive AIOps 소개**- IT 운영에서의 예측 분석 개요- 예측을 위한 데이터 소스(로그, 지표, 이벤트)- 시간-series 예측 및 이상 패턴의 주요 개념**사고 예측 모델 설계**- 역사적 사고 및 시스템 행동 라벨링- 모델 선택 및 학습 (예: LSTM, Random Forest, AutoML)- 모델 성능 평가 및 잘못된 긍정 처리**데이터 수집 및 특징 공학**- 모델 입력으로 로그 및 지표 데이터 흡수 및 정렬- 구조화 및 비구조화 데이터에서 특징 추출- 운영 파이프라인에서 잡음 및 누락된 데이터 처리**근본 원인 분석(RCA) 자동화**- 서비스 및 인프라의 그래프 기반 상관관계- 이벤트 체인에서 가능한 근본 원인을 ML로 추론- 토폴로지 인식 대시보드에서 RCA 시각화**수정 및 Workflow Automation**- 자동화 플랫폼과의 통합 (예: Ansible, Rundeck)- 롤백, 재시작 또는 트래픽 재지정 트리거- 자동화된 개입 감사 및 문서화**지능형 AIOps 파이프라인 확장**- 관찰 가능성 위한 MLOps: 재학습 및 모델 버전 관리- 분산 노드에서 실시간 예측 실행- 생산 환경에서 AIOps 배포의 최선 방법**사례 연구 및 실제 응용**- 예측 AIOps 모델을 사용한 실제 사고 데이터 분석- 합성 및 생산 데이터로 RCA 파이프라인 배포- 산업 사례 검토: 클라우드 중단, 마이크로서비스 불안정, 네트워크 저하**요약 및 다음 단계**

Requirements

  • Prometheus 또는 ELK와 같은 모니터링 시스템에 대한 경험
  • Python 및 기본적인 머신러닝에 대한 작업 지식
  • 인시던트 관리 워크플로우에 대한 친숙함

대상

  • 시니어 사이트 신뢰성 엔지니어(SRE)
  • IT 자동화 아키텍트
  • DevOps 및 가시성 플랫폼 리드
 14 Hours

Number of participants


Price per participant

Upcoming Courses

Related Categories