Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Course Outline
**Predictive AIOps 소개**- IT 운영에서의 예측 분석 개요- 예측을 위한 데이터 소스(로그, 지표, 이벤트)- 시간-series 예측 및 이상 패턴의 주요 개념**사고 예측 모델 설계**- 역사적 사고 및 시스템 행동 라벨링- 모델 선택 및 학습 (예: LSTM, Random Forest, AutoML)- 모델 성능 평가 및 잘못된 긍정 처리**데이터 수집 및 특징 공학**- 모델 입력으로 로그 및 지표 데이터 흡수 및 정렬- 구조화 및 비구조화 데이터에서 특징 추출- 운영 파이프라인에서 잡음 및 누락된 데이터 처리**근본 원인 분석(RCA) 자동화**- 서비스 및 인프라의 그래프 기반 상관관계- 이벤트 체인에서 가능한 근본 원인을 ML로 추론- 토폴로지 인식 대시보드에서 RCA 시각화**수정 및 Workflow Automation**- 자동화 플랫폼과의 통합 (예: Ansible, Rundeck)- 롤백, 재시작 또는 트래픽 재지정 트리거- 자동화된 개입 감사 및 문서화**지능형 AIOps 파이프라인 확장**- 관찰 가능성 위한 MLOps: 재학습 및 모델 버전 관리- 분산 노드에서 실시간 예측 실행- 생산 환경에서 AIOps 배포의 최선 방법**사례 연구 및 실제 응용**- 예측 AIOps 모델을 사용한 실제 사고 데이터 분석- 합성 및 생산 데이터로 RCA 파이프라인 배포- 산업 사례 검토: 클라우드 중단, 마이크로서비스 불안정, 네트워크 저하**요약 및 다음 단계**
Requirements
- Prometheus 또는 ELK와 같은 모니터링 시스템에 대한 경험
- Python 및 기본적인 머신러닝에 대한 작업 지식
- 인시던트 관리 워크플로우에 대한 친숙함
대상
- 시니어 사이트 신뢰성 엔지니어(SRE)
- IT 자동화 아키텍트
- DevOps 및 가시성 플랫폼 리드
14 Hours