문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
예약을 보내주셔서 감사합니다! 저희 팀 멤버 중 한 분이 곧 연락드리겠습니다.
코스 개요
Predictive AIOps 소개
- IT 운영에서의 예측 분석 개요
- 예측을 위한 데이터 소스 (로그, 메트릭, 이벤트)
- 시간 시리즈 예측 및 이상 패턴의 주요 개념
인시던트 예측 모델 설계
- 과거 인시던트와 시스템 동작을 라벨링
- 모델 선택 및 학습 (예: LSTM, Random Forest, AutoML)
- 모델 성능 평가 및 거짓 긍정 처리
데이터 수집 및 특징 공학
- 모델 입력으로 로그 및 메트릭 데이터를 가져오고 정렬
- 구조화된 데이터와 비구조화된 데이터로부터 특징 추출
- 운영 파이프라인의 잡음 및 누락 데이터 처리
루트 원인 분석(RCA) 자동화
- 서비스와 인프라의 그래프 기반 상관 관계
- 이벤트 체인에서 ML을 사용하여 가능한 루트 원인 추론
- 토폴로지 인식 대시보드를 통해 RCA 시각화
복구 및 Workflow Automation
- 자동화 플랫폼과 통합 (예: Ansible, Rundeck)
- 롤백, 재시작 또는 트래픽 재지정 트리거
- 자동화 개입에 대한 감사 및 문서화
지능형 AIOps 파이프라인 확장
- 관찰 가능성을 위한 MLOps: 모델 재학습 및 버전 관리
- 분산 노드에서 실시간으로 예측 실행
- 생산 환경에서 AIOps 배포를 위한 모범 사례
사례 연구 및 실용적인 응용
- 예측 AIOps 모델을 사용하여 실제 인시던트 데이터 분석
- 합성 및 생산 데이터로 RCA 파이프라인 배포
- 산업 사용 사례 검토: 클라우드 장애, 마이크로서비스 불안정성, 네트워크 성능 저하
요약 및 다음 단계
요건
- Prometheus 또는 ELK와 같은 모니터링 시스템 경험
- Python 및 기본 기계 학습에 대한 작업 지식
- 인시던트 관리 워크플로우에 대한 familiarity
대상
- 상급 사이트 신뢰성 엔지니어(SRE)
- IT 자동화 아키텍트
- DevOps 및 관찰 가능성 플랫폼 리드
14 시간