Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Course Outline
AIops 소개
- AIops란 무엇이며 그 중요성
- 전통적인 모니터링 vs. AIops 기반 관찰 가능성
- AIops 아키텍처 및 주요 구성 요소
운영 데이터 수집 및 정규화
- 관측 가능 데이터 유형: 지표, 로그 및 트레이스
- 서버, 컨테이너, 클라우드 등 여러 소스에서 데이터 수집
- 에이전트 및 익스포터(Prometheus, Beats, Fluentd) 사용
데이터 상관 관계 및 이상 탐지
- 시간 시리즈 상관 관계 및 통계 방법
- 이상 탐지를 위한 ML 모델 사용
- 분산 시스템에서 인시던트 탐지
경고 및 노이즈 감소
- 지능형 경고 규칙 및 임계값 설계
- 억제, 중복 제거 및 경고 그룹화
- Alertmanager, Slack, PagerDuty 또는 Opsgenie와의 통합
근본 원인 분석 및 시각화
- 지표 시각화 및 트렌드 탐지를 위한 대시보드 사용
- 근본 원인 분석을 위한 이벤트 및 타임라인 탐색
- 분산 추적 도구를 사용하여 계층 간 문제 추적
자동화 및 복구
- 인시던트에서 자동화된 스크립트 또는 워크플로우 트리거
- ITSM 시스템(ServiceNow, Jira)과의 통합
- 사용 사례: 자가 회복, 확장, 트래픽 재경로 설정
오픈 소스 및 상용 AIops 플랫폼
- 도구 개요: Prometheus, Grafana, ELK, Moogsoft, Dynatrace
- AIops 플랫폼 선택을 위한 평가 기준
- 선택된 스택의 데모 및 실습
요약 및 다음 단계
Requirements
- IT 운영 및 시스템 모니터링 개념에 대한 이해
- 모니터링 도구 또는 대시보드 경험
- 기본 로그 및 메트릭 포맷에 대한 숙련도
Audience
- 인프라 및 애플리케이션을 책임지는 운영 팀
- Site Reliability Engineers (SREs)
- IT 모니터링 및 관찰 팀
14 Hours