Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Course Outline
AIOps 소개
- AIOps의 개념과 중요성
- 전통적인 모니터링과 AIOps-기반 관찰 가능성
- AIOps 아키텍처와 주요 구성 요소
운영 데이터 수집 및 정규화
- 관찰 가능성 데이터 유형: 메트릭, 로그 및 트레이스
- 여러 소스(서버, 컨테이너, 클라우드)에서 데이터 가져오기
- 에이전트 및 엑스포터 (Prometheus, Beats, Fluentd) 사용
데이터 상관 관계 및 이상 탐지
- 시간 시리즈 상관 관계 및 통계 방법
- 이상 탐지에 ML 모델 사용
- 분산 시스템에서 인시던트 탐지
경고 및 노이즈 감소
- 지능형 경고 규칙 및 임계값 설계
- 억제, 중복 제거 및 경고 그룹화
- Alertmanager, Slack, PagerDuty 또는 Opsgenie와 통합
원인 분석 및 시각화
- 대시보드를 사용하여 메트릭 시각화 및 트렌드 탐지
- RCA를 위한 이벤트 및 타임라인 탐색
- 분산 트레이싱 도구를 사용하여 레이어 간 문제 추적
자동화 및 복구
- 인시던트에서 자동화된 스크립트 또는 워크플로우 트리거
- ITSM 시스템(ServiceNow, Jira)과 통합
- 사용 사례: 셀프 힐링, 스케일링, 트래픽 재경로 설정
오픈 소스 및 상용 AIOps 플랫폼
- 도구 개요: Prometheus, Grafana, ELK, Moogsoft, Dynatrace
- AIOps 플랫폼 선택을 위한 평가 기준
- 선택된 스택에 대한 데모 및 실습
요약 및 다음 단계
Requirements
- IT 운영 및 시스템 모니터링 개념에 대한 이해
- 모니터링 도구 또는 대시보드 경험
- 기본 로그 및 메트릭 형식에 대한 친숙함
대상
- 인프라 및 애플리케이션을 책임지는 운영 팀
- 사이트 신뢰성 엔지니어 (SRE)
- IT 모니터링 및 가시성 팀
14 Hours