문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
예약을 보내주셔서 감사합니다! 저희 팀 멤버 중 한 분이 곧 연락드리겠습니다.
코스 개요
AIOps 소개
- AIOps란 무엇이며 왜 중요한가
- 전통적인 모니터링 대비 AIOps 기반 가시성
- AIOps 아키텍처와 핵심 구성 요소
운영 데이터 수집 및 정규화
- 가시성 데이터 유형: 메트릭, 로그, 트레이스
- 여러 소스(서버, 컨테이너, 클라우드)에서 데이터 수집
- 에이전트와 익스포터(Prometheus, Beats, Fluentd) 사용
데이터 상관관계 및 이종검출
- 시계열 상관관계와 통계적 방법
- ML 모델을 활용한 이종검출
- 분산 시스템에서 사고 검출
알림 및 노이즈 감소
- 지능형 알림 규칙과 임계값 설계
- 억제, 중복 제거, 및 알림 그룹화
- Alertmanager, Slack, PagerDuty, 또는 Opsgenie와의 통합
근본 원인 분석 및 시각화
- 대시보드를 활용한 메트릭 시각화와 트렌드 검출
- 이벤트와 타임라인 탐색을 통한 RCA(Root Cause Analysis)
- 분산 추적 도구를 활용한 레이어 간 문제 추적
자동화 및 복구
- 사고 발생 시 자동 스크립트나 워크플로우 실행
- ITSM 시스템(ServiceNow, Jira)와의 통합
- 사용 사례: 자가 회복, 확장, 트래픽 재배치
오픈소스 및 상용 AIOps 플랫폼
- 도구 개요: Prometheus, Grafana, ELK, Moogsoft, Dynatrace
- AIOps 플랫폼 선택을 위한 평가 기준
- 선택된 스택의 데모 및 실습
요약 및 다음 단계
요건
- IT 운영 및 시스템 모니터링 개념에 대한 이해
- 모니터링 도구 또는 대시보드 사용 경험
- 기본 로그와 메트릭 형식에 대한 익숙함
대상자
- 인프라와 애플리케이션을 담당하는 운영 팀
- 사이트 신뢰성 엔지니어(SREs)
- IT 모니터링 및 가시성 팀
14 시간