문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
예약을 보내주셔서 감사합니다! 저희 팀 멤버 중 한 분이 곧 연락드리겠습니다.
코스 개요
AIOps 소개
- AIOps의 개념과 중요성
- 전통적인 모니터링과 AIOps-기반 관찰 가능성
- AIOps 아키텍처와 주요 구성 요소
운영 데이터 수집 및 정규화
- 관찰 가능성 데이터 유형: 메트릭, 로그 및 트레이스
- 여러 소스(서버, 컨테이너, 클라우드)에서 데이터 가져오기
- 에이전트 및 엑스포터 (Prometheus, Beats, Fluentd) 사용
데이터 상관 관계 및 이상 탐지
- 시간 시리즈 상관 관계 및 통계 방법
- 이상 탐지에 ML 모델 사용
- 분산 시스템에서 인시던트 탐지
경고 및 노이즈 감소
- 지능형 경고 규칙 및 임계값 설계
- 억제, 중복 제거 및 경고 그룹화
- Alertmanager, Slack, PagerDuty 또는 Opsgenie와 통합
원인 분석 및 시각화
- 대시보드를 사용하여 메트릭 시각화 및 트렌드 탐지
- RCA를 위한 이벤트 및 타임라인 탐색
- 분산 트레이싱 도구를 사용하여 레이어 간 문제 추적
자동화 및 복구
- 인시던트에서 자동화된 스크립트 또는 워크플로우 트리거
- ITSM 시스템(ServiceNow, Jira)과 통합
- 사용 사례: 셀프 힐링, 스케일링, 트래픽 재경로 설정
오픈 소스 및 상용 AIOps 플랫폼
- 도구 개요: Prometheus, Grafana, ELK, Moogsoft, Dynatrace
- AIOps 플랫폼 선택을 위한 평가 기준
- 선택된 스택에 대한 데모 및 실습
요약 및 다음 단계
요건
- IT 운영 및 시스템 모니터링 개념에 대한 이해
- 모니터링 도구 또는 대시보드 경험
- 기본 로그 및 메트릭 형식에 대한 친숙함
대상
- 인프라 및 애플리케이션을 책임지는 운영 팀
- 사이트 신뢰성 엔지니어 (SRE)
- IT 모니터링 및 가시성 팀
14 시간