Course Outline

AIops 소개

  • AIops란 무엇이며 그 중요성
  • 전통적인 모니터링 vs. AIops 기반 관찰 가능성
  • AIops 아키텍처 및 주요 구성 요소

운영 데이터 수집 및 정규화

  • 관측 가능 데이터 유형: 지표, 로그 및 트레이스
  • 서버, 컨테이너, 클라우드 등 여러 소스에서 데이터 수집
  • 에이전트 및 익스포터(Prometheus, Beats, Fluentd) 사용

데이터 상관 관계 및 이상 탐지

  • 시간 시리즈 상관 관계 및 통계 방법
  • 이상 탐지를 위한 ML 모델 사용
  • 분산 시스템에서 인시던트 탐지

경고 및 노이즈 감소

  • 지능형 경고 규칙 및 임계값 설계
  • 억제, 중복 제거 및 경고 그룹화
  • Alertmanager, Slack, PagerDuty 또는 Opsgenie와의 통합

근본 원인 분석 및 시각화

  • 지표 시각화 및 트렌드 탐지를 위한 대시보드 사용
  • 근본 원인 분석을 위한 이벤트 및 타임라인 탐색
  • 분산 추적 도구를 사용하여 계층 간 문제 추적

자동화 및 복구

  • 인시던트에서 자동화된 스크립트 또는 워크플로우 트리거
  • ITSM 시스템(ServiceNow, Jira)과의 통합
  • 사용 사례: 자가 회복, 확장, 트래픽 재경로 설정

오픈 소스 및 상용 AIops 플랫폼

  • 도구 개요: Prometheus, Grafana, ELK, Moogsoft, Dynatrace
  • AIops 플랫폼 선택을 위한 평가 기준
  • 선택된 스택의 데모 및 실습

요약 및 다음 단계


Requirements

  • IT 운영 및 시스템 모니터링 개념에 대한 이해
  • 모니터링 도구 또는 대시보드 경험
  • 기본 로그 및 메트릭 포맷에 대한 숙련도

Audience

  • 인프라 및 애플리케이션을 책임지는 운영 팀
  • Site Reliability Engineers (SREs)
  • IT 모니터링 및 관찰 팀
 14 Hours

Number of participants


Price per participant

Upcoming Courses

Related Categories