Course Outline

오픈 소스 도구로 AIOps 소개

  • AIOps 개념 및 혜택 개요
  • 관찰 가능성 스택에서 Prometheus과 Grafana
  • AIOps에서 ML의 역할: 예측 분석 vs. 반응형 분석

Prometheus과 Grafana 설정

  • Prometheus를 설치하고 타임 시리즈 수집을 위한 설정
  • 실시간 메트릭을 사용하여 Grafana에서 대시보드 생성
  • 엑스포터, 레이블 변경 및 서비스 디스커버리 탐색

ML을 위한 데이터 전처리

  • Prometheus 메트릭 추출 및 변환
  • 이상 탐지 및 예측을 위한 데이터셋 준비
  • Grafana의 변환 또는 Python 파이프라인 사용

이상 탐지에 대한 Machine Learning 적용

  • 이상 값 탐지에 대한 기본 ML 모델 (예: Isolation Forest, One-Class SVM)
  • 타임 시리즈 데이터에 대한 모델 학습 및 평가
  • Grafana 대시보드에서 이상 값 시각화

ML을 통한 Forecasting 메트릭

  • 간단한 예측 모델 구축 (ARIMA, Prophet, LSTM 소개)
  • 시스템 부하 또는 리소스 사용량 예측
  • 예측을 통한 조기 경고 및 확장 결정 사용

ML을 경고 및 자동화와 통합

  • ML 출력 또는 임계값에 따른 경고 규칙 정의
  • Alertmanager 및 알림 라우팅 사용
  • 이상 탐지 시 스크립트 또는 자동화 워크플로우 트리거

AIOps 확장 및 운영화

  • 외부 관찰 가능성 도구 통합 (예: ELK 스택, Moogsoft, Dynatrace)
  • 관찰 가능성 파이프라인에서 ML 모델 운영화
  • 대규모 AIOps의 모범 사례

요약 및 다음 단계

Requirements

  • 시스템 모니터링 및 관찰 가능성 개념에 대한 이해
  • Grafana 또는 Prometheus 사용 경험
  • Python 및 기본 기계 학습 원칙에 대한 친숙함

대상

  • 관찰 가능성 엔지니어
  • 인프라 및 DevOps 팀
  • 모니터링 플랫폼 아키텍트 및 사이트 신뢰성 엔지니어 (SREs)
 14 Hours

Number of participants


Price per participant

Upcoming Courses

Related Categories