문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
Thank you for sending your booking! One of our team members will contact you shortly.
Course Outline
오픈 소스 도구로 AIOps 소개
- AIOps 개념 및 혜택 개요
- 관찰 가능성 스택에서 Prometheus과 Grafana
- AIOps에서 ML의 역할: 예측 분석 vs. 반응형 분석
Prometheus과 Grafana 설정
- Prometheus를 설치하고 타임 시리즈 수집을 위한 설정
- 실시간 메트릭을 사용하여 Grafana에서 대시보드 생성
- 엑스포터, 레이블 변경 및 서비스 디스커버리 탐색
ML을 위한 데이터 전처리
- Prometheus 메트릭 추출 및 변환
- 이상 탐지 및 예측을 위한 데이터셋 준비
- Grafana의 변환 또는 Python 파이프라인 사용
이상 탐지에 대한 Machine Learning 적용
- 이상 값 탐지에 대한 기본 ML 모델 (예: Isolation Forest, One-Class SVM)
- 타임 시리즈 데이터에 대한 모델 학습 및 평가
- Grafana 대시보드에서 이상 값 시각화
ML을 통한 Forecasting 메트릭
- 간단한 예측 모델 구축 (ARIMA, Prophet, LSTM 소개)
- 시스템 부하 또는 리소스 사용량 예측
- 예측을 통한 조기 경고 및 확장 결정 사용
ML을 경고 및 자동화와 통합
- ML 출력 또는 임계값에 따른 경고 규칙 정의
- Alertmanager 및 알림 라우팅 사용
- 이상 탐지 시 스크립트 또는 자동화 워크플로우 트리거
AIOps 확장 및 운영화
- 외부 관찰 가능성 도구 통합 (예: ELK 스택, Moogsoft, Dynatrace)
- 관찰 가능성 파이프라인에서 ML 모델 운영화
- 대규모 AIOps의 모범 사례
요약 및 다음 단계
Requirements
- 시스템 모니터링 및 관찰 가능성 개념에 대한 이해
- Grafana 또는 Prometheus 사용 경험
- Python 및 기본 기계 학습 원칙에 대한 친숙함
대상
- 관찰 가능성 엔지니어
- 인프라 및 DevOps 팀
- 모니터링 플랫폼 아키텍트 및 사이트 신뢰성 엔지니어 (SREs)
14 Hours