문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
예약을 보내주셔서 감사합니다! 저희 팀 멤버 중 한 분이 곧 연락드리겠습니다.
코스 개요
예측 AIOps 소개
- IT 운영에서의 예측 분석 개요
- 예측을 위한 데이터 소스(로그, 메트릭, 이벤트)
- 시간 연속 예측 및 이상 패턴의 핵심 개념
사건 예측 모델 설계
- 역사적인 사건과 시스템 동작 라벨링
- 모델 선택 및 훈련(LSTM, Random Forest, AutoML 등)
- 모델 성능 평가와 거짓 양성 처리
데이터 수집 및 특징 엔지니어링
- 로그 및 메트릭 데이터를 모델 입력으로 흡수하고 정렬
- 구조화된 및 비구조화된 데이터에서 특징 추출
- 운영 파이프라인에서의 노이즈와 누락된 데이터 처리
원인 분석(RCA) 자동화
- 서비스 및 인프라에 대한 그래프 기반 상관 관계
- ML을 사용하여 이벤트 체인에서 가능한 원인을 추론
- 위상 인식 대시보드를 사용한 RCA 시각화
복구 및 워크플로 자동화
- Ansible, Rundeck 등과 같은 자동화 플랫폼 통합
- 롤백, 재시작 또는 트래픽 리다이렉션 트리거
- 자동 개입의 감사 및 문서화
지능형 AIOps 파이프라인 확장
- 관찰 가능성에 대한 MLOps: 재훈련 및 모델 버전 관리
- 분산 노드를 통해 실시간 예측 실행
- 프로덕션 환경에서 AIOps 배포의 최선의 방법론
사례 연구 및 실제 적용
- 예측 AIOps 모델을 사용한 실제 사건 데이터 분석
- 합성 데이터 및 프로덕션 데이터를 사용한 RCA 파이프라인 배포
- 산업 사례 검토: 클라우드 장애, 마이크로서비스 불안정성, 네트워크 저하 등
요약 및 다음 단계
요건
- Prometheus 또는 ELK와 같은 모니터링 시스템에 대한 경험
- Python과 기본 머신 러닝 지식
- 사건 관리 워크플로에 대한 이해
대상
- 시니어 사이트 신뢰성 엔지니어(SREs)
- IT 자동화 아키텍트
- DevOps 및 관찰 가능성 플랫폼 리드
14 시간