Course Outline

성과 개념 및 지표

  • 지연 시간, 처리량, 전력 사용량, 리소스 사용량
  • 시스템 vs 모델 수준 병목 현상
  • 추론 및 학습을 위한 프로파일링

Huawei Ascend에서 프로파일링

  • CANN 프로파일러와 MindInsight 사용
  • 커널 및 연산자 진단
  • 오프로드 패턴 및 메모리 매핑

Biren GPU에서 프로파일링

  • Biren SDK 성능 모니터링 기능
  • 커널 통합, 메모리 정렬 및 실행 큐
  • 전력 및 온도 인식 프로파일링

Cambricon MLU에서 프로파일링

  • BANGPy 및 Neuware 성능 도구
  • 커널 수준 가시성과 로그 해석
  • MLU 프로파일러와 배포 프레임워크 통합

그래프 및 모델 수준 최적화

  • 그래프 프루닝 및 양자화 전략
  • 연산자 통합 및 계산 그래프 재구성
  • 입력 크기 표준화 및 배치 조정

메모리와 커널 최적화

  • 메모리 레이아웃 및 재사용 최적화
  • 칩셋 간 효율적인 버퍼 관리
  • 플랫폼별 커널 수준 조정 기술

플랫폼 간 최적 실천 방법

  • 성능 포터빌리티: 추상화 전략
  • 멀티칩 환경용 공유 조정 파이프라인 구축
  • 예시: Ascend, Biren 및 MLU에서 객체 탐지 모델 조정

요약 및 다음 단계

Requirements

  • AI 모델 학습 또는 배포 파이프라인 작업 경험
  • GPU/MLU 계산 원리와 모델 최적화 이해
  • 성능 프로파일링 도구 및 지표 기본 이해

대상

  • 성능 엔지니어
  • 머신러닝 인프라 팀
  • AI 시스템 아키텍트
 21 Hours

Number of participants


Price per participant

Upcoming Courses

Related Categories