AMD GPU Programming 교육 과정
ROCm은 AMD GPU를 지원하고 CUDA 및 OpenCL와의 호환성을 제공하는 GPU 프로그래밍을 위한 오픈 소스 플랫폼입니다. ROCm은 프로그래머에게 하드웨어 세부 정보를 제공하고 병렬화 프로세스에 대한 완전한 제어권을 제공합니다. 그러나 이를 위해서는 장치 아키텍처, 메모리 모델, 실행 모델 및 최적화 기술에 대한 올바른 이해도 필요합니다.
HIP는 AMD와 NVIDIAGPU 모두에서 실행될 수 있는 이식 가능한 코드를 작성할 수 있는 C++ 런타임 API 및 커널 언어입니다. HIP는 ROCm 및 CUDA와 같은 기본 GPU API에 대한 얇은 추상화 계층을 제공하며 기존 GPU 라이브러리 및 도구를 활용할 수 있도록 합니다.
이 강사가 진행하는 실시간 교육(온라인 또는 현장)은 ROCm 및 HIP를 사용하여 AMD를 프로그래밍하고 병렬성을 활용하려는 초급 및 중급 개발자를 대상으로 합니다.
이 교육이 끝나면 참가자는 다음을 수행할 수 있습니다.
- ROCm 플랫폼, AMD GPU 및 Visual Studio 코드가 포함된 개발 환경을 설정합니다.
- GPU에 벡터 추가를 수행하고 GPU 메모리에서 결과를 검색하는 기본 ROCm 프로그램을 만듭니다.
- ROCm API를 사용하여 장치 정보를 쿼리하고, 장치 메모리를 할당 및 할당 해제하고, 호스트와 장치 간에 데이터를 복사하고, 커널을 시작하고, 스레드를 동기화합니다.
- HIP 언어를 사용하여 GPU에서 실행되고 데이터를 조작하는 커널을 작성합니다.
- HIP 내장 함수, 변수 및 라이브러리를 사용하여 일반적인 작업 및 작업을 수행합니다.
- 글로벌, 공유, 상수 및 로컬과 같은 ROCm 및 HIP 메모리 공간을 사용하여 데이터 전송 및 메모리 액세스를 최적화합니다.
- ROCm 및 HIP 실행 모델을 사용하여 병렬성을 정의하는 스레드, 블록 및 그리드를 제어합니다.
- ROCm 디버거 및 ROCm 프로파일러와 같은 도구를 사용하여 ROCm 및 HIP 프로그램을 디버그하고 테스트합니다.
- 병합, 캐싱, 프리패치, 프로파일링과 같은 기술을 사용하여 ROCm 및 HIP 프로그램을 최적화합니다.
코스의 형식
- 대화형 강의 및 토론.
- 많은 연습과 연습.
- 라이브 랩 환경에서 직접 구현합니다.
코스 맞춤화 옵션
- 이 과정에 대한 맞춤형 교육을 요청하려면 당사에 연락하여 예약하시기 바랍니다.
Course Outline
소개
- ROCm이란 무엇입니까?
- HIP란 무엇인가요?
- ROCm 대 CUDA 대 OpenCL
- ROCm 및 HIP 기능과 아키텍처 개요
- 개발 환경 설정
시작하기
- Visual Studio 코드를 사용하여 새 ROCm 프로젝트 생성
- 프로젝트 구조 및 파일 탐색
- 프로그램 컴파일 및 실행
- printf 및 fprintf를 사용하여 출력 표시
ROCm API
- 호스트 프로그램에서 ROCm API의 역할 이해
- ROCm API를 사용하여 장치 정보 및 기능 쿼리
- ROCm API를 사용하여 장치 메모리 할당 및 할당 해제
- ROCm API를 사용하여 호스트와 장치 간에 데이터 복사
- ROCm API를 사용하여 커널 실행 및 스레드 동기화
- ROCm API를 사용하여 오류 및 예외 처리
HIP 언어
- 장치 프로그램에서 HIP 언어의 역할 이해
- HIP 언어를 사용하여 GPU에서 실행되고 데이터를 조작하는 커널 작성
- HIP 데이터 유형, 한정자, 연산자 및 표현식 사용
- HIP 내장 함수, 변수 및 라이브러리를 사용하여 일반적인 작업 및 작업 수행
ROCm 및 HIP 메모리 모델
- 호스트 메모리 모델과 장치 메모리 모델의 차이점 이해
- 글로벌, 공유, 상수, 로컬 등 ROCm 및 HIP 메모리 공간 사용
- 포인터, 배열, 텍스처, 표면 등 ROCm 및 HIP 메모리 개체 사용
- 읽기 전용, 쓰기 전용, 읽기-쓰기 등과 같은 ROCm 및 HIP 메모리 액세스 모드 사용
- ROCm 및 HIP 메모리 일관성 모델 및 동기화 메커니즘 사용
ROCm 및 HIP 실행 모델
- 호스트 실행 모델과 장치 실행 모델의 차이점 이해
- ROCm 및 HIP 스레드, 블록 및 그리드를 사용하여 병렬 처리 정의
- hipThreadIdx_x, hipBlockIdx_x, hipBlockDim_x 등과 같은 ROCm 및 HIP 스레드 기능 사용
- __syncthreads, __threadfence_block 등과 같은 ROCm 및 HIP 블록 기능 사용
- hipGridDim_x, hipGridSync, 협력 그룹 등과 같은 ROCm 및 HIP 그리드 기능 사용
디버깅
- ROCm 및 HIP 프로그램의 일반적인 오류 및 버그 이해
- Visual Studio 코드 디버거를 사용하여 변수, 중단점, 호출 스택 등을 검사합니다.
- ROCm 디버거를 사용하여 AMD 장치에서 ROCm 및 HIP 프로그램 디버깅
- ROCm 프로파일러를 사용하여 AMD 장치에서 ROCm 및 HIP 프로그램 분석
최적화
- ROCm 및 HIP 프로그램의 성능에 영향을 미치는 요소 이해
- ROCm 및 HIP 병합 기술을 사용하여 메모리 처리량 향상
- ROCm 및 HIP 캐싱 및 프리페칭 기술을 사용하여 메모리 대기 시간 단축
- ROCm 및 HIP 공유 메모리와 로컬 메모리 기술을 사용하여 메모리 액세스 및 대역폭 최적화
- ROCm 및 HIP 프로파일링 및 프로파일링 도구를 사용하여 실행 시간 및 리소스 활용도를 측정하고 개선합니다.
요약 및 다음 단계
Requirements
- C/C++ 언어 및 병렬 프로그래밍 개념에 대한 이해
- 컴퓨터 아키텍처 및 메모리 계층에 대한 기본 지식
- 명령줄 도구 및 코드 편집기 사용 경험
청중
- ROCm 및 HIP를 사용하여 AMDGPU를 프로그래밍하고 병렬성을 활용하는 방법을 배우고자 하는 개발자
- 다양한 AMD 장치에서 실행될 수 있는 확장 가능한 고성능 코드를 작성하려는 개발자
- GPU 프로그래밍의 하위 수준 측면을 탐색하고 코드 성능을 최적화하려는 프로그래머
Open Training Courses require 5+ participants.
AMD GPU Programming 교육 과정 - Booking
AMD GPU Programming 교육 과정 - Enquiry
AMD GPU Programming - Consultancy Enquiry
Consultancy Enquiry
Upcoming Courses
Related Courses
Developing AI Applications with Huawei Ascend and CANN
21 Hours이 강사는 중간 수준의 AI 엔지니어와 데이터 과학자를 대상으로, 화웨이의 Ascend 플랫폼과 CANN 툴킷을 사용하여 신경망 모델을 개발하고 최적화하는 방법을 학습합니다. (온라인 또는 현장)
이 교육을 마친 후 참가자는 다음을 수행할 수 있습니다:
강좌 형식
- 상호작용형 강의 및 토론.
- 샘플 애플리케이션에서 Huawei Ascend와 CANN 툴킷을 직접 사용합니다.
- 모델 구축, 학습 및 배포에 중점을 둔 가이드 연습.
강좌 맞춤화 옵션
- 인프라 또는 데이터셋을 기반으로 이 강좌에 맞춘 맞춤형 교육을 요청하려면, 맞춤형 교육을 요청하기 위해 연락해 주세요.
Deploying AI Models with CANN and Ascend AI Processors
14 HoursCANN (Compute Architecture for Neural Networks) is Huawei’s AI compute stack for deploying and optimizing AI models on Ascend AI processors.
This instructor-led, live training (online or onsite) is aimed at intermediate-level AI developers and engineers who wish to deploy trained AI models efficiently to Huawei Ascend hardware using the CANN toolkit and tools such as MindSpore, TensorFlow, or PyTorch.
By the end of this training, participants will be able to:
- Understand the CANN architecture and its role in the AI deployment pipeline.
- Convert and adapt models from popular frameworks to Ascend-compatible formats.
- Use tools like ATC, OM model conversion, and MindSpore for edge and cloud inference.
- Diagnose deployment issues and optimize performance on Ascend hardware.
Format of the Course
- Interactive lecture and demonstration.
- Hands-on lab work using CANN tools and Ascend simulators or devices.
- Practical deployment scenarios based on real-world AI models.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
GPU Programming on Biren AI Accelerators
21 HoursBiren AI Accelerators are high-performance GPUs designed for AI and HPC workloads with support for large-scale training and inference.
This instructor-led, live training (online or onsite) is aimed at intermediate-level to advanced-level developers who wish to program and optimize applications using Biren’s proprietary GPU stack, with practical comparisons to CUDA-based environments.
By the end of this training, participants will be able to:
- Understand Biren GPU architecture and memory hierarchy.
- Set up the development environment and use Biren’s programming model.
- Translate and optimize CUDA-style code for Biren platforms.
- Apply performance tuning and debugging techniques.
Format of the Course
- Interactive lecture and discussion.
- Hands-on use of Biren SDK in sample GPU workloads.
- Guided exercises focused on porting and performance tuning.
Course Customization Options
- To request a customized training for this course based on your application stack or integration needs, please contact us to arrange.
Cambricon MLU Development with BANGPy and Neuware
21 HoursCambricon MLUs (Machine Learning 유닛)은 엣지 및 데이터 센터 시나리오에서 추론 및 학습을 위한 최적화된 전문 AI 칩입니다.
이 강사는 BANGPy 프레임워크와 Neuware SDK를 사용하여 Cambricon MLU 하드웨어에서 AI 모델을 구축하고 배포하고자 하는 중급 개발자를 대상으로 하는 온라인 또는 오프라인에서 진행되는 강의입니다.
이 강의가 끝나면 참가자들은 다음과 같은 작업을 할 수 있게 됩니다:
- BANGPy와 Neuware 개발 환경을 설정하고 구성합니다.
- Python 및 C++ 기반 모델을 Cambricon MLU에 개발하고 최적화합니다.
- Neuware 런타임을 실행하는 엣지 및 데이터 센터 장치에 모델을 배포합니다.
- MLU 특화 가속 기능을 사용한 ML 워크플로를 통합합니다.
강의 형식
- 상호작용 강의 및 토론.
- BANGPy와 Neuware를 개발 및 배포에 직접 사용하는 실습.
- 최적화, 통합 및 테스트에 중점을 둔 지도 연습.
강의 맞춤화 옵션
- 강의를 Cambricon 장치 모델 또는 사용 사례에 맞게 맞춤화한 교육을 요청하려면, 연락하여 조정을 신청하십시오.
Introduction to CANN for AI Framework Developers
7 HoursCANN (Compute Architecture for Neural Networks) is Huawei’s AI computing toolkit used to compile, optimize, and deploy AI models on Ascend AI processors.
This instructor-led, live training (online or onsite) is aimed at beginner-level AI developers who wish to understand how CANN fits into the model lifecycle from training to deployment, and how it works with frameworks like MindSpore, TensorFlow, and PyTorch.
By the end of this training, participants will be able to:
- Understand the purpose and architecture of the CANN toolkit.
- Set up a development environment with CANN and MindSpore.
- Convert and deploy a simple AI model to Ascend hardware.
- Gain foundational knowledge for future CANN optimization or integration projects.
Format of the Course
- Interactive lecture and discussion.
- Hands-on labs with simple model deployment.
- Step-by-step walkthrough of the CANN toolchain and integration points.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
CANN for Edge AI Deployment
14 HoursHuawei's Ascend CANN toolkit enables powerful AI inference on edge devices such as the Ascend 310. CANN provides essential tools for compiling, optimizing, and deploying models where compute and memory are constrained.
This instructor-led, live training (online or onsite) is aimed at intermediate-level AI developers and integrators who wish to deploy and optimize models on Ascend edge devices using the CANN toolchain.
By the end of this training, participants will be able to:
- Prepare and convert AI models for Ascend 310 using CANN tools.
- Build lightweight inference pipelines using MindSpore Lite and AscendCL.
- Optimize model performance for limited compute and memory environments.
- Deploy and monitor AI applications in real-world edge use cases.
Format of the Course
- Interactive lecture and demonstration.
- Hands-on lab work with edge-specific models and scenarios.
- Live deployment examples on virtual or physical edge hardware.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
Understanding Huawei’s AI Compute Stack: From CANN to MindSpore
14 HoursHuawei’s AI stack — from the low-level CANN SDK to the high-level MindSpore framework — offers a tightly integrated AI development and deployment environment optimized for Ascend hardware.
This instructor-led, live training (online or onsite) is aimed at beginner-level to intermediate-level technical professionals who wish to understand how the CANN and MindSpore components work together to support AI lifecycle management and infrastructure decisions.
By the end of this training, participants will be able to:
- Understand the layered architecture of Huawei’s AI compute stack.
- Identify how CANN supports model optimization and hardware-level deployment.
- Evaluate the MindSpore framework and toolchain in relation to industry alternatives.
- Position Huawei's AI stack within enterprise or cloud/on-prem environments.
Format of the Course
- Interactive lecture and discussion.
- Live system demos and case-based walkthroughs.
- Optional guided labs on model flow from MindSpore to CANN.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
Optimizing Neural Network Performance with CANN SDK
14 HoursCANN SDK (Compute Architecture for Neural Networks) is Huawei’s AI compute foundation that allows developers to fine-tune and optimize the performance of deployed neural networks on Ascend AI processors.
This instructor-led, live training (online or onsite) is aimed at advanced-level AI developers and system engineers who wish to optimize inference performance using CANN’s advanced toolset, including the Graph Engine, TIK, and custom operator development.
By the end of this training, participants will be able to:
- Understand CANN's runtime architecture and performance lifecycle.
- Use profiling tools and Graph Engine for performance analysis and optimization.
- Create and optimize custom operators using TIK and TVM.
- Resolve memory bottlenecks and improve model throughput.
Format of the Course
- Interactive lecture and discussion.
- Hands-on labs with real-time profiling and operator tuning.
- Optimization exercises using edge-case deployment examples.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
CANN SDK for Computer Vision and NLP Pipelines
14 HoursThe CANN SDK (Compute Architecture for Neural Networks) provides powerful deployment and optimization tools for real-time AI applications in computer vision and NLP, especially on Huawei Ascend hardware.
This instructor-led, live training (online or onsite) is aimed at intermediate-level AI practitioners who wish to build, deploy, and optimize vision and language models using the CANN SDK for production use cases.
By the end of this training, participants will be able to:
- Deploy and optimize CV and NLP models using CANN and AscendCL.
- Use CANN tools to convert models and integrate them into live pipelines.
- Optimize inference performance for tasks like detection, classification, and sentiment analysis.
- Build real-time CV/NLP pipelines for edge or cloud-based deployment scenarios.
Format of the Course
- Interactive lecture and demonstration.
- Hands-on lab with model deployment and performance profiling.
- Live pipeline design using real CV and NLP use cases.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
Building Custom AI Operators with CANN TIK and TVM
14 HoursCANN TIK (Tensor Instruction Kernel) and Apache TVM enable advanced optimization and customization of AI model operators for Huawei Ascend hardware.
This instructor-led, live training (online or onsite) is aimed at advanced-level system developers who wish to build, deploy, and tune custom operators for AI models using CANN’s TIK programming model and TVM compiler integration.
By the end of this training, participants will be able to:
- Write and test custom AI operators using the TIK DSL for Ascend processors.
- Integrate custom ops into the CANN runtime and execution graph.
- Use TVM for operator scheduling, auto-tuning, and benchmarking.
- Debug and optimize instruction-level performance for custom computation patterns.
Format of the Course
- Interactive lecture and demonstration.
- Hands-on coding of operators using TIK and TVM pipelines.
- Testing and tuning on Ascend hardware or simulators.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
Migrating CUDA Applications to Chinese GPU Architectures
21 Hours중국 GPU 아키텍처인 Huawei Ascend, Biren, Cambricon MLU는 현지 AI 및 HPC 시장을 위한 CUDA 대안으로 제공됩니다.
이 강사는 온라인 또는 현장에서 진행되는 실시간 강의로, CUDA 애플리케이션을 중국 하드웨어 플랫폼에 배포하기 위해 기존 CUDA 애플리케이션을 마이그레이션하고 최적화하려는 고급 수준의 GPU 프로그래머와 인프라 전문가를 대상으로 합니다.
이 교육을 마치면 참가자들은 다음과 같은 작업을 수행할 수 있게 됩니다:
- 기존 CUDA 작업 부하가 중국 칩 대안과의 호환성을 평가합니다.
- CUDA 코드베이스를 Huawei CANN, Biren SDK, Cambricon BANGPy 환경으로 포팅합니다.
- 플랫폼 간 성능을 비교하고 최적화 지점을 식별합니다.
- 다양한 아키텍처를 지원하고 배포하는 데 있어 실질적인 도전 과제를 해결합니다.
강좌 형식
- 상호작용 강의 및 토론
- 코드 변환 및 성능 비교 실습
- 다중 GPU 적응 전략에 중점을 둔 유도 연습
강좌 맞춤화 옵션
- 플랫폼이나 CUDA 프로젝트에 맞춘 이 강좌에 대한 맞춤형 교육을 요청하려면, 연락을 취하여 조율하십시오.
Performance Optimization on Ascend, Biren, and Cambricon
21 Hours- Ascend, Biren, Cambricon 플랫폼에서 모델을 벤치마크할 수 있습니다.
- 시스템 병목 현상 및 메모리/계산 비효율성을 식별할 수 있습니다.
- 그래프 수준, 커널 수준, 그리고 연산자 수준 최적화를 적용할 수 있습니다.
- 처리량과 지연 시간을 향상시키기 위해 배포 파이프라인을 조정할 수 있습니다.
교육 형식
- 상호작용적인 강의와 토론.
- 각 플랫폼에서 프로파일링 및 최적화 도구를 직접 사용할 수 있습니다.
- 실제 튜닝 시나리오에 초점을 맞춘 안내된 연습.
교육 커스터마이징 옵션
- 성과 환경 또는 모델 유형에 따라 이 교육을 맞춤형으로 요청하려면, 커스터마이징을 조정하기 위해 문의하세요.