Course Outline

멀티모달 AI 소개

  • 멀티모달 AI란?
  • 주요 과제 및 응용 분야
  • 주요 멀티모달 모델 개요

텍스트 처리 및 자연어 이해

  • 텍스트 기반 AI 에이전트를 위한 LLM 활용
  • 다중 모드 작업을 위한 신속한 엔지니어링 이해
  • 도메인별 애플리케이션을 위한 텍스트 모델 미세 조정

이미지 인식 및 생성

  • AI를 이용한 이미지 처리: 분류, 캡션 및 객체 감지
  • 확산 모델을 사용한 이미지 생성 (Stable Diffusion, DALLE)
  • 텍스트 기반 모델과 이미지 데이터 통합

음성 및 오디오 처리

  • Whisper ASR을 통한 음성 인식
  • 텍스트-음성(TTS) 합성 기술
  • 음성 기반 AI로 사용자 상호작용 강화

다중 모달 입력 통합

  • 다양한 입력 유형을 처리하기 위한 AI 파이프라인 구축
  • 텍스트, 이미지, 음성 데이터를 결합하는 퓨전 기술
  • 멀티모달 AI 에이전트의 실제 세계 응용 프로그램

멀티모달 배포AI Agents

  • API 기반 멀티모달 AI 솔루션 구축
  • 성능 및 확장성을 위한 모델 최적화
  • 프로덕션에서 멀티모달 AI를 배포하기 위한 모범 사례

윤리적 고려 사항 및 미래 추세

  • 멀티모달 AI의 편향과 공정성
  • 다중 모드 데이터와 관련된 개인 정보 보호 문제
  • 멀티모달 AI의 미래 발전

요약 및 다음 단계

Requirements

  • 머신 러닝 기본에 대한 이해
  • Python 프로그래밍 경험
  • 딥 러닝 프레임워크에 대한 익숙함(예: TensorFlow, PyTorch)

청중

  • AI 개발자
  • 연구원들
  • 멀티미디어 엔지니어
 21 Hours

Number of participants


Price per participant

Upcoming Courses

Related Categories