Course Outline

다중 모달 AI 소개

  • 다중 모달 AI란 무엇인가?
  • 주요 도전 과제 및 응용 프로그램
  • 선두 다중 모달 모델 개요

텍스트 처리 및 자연어 이해

  • 텍스트 기반 AI 에이전트용 LLMs 활용
  • 다중 모달 작업용 프롬프트 엔지니어링 이해
  • 도메인 특정 응용 프로그램용 텍스트 모델 미세 조정

이미지 인식 및 생성

  • AI로 이미지 처리: 분류, 캡셔닝 및 객체 감지
  • 확산 모델(Stable Diffusion, DALLE)로 이미지 생성
  • 이미지 데이터와 텍스트 기반 모델 통합

음성 및 오디오 처리

  • Whisper ASR로 음성 인식
  • 텍스트-음성(TTS) 합성 기술
  • 음성 기반 AI로 사용자 상호작용 향상

다중 모달 입력 통합

  • 여러 입력 유형 처리용 AI 파이프라인 구성
  • 텍스트, 이미지 및 음성 데이터 결합을 위한 퓨전 기술
  • 다중 모달 AI 에이전트의 실제 응용 프로그램

다중 모달 AI 에이전트 배포

  • API 기반 다중 모달 AI 솔루션 구축
  • 성능 및 확장성을 위한 모델 최적화
  • 생산 환경에서 다중 모달 AI 배포를 위한 최적의 방법

윤리적 고려 사항 및 향후 동향

  • 다중 모달 AI의 편향 및 공정성
  • 다중 모달 데이터와 관련된 프라이버시 문제
  • 다중 모달 AI의 향후 발전 방향

요약 및 다음 단계

Requirements

  • 머신러닝의 기본 개념 이해
  • Python 프로그래밍 경험
  • 딥러닝 프레임워크 (예: TensorFlow, PyTorch)에 대한 익숙함

대상

  • AI 개발자
  • 연구원
  • 멀티미디어 엔지니어
 21 Hours

Number of participants


Price per participant

회원 평가 (1)

Upcoming Courses

Related Categories