코스 개요

Gemini 3 다중 모달성 소개

  • 텍스트, 이미지, 오디오, 비디오에 대한 기능
  • 모델 선택 및 엔드포인트 개요
  • 다중 모달 추론의 주요 개념

텍스트와 구조화된 입력 처리

  • 텍스트 생성을 위한 프롬프트 전략
  • 메타데이터, 컨텍스트 윈도우 및 임베딩
  • 다중 모달 작업의 텍스트 기반 조정

이미지 이해와 시각 워크플로우

  • Gemini 3를 활용한 이미지 분석 및 해석
  • 시각 검색 및 태깅 도구 생성
  • 이미지-텍스트 및 텍스트-이미지 상호작용 구축

오디오 입력 처리

  • 음성 인식 및 트랜스크립션 워크플로우
  • 오디오 이벤트 감지 및 해석
  • 텍스트와 시각 입력과의 오디오 통합

비디오 지능과 장면 분석

  • 프레임별 및 연속 비디오 추론
  • 요약화 및 하이라이트 추출 도구 구축
  • 비디오 기반 자동화 및 콘텐츠 워크플로우

다중 모달 애플리케이션 아키텍처 설계

  • 단일 파이프라인에서 여러 입력 유형 결합
  • 지연, 비용 및 컴퓨팅 고려 사항
  • 확장 가능한 다중 모달 시스템을 위한 베스트 프랙티스

다중 모달 애플리케이션 프로토타이핑

  • 다중 모달 프로토타입의 실습 생성
  • 프롬프트 엔지니어링을 통한 빠른 반복
  • 사용자 경험 흐름의 테스트 및 개선

다중 모달 솔루션 배포

  • 배포 전략 및 환경 설정
  • 실제 성능 모니터링
  • 보안 및 준수 고려 사항

요약 및 다음 단계

요건

  • 현대 AI 개념에 대한 이해
  • Python 또는 JavaScript 경험
  • REST API에 대한 이해

대상군

  • 디자이너
  • 콘텐츠 제작자
  • 기술 제품 팀
 14 시간

참가자 수


참가자당 가격

회원 평가 (1)

예정된 코스

관련 카테고리