문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
예약을 보내주셔서 감사합니다! 저희 팀 멤버 중 한 분이 곧 연락드리겠습니다.
코스 개요
Gemini 3 다중 모달성 소개
- 텍스트, 이미지, 오디오, 비디오에 대한 기능
- 모델 선택 및 엔드포인트 개요
- 다중 모달 추론의 주요 개념
텍스트와 구조화된 입력 처리
- 텍스트 생성을 위한 프롬프트 전략
- 메타데이터, 컨텍스트 윈도우 및 임베딩
- 다중 모달 작업의 텍스트 기반 조정
이미지 이해와 시각 워크플로우
- Gemini 3를 활용한 이미지 분석 및 해석
- 시각 검색 및 태깅 도구 생성
- 이미지-텍스트 및 텍스트-이미지 상호작용 구축
오디오 입력 처리
- 음성 인식 및 트랜스크립션 워크플로우
- 오디오 이벤트 감지 및 해석
- 텍스트와 시각 입력과의 오디오 통합
비디오 지능과 장면 분석
- 프레임별 및 연속 비디오 추론
- 요약화 및 하이라이트 추출 도구 구축
- 비디오 기반 자동화 및 콘텐츠 워크플로우
다중 모달 애플리케이션 아키텍처 설계
- 단일 파이프라인에서 여러 입력 유형 결합
- 지연, 비용 및 컴퓨팅 고려 사항
- 확장 가능한 다중 모달 시스템을 위한 베스트 프랙티스
다중 모달 애플리케이션 프로토타이핑
- 다중 모달 프로토타입의 실습 생성
- 프롬프트 엔지니어링을 통한 빠른 반복
- 사용자 경험 흐름의 테스트 및 개선
다중 모달 솔루션 배포
- 배포 전략 및 환경 설정
- 실제 성능 모니터링
- 보안 및 준수 고려 사항
요약 및 다음 단계
요건
- 현대 AI 개념에 대한 이해
- Python 또는 JavaScript 경험
- REST API에 대한 이해
대상군
- 디자이너
- 콘텐츠 제작자
- 기술 제품 팀
14 시간
회원 평가 (1)
프레젠테이션의 흐름, 분위기, 주제
Lukasz Kowalczyk - Allegro Sp. z o.o.
코스 - Google Gemini AI for Data Analysis
기계 번역됨