코스 개요

비전-언어 모델 소개

  • VLM의 개요 및 다중 모달 AI에서의 역할
  • 인기 아키텍처: CLIP, Flamingo, BLIP 등
  • 사용 사례: 검색, 캡셔닝, 자율 시스템, 콘텐츠 분석

파인튜닝 환경 준비

  • OpenCLIP 및 기타 VLM 라이브러리 설정
  • 이미지-텍스트 페어 데이터셋 형식
  • 비전 및 언어 입력의 전처리 파이프라인

CLIP 및 유사한 모델 파인튜닝

  • 대조 손실 및 공동 임베딩 공간
  • 실습: 사용자 지정 데이터셋에서 CLIP 파인튜닝
  • 도메인 특정 및 다국어 데이터 처리

고급 파인튜닝 기법

  • LoRA 및 어댑터 기반 방법을 효율성을 위해 사용
  • 프롬프트 튜닝 및 시각적 프롬프트 주입
  • 제로샷 vs. 파인튜닝 평가 트레이드오프

평가 및 벤치마킹

  • VLM 메트릭: 검색 정확도, BLEU, CIDEr, 재호출
  • 시각-텍스트 정렬 진단
  • 임베딩 공간 및 오분류 시각화

배포 및 실제 응용

  • 추론을 위한 모델 내보내기 (TorchScript, ONNX)
  • VLM을 파이프라인 또는 API에 통합
  • 자원 고려 사항 및 모델 확장

사례 연구 및 응용 시나리오

  • 미디어 분석 및 콘텐츠 모니터링
  • 전자 상거래 및 디지털 도서관에서 검색 및 검색
  • 로봇 공학 및 자율 시스템에서 다중 모달 상호작용

요약 및 다음 단계

요건

  • 시각 및 자연어 처리(NLP)에 대한 딥러닝 이해
  • PyTorch와 트랜스포머 기반 모델에 대한 경험
  • 다중 모달 모델 아키텍처에 대한 익숙함

대상 청중

  • 컴퓨터 비전 엔지니어
  • AI 개발자
 14 시간

참가자 수


참가자당 가격

예정된 코스

관련 카테고리