Course Outline

다중 모달 AI와 Ollama 소개

  • 다중 모달 학습 개요
  • 시각-언어 통합의 주요 도전 과제
  • Ollama의 기능과 아키텍처

Ollama 환경 설정

  • Ollama 설치 및 구성
  • 로컬 모델 배포 작업
  • Ollama를 Python과 Jupyter와 통합

다중 모달 입력 작업

  • 텍스트와 이미지 통합
  • 오디오와 구조화된 데이터 포함
  • 프리프로세싱 파이프라인 설계

문서 이해 응용 프로그램

  • PDF와 이미지에서 구조화된 정보 추출
  • OCR을 언어 모델과 결합
  • 지능형 문서 분석 워크플로우 구축

시각 질문 응답(VQA)

  • VQA 데이터셋 및 벤치마크 설정
  • 다중 모달 모델 학습 및 평가
  • 상호작용형 VQA 애플리케이션 구축

다중 모달 에이전트 설계

  • 다중 모달 추론을 위한 에이전트 설계 원칙
  • 지각, 언어, 행동 결합
  • 실제 사례에 대한 에이전트 배포

고급 통합 및 최적화

  • Ollama로 다중 모달 모델 미세 조정
  • 추론 성능 최적화
  • 확장성과 배포 고려 사항

요약 및 다음 단계

Requirements

  • 머신러닝 개념에 대한 깊은 이해
  • PyTorch 또는 TensorFlow와 같은 딥러닝 프레임워크 경험
  • 자연어 처리 및 컴퓨터 비전에 대한 이해

Audience

  • 머신러닝 엔지니어
  • AI 연구원
  • 비전 및 텍스트 워크플로우를 통합하는 제품 개발자
 21 Hours

Number of participants


Price per participant

Upcoming Courses

Related Categories