Course Outline

음성 합성 및 복제 개요

  • 텍스트-음성 (TTS) 및 신경 음성 합성의 개요
  • 음성 복제 vs 음성 생성: 사용 사례 및 경계
  • 주요 모델: Tacotron, WaveNet, FastSpeech, VITS

상업 플랫폼 사용

  • ElevenLabs와 Resemble AI 사용
  • 음성 생성, 복제 및 편집
  • API 접근 및 텍스트-음성 작업 흐름

오픈 소스 도구로 작업하기

  • Coqui TTS 설치 및 구성
  • 사용자 정의 음성 학습 및 데이터셋 관리
  • 세밀한 제어(음높이, 속도, 감정)로 음성 생성

데이터 준비 및 음성 데이터셋 Management

  • 음성 샘플 수집 및 정제
  • 세그먼트, 라벨 및 전사 일치
  • 윤리적인 소싱 및 음성 동의

애플리케이션 통합

  • 웹사이트 및 애플리케이션에 TTS 통합
  • IVR 시스템 및 대화형 봇 생성
  • 비디오 및 게임을 위한 합성 대화 생성

품질 및 현실감 평가

  • MOS(평균 의견 점수)와 가독성 테스트
  • 표현력 및 억양 조절
  • 지연 시간, 충실도 및 현실감 비교

윤리, 법률 및 Go 거버넌스 고려 사항

  • 딥페이크 위험 및 책임 있는 사용
  • 동의, 기여도 및 저작권 문제
  • 규정 및 조직 정책

요약 및 다음 단계

Requirements

  • 기계 학습의 기본 개념 이해
  • 오디오 파일 형식 및 편집 도구에 대한 숙련도
  • 기본 Python 프로그래밍 능력

대상 청중

  • 음성 합성에 관심이 있는 AI 개발자 및 엔지니어
  • 음성 생성에 관심을 가지는 콘텐츠 제작자 및 미디어 기술자
  • 개인화된 또는 동적 오디오 시스템을 구축하는 R&D 팀
 14 Hours

Number of participants


Price per participant

Upcoming Courses

Related Categories