문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
Thank you for sending your booking! One of our team members will contact you shortly.
Course Outline
음성 합성 및 복제 개요
- 텍스트-음성 (TTS) 및 신경 음성 합성의 개요
- 음성 복제 vs 음성 생성: 사용 사례 및 경계
- 주요 모델: Tacotron, WaveNet, FastSpeech, VITS
상업 플랫폼 사용
- ElevenLabs와 Resemble AI 사용
- 음성 생성, 복제 및 편집
- API 접근 및 텍스트-음성 작업 흐름
오픈 소스 도구로 작업하기
- Coqui TTS 설치 및 구성
- 사용자 정의 음성 학습 및 데이터셋 관리
- 세밀한 제어(음높이, 속도, 감정)로 음성 생성
데이터 준비 및 음성 데이터셋 Management
- 음성 샘플 수집 및 정제
- 세그먼트, 라벨 및 전사 일치
- 윤리적인 소싱 및 음성 동의
애플리케이션 통합
- 웹사이트 및 애플리케이션에 TTS 통합
- IVR 시스템 및 대화형 봇 생성
- 비디오 및 게임을 위한 합성 대화 생성
품질 및 현실감 평가
- MOS(평균 의견 점수)와 가독성 테스트
- 표현력 및 억양 조절
- 지연 시간, 충실도 및 현실감 비교
윤리, 법률 및 Go 거버넌스 고려 사항
- 딥페이크 위험 및 책임 있는 사용
- 동의, 기여도 및 저작권 문제
- 규정 및 조직 정책
요약 및 다음 단계
Requirements
- 기계 학습의 기본 개념 이해
- 오디오 파일 형식 및 편집 도구에 대한 숙련도
- 기본 Python 프로그래밍 능력
대상 청중
- 음성 합성에 관심이 있는 AI 개발자 및 엔지니어
- 음성 생성에 관심을 가지는 콘텐츠 제작자 및 미디어 기술자
- 개인화된 또는 동적 오디오 시스템을 구축하는 R&D 팀
14 Hours