Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Course Outline
Speech Recognition 기술 개요
- 음성 인식의 역사와 진화
- 음향 모델, 언어 모델 및 디코딩
- 현대 아키텍처: RNN, 트랜스포머 및 Whisper
오디오 전처리 및 전사 기본 사항
- 오디오 포맷 및 샘플 레이트 처리
- 오디오 정리, 자르기 및 분할
- 오디오에서 텍스트 생성: 실시간 vs 배치
Whisper 및 기타 API 실습
- OpenAI Whisper 설치 및 사용
- 전사용 클라우드 API (Google, Azure) 호출
- 성능, 지연 및 비용 비교
언어, 억양 및 도메인 적응
- 여러 언어 및 억양 작업
- 맞춤형 어휘 및 노이즈 내성
- 법률, 의료 또는 기술 언어 처리
출력 형식 지정 및 통합
- 타임스탬프, 구두점 및 발화자 레이블 추가
- 텍스트, SRT 또는 JSON 형식으로 내보내기
- 전사본을 앱 또는 데이터베이스에 통합
Use Case 구현 실습
- 회의, 인터뷰 또는 팟캐스트 전사
- 음성-텍스트 명령 시스템
- 비디오/오디오 스트림용 실시간 자막
평가, 제한 사항 및 윤리
- 정확도 지표 및 모델 벤치마킹
- 음성 모델의 편견 및 공정성
- 프라이버시 및 규제 준수 고려 사항
요약 및 다음 단계
Requirements
- 일반 AI 및 머신러닝 개념에 대한 이해
- 오디오 또는 미디어 파일 형식 및 도구에 대한 familiarity
대상
- 음성 데이터를 다루는 데이터 과학자 및 AI 엔지니어
- 음성 인식 기반 응용 프로그램을 구축하는 소프트웨어 개발자
- 자동화를 위한 음성 인식에 관심이 있는 조직
14 Hours