문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
Thank you for sending your booking! One of our team members will contact you shortly.
Course Outline
Speech Recognition 기술 개요
- 음성 인식의 역사와 진화
- 음향 모델, 언어 모델 및 디코딩
- 현대 아키텍처: RNN, 트랜스포머 및 Whisper
오디오 전처리 및 전사 기본 사항
- 오디오 포맷 및 샘플 레이트 처리
- 오디오 정리, 자르기 및 분할
- 오디오에서 텍스트 생성: 실시간 vs 배치
Whisper 및 기타 API 실습
- OpenAI Whisper 설치 및 사용
- 전사용 클라우드 API (Google, Azure) 호출
- 성능, 지연 및 비용 비교
언어, 억양 및 도메인 적응
- 여러 언어 및 억양 작업
- 맞춤형 어휘 및 노이즈 내성
- 법률, 의료 또는 기술 언어 처리
출력 형식 지정 및 통합
- 타임스탬프, 구두점 및 발화자 레이블 추가
- 텍스트, SRT 또는 JSON 형식으로 내보내기
- 전사본을 앱 또는 데이터베이스에 통합
Use Case 구현 실습
- 회의, 인터뷰 또는 팟캐스트 전사
- 음성-텍스트 명령 시스템
- 비디오/오디오 스트림용 실시간 자막
평가, 제한 사항 및 윤리
- 정확도 지표 및 모델 벤치마킹
- 음성 모델의 편견 및 공정성
- 프라이버시 및 규제 준수 고려 사항
요약 및 다음 단계
Requirements
- 일반 AI 및 머신러닝 개념에 대한 이해
- 오디오 또는 미디어 파일 형식 및 도구에 대한 familiarity
대상
- 음성 데이터를 다루는 데이터 과학자 및 AI 엔지니어
- 음성 인식 기반 응용 프로그램을 구축하는 소프트웨어 개발자
- 자동화를 위한 음성 인식에 관심이 있는 조직
14 Hours