Course Outline

Speech Recognition 기술 개요

  • 음성 인식의 역사와 진화
  • 음향 모델, 언어 모델 및 디코딩
  • 현대 아키텍처: RNN, 트랜스포머 및 Whisper

오디오 전처리 및 전사 기본 사항

  • 오디오 포맷 및 샘플 레이트 처리
  • 오디오 정리, 자르기 및 분할
  • 오디오에서 텍스트 생성: 실시간 vs 배치

Whisper 및 기타 API 실습

  • OpenAI Whisper 설치 및 사용
  • 전사용 클라우드 API (Google, Azure) 호출
  • 성능, 지연 및 비용 비교

언어, 억양 및 도메인 적응

  • 여러 언어 및 억양 작업
  • 맞춤형 어휘 및 노이즈 내성
  • 법률, 의료 또는 기술 언어 처리

출력 형식 지정 및 통합

  • 타임스탬프, 구두점 및 발화자 레이블 추가
  • 텍스트, SRT 또는 JSON 형식으로 내보내기
  • 전사본을 앱 또는 데이터베이스에 통합

Use Case 구현 실습

  • 회의, 인터뷰 또는 팟캐스트 전사
  • 음성-텍스트 명령 시스템
  • 비디오/오디오 스트림용 실시간 자막

평가, 제한 사항 및 윤리

  • 정확도 지표 및 모델 벤치마킹
  • 음성 모델의 편견 및 공정성
  • 프라이버시 및 규제 준수 고려 사항

요약 및 다음 단계

Requirements

  • 일반 AI 및 머신러닝 개념에 대한 이해
  • 오디오 또는 미디어 파일 형식 및 도구에 대한 familiarity

대상

  • 음성 데이터를 다루는 데이터 과학자 및 AI 엔지니어
  • 음성 인식 기반 응용 프로그램을 구축하는 소프트웨어 개발자
  • 자동화를 위한 음성 인식에 관심이 있는 조직
 14 Hours

Number of participants


Price per participant

Upcoming Courses

Related Categories