본문으로 건너뛰기

음성인식 언어

language 파라미터를 통해 음성인식에 사용할 언어를 설정할 수 있습니다. whisper 모델을 사용할 때는 필수적으로 설정해야 하며, sommers 모델에서는 선택적으로 사용할 수 있습니다.

지원 언어

Sommers 모델

  • 한국어(ko)와 일본어(ja)를 지원합니다.
  • language 파라미터를 설정하지 않으면 기본값인 ko(한국어)로 처리됩니다.

Whisper 모델

  • ISO 639-1 포맷의 2글자 언어 코드를 사용하여 총 100개의 언어를 지원합니다.
  • 지원되는 전체 언어 목록은 OpenAI Whisper 공식 문서에서 확인할 수 있습니다.

언어 감지 및 다중 언어 처리 (Whisper 모델 전용)

language 파라미터에는 일반 언어 코드 외에도 두 가지 특별한 값을 설정하여 언어 감지 및 다중 언어 처리 기능을 사용할 수 있습니다:

1. detect - 단일 언어 자동 감지

단일 언어로 이루어진 오디오의 언어를 자동으로 감지합니다. 오디오 전체가 하나의 언어로 구성되어 있지만 어떤 언어인지 확실하지 않을 때 유용합니다.

사용 예시:

  • 전체 오디오가 영어로만 구성된 경우
  • 전체 오디오가 한국어로만 구성된 경우

2. multi - 다중 언어 처리

여러 언어가 혼합된 오디오를 처리합니다. 하나의 오디오 파일 내에서 문장이나 구간별로 서로 다른 언어가 사용될 때 각각을 적절히 인식합니다.

사용 예시:

  • 영어 문장, 한국어 문장, 일본어 문장이 번갈아 나오는 경우
  • 문장 단위로 서로 다른 언어가 사용된 경우
  • 국제 회의나 다국적 미팅 녹음

language_candidates 옵션 (Whisper 모델 전용)

languagedetect 또는 multi 키워드를 사용할 때 language_candidates 파라미터를 추가로 설정할 수 있습니다.

  • 기본값: ["ko", "ja", "zh", "en"] (한국어, 일본어, 중국어, 영어)
  • 목적: 특정 언어들로 범위를 한정하여 언어 감지의 정확도를 높입니다.
주의
  • language 파라미터는 whisper 모델 사용 시 필수입니다.
  • language_candidates에서 언어의 개수를 많이 지정할수록 정확도가 떨어질 수 있습니다.

사용법

요청 바디language 파라미터를 설정합니다.

POST 요청 예제: 일반 STT 샘플 코드

전체 예제: 일반 STT 샘플 코드