음성인식 언어
language
파라미터를 통해 음성인식에 사용할 언어를 설정할 수 있습니다. whisper
모델을 사용할 때는 필수적으로 설정해야 하며, sommers
모델에서는 선택적으로 사용할 수 있습니다.
지원 언어
Sommers 모델
- 한국어(
ko
)와 일본어(ja
)를 지원합니다. language
파라미터를 설정하지 않으면 기본값인ko
(한국어)로 처리됩니다.
Whisper 모델
- ISO 639-1 포맷의 2글자 언어 코드를 사용하여 총 100개의 언어를 지원합니다.
- 지원되는 전체 언어 목록은 OpenAI Whisper 공식 문서에서 확인할 수 있습니다.
언어 감지 및 다중 언어 처리 (Whisper 모델 전용)
language
파라미터에는 일반 언어 코드 외에도 두 가지 특별한 값을 설정하여 언어 감지 및 다중 언어 처리 기능을 사용할 수 있습니다:
1. detect
- 단일 언어 자동 감지
단일 언어로 이루어진 오디오의 언어를 자동으로 감지합니다. 오디오 전체가 하나의 언어로 구성되어 있지만 어떤 언어인지 확실하지 않을 때 유용합니다.
사용 예시:
- 전체 오디오가 영어로만 구성된 경우
- 전체 오디오가 한국어로만 구성된 경우
2. multi
- 다중 언어 처리
여러 언어가 혼합된 오디오를 처리합니다. 하나의 오디오 파일 내에서 문장이나 구간별로 서로 다른 언어가 사용될 때 각각을 적절히 인식합니다.
사용 예시:
- 영어 문장, 한국어 문장, 일본어 문장이 번갈아 나오는 경우
- 문장 단위로 서로 다른 언어가 사용된 경우
- 국제 회의나 다국적 미팅 녹음
language_candidates
옵션 (Whisper 모델 전용)
language
에 detect
또는 multi
키워드를 사용할 때 language_candidates
파라미터를 추가로 설정할 수 있습니다.
- 기본값:
["ko", "ja", "zh", "en"]
(한국어, 일본어, 중국어, 영어) - 목적: 특정 언어들로 범위를 한정하여 언어 감지의 정확도를 높입니다.
주의
language
파라미터는whisper
모델 사용 시 필수입니다.language_candidates
에서 언어의 개수를 많이 지정할수록 정확도가 떨어질 수 있습니다.
사용법
요청 바디에 language
파라미터를 설정합니다.
POST 요청 예제: 일반 STT 샘플 코드
전체 예제: 일반 STT 샘플 코드