키워드 부스팅

keywords 파라미터는 특정 키워드에 대한 전사 정확도를 높이기 위해 사용됩니다. 이 파라미터에 리스트 형태로 단어를 지정하면, 해당 단어들이 포함된 음성 데이터에 대한 전사 결과가 개선될 수 있습니다.

현재 키워드 부스팅은 한국어 음성을 전사하는 경우에만 지원합니다. sommers 모델을 사용할 경우 keywords에 입력하는 단어는 한글 발음대로 적어야 합니다. whisper 모델을 사용할 경우 keywords에 입력하는 단어는 한글, 영어 약자, 숫자 조합만 가능합니다. 영어는 대소문자를 혼용하여 사용할 수 있습니다.

Name	Type	Description	예시 (sommers 모델)	예시 (whisper 모델)
keywords	array	전사 정확도를 높일 키워드 리스트	["에스티티", "에이피아이"]	["stt", "에스티티", "위스퍼 V2", "Api"]

caution

sommers 모델인 경우, keywords에 입력하는 단어는 한글 발음대로 적어야 합니다. <예시: STT (X), api (X), 에스티티 (O), 에이피아이 (O)>
sommers 모델인 경우, keywords에 입력하는 단어는 반드시 한글로 구성된 단어여야 합니다. <예시: 에스TT (X), 에스ㅌㅌ (X), 에스티티2 (X), 에스티티 (O)>
whisper 모델로 키워드 부스팅 기능을 사용하기 위해서는 반드시 language 파라미터에 ko 값을 넣어 한국어로 음성 전사를 할 경우에만 사용하실 수 있습니다.
whisper 모델인 경우, keywords에 입력하는 단어는 한글, 영어 약자, 숫자 조합만 가능합니다. 영어는 대소문자를 혼용할 수 있습니다. <예시: stt, 에스티티, 위스퍼 V2, Api>
whisper 모델인 경우, keywords에 입력하는 단어 중 영어와 숫자 조합은 표기와 발음이 동일하게 읽을 수 있는 약어만 가능합니다. <예시: STT, CBT, V2>
whisper 모델인 경우, keywords에 입력하는 단어가 "Agenda, 1on1, B2B" 와 같이 단어의 실제 발음이 단어 표기와 경계가 모호할 경우는 키워드 부스팅 효과를 확인하기 어렵습니다.
각 단어의 길이는 20자 이하로 제한되며, 단어의 개수는 최대 500개까지 지원합니다.

사용법

cURL
Python

curl -X "POST" \
  "https://openapi.vito.ai/v1/transcribe" \
  -H "accept: application/json" \
  -H "Authorization: Bearer ${YOUR_JWT_TOKEN}" \
  -H "Content-Type: multipart/form-data" \
  -F "file=@sample.wav" \
  -F 'config={
    "keywords": ["리턴제로", "음성인식", "에스티티"]
  }'

import json
import requests
import os

# JWT 토큰을 환경변수에서 읽기
jwt_token = os.getenv('YOUR_JWT_TOKEN')
if not jwt_token:
    raise ValueError("환경변수 'YOUR_JWT_TOKEN'이 설정되지 않았습니다.")

config = {
    "keywords": ["리턴제로", "음성인식", "에스티티"]
}

files = {'file': ('sample.wav', open('sample.wav', 'rb'))}

resp = requests.post(
    'https://openapi.vito.ai/v1/transcribe',
    headers={'Authorization': f'Bearer {jwt_token}'},
    files=files,
    data={'config': json.dumps(config)}
)
resp.raise_for_status()
print(resp.json())

keywords를 넣었을 때의 응답 결과 개선 예시

전사 요청시 keywords에 ["음성인식"]을 지정했을 때, 화자의 발음이 불분명해서 "리턴제로는 음성의식을 하는 회사입니다."라고 발음으로 전사한 경우 이를 "음성인식"으로 교정합니다.

{
  "id": "G6j7wIYxSCCz3gYtQbeYdQ",
  "status": "completed",
  "results": {
    "utterances": [
      {
        "start_at": 1187,
        "duration": 600,
        "spk": 0,
        "spk_type": "NORMAL",
-       "msg": "리턴제로는 음성의식을 하는 회사입니다."
+       "msg": "리턴제로는 음성인식을 하는 회사입니다."
      }
    ]
  }
}

사용법​

keywords를 넣었을 때의 응답 결과 개선 예시​

사용법

keywords를 넣었을 때의 응답 결과 개선 예시