키워드 부스팅
keywords 파라미터는 특정 키워드에 대한 전사 정확도를 높이기 위해 사용됩니다. 이 파라미터에 리스트 형태로 단어를 지정하면, 해당 단어들이 포함된 음성 데이터에 대한 전사 결과가 개선될 수 있습니다.
현재 키워드 부스팅은 한국어 음성을 전사하는 경우에만 지원합니다.
sommers
모델을 사용할 경우 keywords
에 입력하는 단어는 한글 발음대로 적어야 합니다.
whisper
모델을 사용할 경우 keywords
에 입력하는 단어는 한글, 영어 약자, 숫자 조합만 가능합니다. 영어는 대소문자를 혼용하여 사용할 수 있습니다.
Name | Type | Description | Example |
---|---|---|---|
keywords | array | 전사 정확도를 높일 키워드 리스트 | ["리턴제로", "음성인식", "STT"] |
caution
sommers
모델인 경우,keywords
에 입력하는 단어는 한글 발음대로 적어야 합니다. <예시: STT (X), api (X), 에스티티 (O), 에이피아이 (O)>sommers
모델인 경우,keywords
에 입력하는 단어는 반드시 한글로 구성된 단어여야 합니다. <예시: 에스TT (X), 에스ㅌㅌ (X), 에스티티2 (X), 에스티티 (O)>whisper
모델로 키워드 부스팅 기능을 사용하기 위해서는 반드시language
파라미터에ko
값을 넣어 한국어로 음성 전사를 할 경우에만 사용하실 수 있습니다.whisper
모델인 경우,keywords
에 입력하는 단어는 한글, 영어 약자, 숫자 조합만 가능합니다. 영어는 대소문자를 혼용할 수 있습니다. <예시: stt, 에스티티, 위스퍼 V2, Api>whisper
모델인 경우,keywords
에 입력하는 단어 중 영어와 숫자 조합은 표기와 발음이 동일하게 읽을 수 있는 약어만 가능합니다. <예시: STT, CBT, V2>whisper
모델인 경우,keywords
에 입력하는 단어가 "Agenda, 1on1, B2B" 와 같이 단어의 실제 발음이 단어 표기와 경계가 모호할 경우는 키워드 부스팅 효과를 확인하기 어렵습니다.- 각 단어의 길이는 20자 이하로 제한되며, 단어의 개수는 최대 100개까지 지원합니다.
사용법
- cURL
- Python
curl -X "POST" \
"https://openapi.vito.ai/v1/transcribe" \
-H "accept: application/json" \
-H "Authorization: Bearer ${YOUR_JWT_TOKEN}" \
-H "Content-Type: multipart/form-data" \
-F "file=@sample.wav" \
-F 'config={
"keywords": ["리턴제로", "음성인식", "에스티티"]
}'
import json
import requests
import os
# JWT 토큰을 환경변수에서 읽기
jwt_token = os.getenv('YOUR_JWT_TOKEN')
if not jwt_token:
raise ValueError("환경변수 'YOUR_JWT_TOKEN'이 설정되지 않았습니다.")
config = {
"keywords": ["리턴제로", "음성인식", "에스티티"]
}
files = {'file': ('sample.wav', open('sample.wav', 'rb'))}
resp = requests.post(
'https://openapi.vito.ai/v1/transcribe',
headers={'Authorization': f'Bearer {jwt_token}'},
files=files,
data={'config': json.dumps(config)}
)
resp.raise_for_status()
print(resp.json())
keywords를 넣었을 때의 응답 결과 개선 예시
전사 요청시 keywords
에 ["음성인식"]을 지정했을 때,
화자의 발음이 불분명해서 "리턴제로는 음성의식을 하는 회사입니다."라고 발음으로 전사한 경우 이를 "음성인식"으로 교정합니다.
{
"id": "G6j7wIYxSCCz3gYtQbeYdQ",
"status": "completed",
"results": {
"utterances": [
{
"start_at": 1187,
"duration": 600,
"spk": 0,
"spk_type": "NORMAL",
- "msg": "리턴제로는 음성의식을 하는 회사입니다."
+ "msg": "리턴제로는 음성인식을 하는 회사입니다."
}
]
}
}