Skip to main content

단어별 Timestamp

use_word_timestamp 파라미터를 사용하면 전사된 텍스트의 각 단어별 시작 시간과 지속 시간을 확인할 수 있습니다. 이 기능은 텍스트와 원본 오디오를 정확하게 동기화해야 할 때 특히 유용합니다.

NameTypeDefaultDesc
use_word_timestampBooleanfalsetrue로 설정할 경우, API 응답에 utterances 배열 내에 words 필드가 포함됩니다. words 내 각 요소는 start_at, duration, text 필드를 포함합니다.

사용법

API 요청 시 use_word_timestamp 파라미터를 true로 설정할 수 있습니다.


curl -X "POST" \
"https://openapi.vito.ai/v1/transcribe" \
-H "accept: application/json" \
-H "Authorization: Bearer ${YOUR_JWT_TOKEN}" \
-F "file=@sample.wav" \
-F 'config={
"use_word_timestamp": true
}'

단어별 Timestamp 응답 예시

{
"id": "G6j7wIYxSCCz3gYtQbeYdQ",
"status": "completed",
"results": {
"utterances": [
{
"start_at": 1187,
"duration": 600,
"spk": 0,
"spk_type": "NORMAL",
+ "words": [
+ {
+ "start_at": 1187,
+ "duration": 600,
+ "text": "여보세요."
+ }
+ ],
"msg": "여보세요."
},
{
"start_at": 3108,
"duration": 1590,
"spk": 1,
"spk_type": "NORMAL",
+ "words": [
+ {
+ "start_at": 3108,
+ "duration": 540,
+ "text": "안녕하세요,"
+ },
+ {
+ "start_at": 3648,
+ "duration": 1050,
+ "text": "리턴제로입니다."
+ }
+ ],
"msg": "안녕하세요, 리턴제로입니다."
}
]
}
}

응답에는 이제 utterances 아래에 words 필드가 포함되어, 각 단어가 발화된 시작 시간, 지속 시간, 그리고 텍스트에 대한 세밀한 정보를 제공합니다.