단어별 Timestamp
use_word_timestamp 파라미터를 사용하면 전사된 텍스트의 각 단어별 시작 시간과 지속 시간을 확인할 수 있습니다. 이 기능은 텍스트와 원본 오디오를 정확하게 동기화해야 할 때 특히 유용합니다. 여기서 '동기화'란, 전사된 텍스트가 실제 오디오의 어떤 시점에서 말해졌는지를 정확히 일치시키는 것을 의미합니다. 예를 들어, 영상 자막을 제작하는 경우 단어 단위의 정확한 타이밍을 기반으로 자막이 표시되어, 오디오와 텍스트 간의 싱크를 정밀하게 맞출 수 있습니다. 또한 영상 속에서 특정 단어가 언제 등장했는지 알 수 있어, 해당 구간을 빠르게 찾아 말한 시점을 기준으로 바로 편집 지점을 잡아 편집할 수 있어 보다 효율적입니다.
Name | Type | Default | Desc |
---|---|---|---|
use_word_timestamp | Boolean | false | true 로 설정할 경우, API 응답에 utterances 배열 내에 words 필드가 포함됩니다. words 내 각 요소는 start_at , duration , text 필드를 포함합니다. |
사용법
요청 바디에 use_word_timestamp
파라미터를 true
로 설정합니다.
POST 요청 예제: 일반 STT 샘플 코드
전체 예제: 일반 STT 샘플 코드
단어별 Timestamp 응답 예시
{
"id": "G6j7wIYxSCCz3gYtQbeYdQ",
"status": "completed",
"results": {
"utterances": [
{
"start_at": 1187,
"duration": 600,
"spk": 0,
"spk_type": "NORMAL",
+ "words": [
+ {
+ "start_at": 1187,
+ "duration": 600,
+ "text": "여보세요."
+ }
+ ],
"msg": "여보세요."
},
{
"start_at": 3108,
"duration": 1590,
"spk": 1,
"spk_type": "NORMAL",
+ "words": [
+ {
+ "start_at": 3108,
+ "duration": 540,
+ "text": "안녕하세요,"
+ },
{
+ "start_at": 3648,
+ "duration": 1050,
+ "text": "리턴제로입니다."
+ }
+ ],
"msg": "안녕하세요, 리턴제로입니다."
}
]
}
}
응답에는 이제 utterances 아래에 words 필드가 포함되어, 각 단어가 발화된 시작 시간, 지속 시간, 그리고 텍스트에 대한 세밀한 정보를 제공합니다.