문단 나누기
문단 나누기는 전사된 텍스트를 여러 문단으로 나누어 가독성을 높이는 기능입니다. 발화 구간과 내용을 기반으로 지정된 최대 글자수에 맞추어 텍스트를 분할합니다.
문단 나누기 기능을 사용하기 위해서는, API 요청 시에 use_paragraph_splitter
파라미터를 true
로 설정해야 합니다.
(파라미터 기본값은 true
입니다.)
또한 한 문단의 최대 글자수를 지정할 수 있도록 max
파라미터를 설정해야 합니다. use_paragraph_splitter
파라미터를 true
로 사용하면서 max
파라미터를 설정하지 않으면 기본값으로 50
이 설정됩니다.
- max: 50
안녕하십니까 투자 증권 ARS 증권정보 서비스입니다. 보이는 ARS에 연결 되었습니다.
추가 데이터 요금이 발생되며 이용을 원하지 않으시면 음성 ARS 버튼을 눌러주세요.
원하시는 서비스 코드를 눌러주십시오. - max: 80
안녕하십니까 투자 증권 ARS 증권정보 서비스입니다. 보이는 ARS에 연결 되었습니다. 추가 데이터 요금이 발생되며 이용을 원하지 않으시면 음성 ARS 버튼을 눌러주세요.
원하시는 서비스 코드를 눌러주십시오. - use_paragraph_splitter: false
안녕하십니까 투자 증권 ARS 증권정보 서비스입니다. 보이는 ARS에 연결 되었습니다. 추가 데이터 요금이 발생되며 이용을 원하지 않으시면 음성 ARS 버튼을 눌러주세요. 원하시는 서비스 코드를 눌러주십시오.
caution
항상 이 길이 조건이 보장되지는 않습니다. 하나의 문장이 max보다 긴 경우에는 max보다 긴 문단이 반환될 수도 있습니다.
화자분리(diarization) 기능을 함께 이용하는 경우에는 화자의 발화 단위로 문단나누기가 적용됩니다. 반면 화자분리 기능을 이용하지 않는 경우, 요청한 파일 전체 내용에 대해 문단나누기가 적용됩니다.
옵션값 조건 및 권장사항
문단 나누기는 이용자가 max 이하 개수의 글자로 구성된 문단으로 나누기를 시도합니다. max 값은 1 이상의 조건을 만족하는 정수이어야 합니다. 서비스 상황에 따른 예시는 다음과 같습니다.
구분 | Max | 설명 |
---|---|---|
짧게 | 50 | 모바일 기기 사용 환경에 적합 |
보통 | 80 | 태블릿 기기 사용 환경에 적합 |
길게 | 130 | PC 사용 환경에 적합 |
사용법
아래의 코드 샘플에서 문단나누기를 사용하는 방법을 확인하실 수 있습니다.
curl -X "POST" \
"https://openapi.vito.ai/v1/transcribe" \
-H "accept: application/json" \
-H "Authorization: Bearer ${YOUR_JWT_TOKEN}" \
-H "Content-Type: multipart/form-data" \
-F "file=@sample.wav" \
-F 'config={
"use_paragraph_splitter": true,
"paragraph_splitter": {
"max": 50
}
}'