Skip to main content

문단 나누기

문단 나누기는 STT API에서 전사된 텍스트를 복수개의 문단으로 나눠 가독성을 높여주는 기능입니다. 발화 구간과 내용을 기반으로 최대 글자수에 맞춰 텍스트를 나눕니다.

문단 나누기 기능을 사용하기 위해서는, API 요청 시에 use_paragraph_splitter 파라미터를 true로 설정해야 합니다.
(파라미터 기본값은 true입니다.)

또한 한 문단의 최대 글자수를 지정할 수 있도록 max 파라미터를 설정해야 합니다. use_paragraph_splitter 파라미터를 true 로 사용하면서 max 파라미터를 설정하지 않으면 기본값으로 50이 설정됩니다.

  • max: 50
    안녕하십니까 투자 증권 ARS 증권정보 서비스입니다. 보이는 ARS에 연결 되었습니다.
    추가 데이터 요금이 발생되며 이용을 원하지 않으시면 음성 ARS 버튼을 눌러주세요.
    원하시는 서비스 코드를 눌러주십시오.
  • max: 80
    안녕하십니까 투자 증권 ARS 증권정보 서비스입니다. 보이는 ARS에 연결 되었습니다. 추가 데이터 요금이 발생되며 이용을 원하지 않으시면 음성 ARS 버튼을 눌러주세요.
    원하시는 서비스 코드를 눌러주십시오.
  • use_paragraph_splitter: false
    안녕하십니까 투자 증권 ARS 증권정보 서비스입니다. 보이는 ARS에 연결 되었습니다. 추가 데이터 요금이 발생되며 이용을 원하지 않으시면 음성 ARS 버튼을 눌러주세요. 원하시는 서비스 코드를 눌러주십시오.
caution

항상 이 길이 조건이 보장되지는 않습니다. 하나의 문장이 max보다 긴 경우에는 max보다 긴 문단이 반환될 수도 있습니다.

화자분리(diarization) 기능을 함께 이용하는 경우에는 화자의 발화 단위로 문단나누기가 적용됩니다. 반면 화자분리 기능을 이용하지 않는 경우, 요청한 파일 전체 내용에 대해 문단나누기가 적용됩니다.

옵션값 조건 및 권장사항

문단 나누기는 이용자가 max 이하 개수의 글자로 구성된 문단으로 나누기를 시도합니다. max 값은 1 이상의 조건을 만족하는 정수이어야 합니다. 서비스 상황에 따른 예시는 다음과 같습니다.

구분Max설명
짧게50모바일 기기 사용 환경에 적합
보통80태블릿 기기 사용 환경에 적합
길게130PC 사용 환경에 적합

사용법

아래의 코드 샘플에서 문단나누기를 사용하는 방법을 확인하실 수 있습니다.


curl -X "POST" \
"https://openapi.vito.ai/v1/transcribe" \
-H "accept: application/json" \
-H "Authorization: Bearer ${YOUR_JWT_TOKEN}" \
-H "Content-Type: multipart/form-data" \
-F "file=@sample.wav" \
-F 'config={
"use_paragraph_splitter": true,
"paragraph_splitter": {
"max": 50
}
}'