다중 채널 지원
오디오 파일에는 "채널"이라는 요소가 존재합니다. 채널은 오디오 신호가 저장되는 독립적인 음성 경로로, 하나의 파일 안에 여러 개의 채널이 존재할 수 있습니다. 예를 들어, 일반적인 스테레오 오디오는 두 개의 채널(좌/우)를 사용합니다. "다중 채널 지원"기능에서는 두 개의 채널을 일반적인 스테레오 오디오가 아닌 2개의 독립적인 파일을 합치는 용도로 사용합니다.
다중 채널 지원은 일반 STT API에서 두 명 이상의 화자가 있을 때, 각 화자의 음성이 서로 다른 채널로 저장된 오디오 파일을 채널별로 분리해서 텍스트로 전사하는 기능입니다. 본 문서는 다중 채널 지원을 이용하기 위한 설정 가이드를 제공합니다.
다중 채널 지원을 사용하면 예를 들어 두 명의 화자가 대화할 때,
- 1채널 : 화자 1의 목소리
- 2채널 : 화자 2의 목소리 과 같이, 음성이 각자의 채널로 녹음되어 각 채널의 내용을 분리해서 각자의 발화로 구분해 텍스트로 전사할 수 있습니다.
이렇게 다중 채널 지원을 통해 각 화자의 목소리를 별도의 채널에 분리해 저장하면 동시 발화, 교차 대화가 있는 등의 환경에서도 정확하게 화자를 구분해 전사하는 것이 가능하게 됩니다.
예를들어, 일반적으로 전화망을 녹음하는 경우 RX/TX 채널을 분리해서 녹음하게 되는데, 각각의 채널을 스테레오 채널 양쪽이 아닌 각각 하나의 채널에 할당하면 이러한 용도로 활용할 수 있습니다.
여러 채널이 포함된 요청을 보낼 경우, 결과는 일반 전사 결과와 동일하며 spk 필드에 각 채널의 ID 값을 순차적으로 지정하여 내려줍니다.
다중 채널 지원을 이용하기 위해선 별도의 요청을 해주시면 사용법에 대한 가이드를 안내해드립니다.
다중 채널 지원을 사용할 경우, 각 채널별 음성 파일 길이의 합이 사용량으로 계산됩니다. 자세한 내용은 사용요금 문서에서 확인하실 수 있습니다.
다중 채널 음성을 만드는 경우 각 채널별 음성 파일의 길이가 달라도 처리 가능합니다.