ストリーミング STT

本ガイドはストリーミング音声認識の実装方法を説明します。方式は 1) gRPC と 2) WebSocket の 2 種類に対応しています。詳細はそれぞれストリーミング STT - gRPC とストリーミング STT - WebSocket を参照してください。ファイルの書き起こしが目的であれば、バッチ STT の利用がより簡便です。

注意

ストリーミング STT は同時チャネル数の制限を受けます。詳細はレート制限を参照してください。

対応エンコーディング

LINEAR16, FLAC, MULAW, ALAW, AMR, AMR_WB, OGG_OPUS, OPUS に対応します。

LINEAR16 / MULAW / ALAW / AMR / AMR_WB: 生フレームで送信
OGG_OPUS: OGG コンテナに格納された OPUS フレームを送信
OPUS（生）は gRPC のみ対応。ご利用希望の際はお問い合わせください。

共通 DecoderConfig/Parameters

Name	Type (gRPC / WebSocket)	説明	必須	既定
sample_rate	int	8000 ~ 48000 Hz	〇	-
encoding	AudioEncoding / string	上記エンコーディングを指定	〇	-
model_name	string	sommers_ko（韓）/ sommers_ja（日）/ whisper	-	sommers_ko
domain	string	下記ドメイン参照	-	CALL
use_itn	bool	英字/数字/単位の正規化	-	true
use_disfluency_filter	bool	フィラーワード除去	-	false
use_profanity_filter	bool	不適切語フィルタ	-	false
use_punctuation	bool	句読点を付与するか	-	false
keywords	string[] / string	キーワードブースト	-	-
language	string	whisper 使用時に適用（既定: ko）	-	ko

キーワードブースト

特定語の認識を強めたり弱めたりできます。

注意

現在は sommers_ko モデルでのみサポートされています。

形式と使い方

gRPC: string[]
WebSocket: カンマ区切りの string

各キーワードの形式:

"単語"（スコア省略時は既定 2.0）
"単語:スコア"

注意

単語は韓国語の発音表記で記述
スコア範囲: -5.0 ~ 5.0（正で強化、負で抑制、0 は無効）
上限 100 語、各 20 文字以内
現在は sommers_ko でのみサポート

例

// gRPC
["ブースティング", "リターンゼロ:3.5", "エスティティ:-1"]

// WebSocket
"ブースティング,リターンゼロ:3.5,エスティティ:-1"

ドメイン

CALL（既定）: 近接マイクや通話環境に最適化
MEETING: 会議室など遠距離マイク環境に最適化

入力環境に合わせて選択してください。

対応エンコーディング​

共通 DecoderConfig/Parameters​

キーワードブースト​

形式と使い方​

例​

ドメイン​

対応エンコーディング

共通 DecoderConfig/Parameters

キーワードブースト

形式と使い方

例

ドメイン