ストリーミング STT
本ガイドはストリーミング音声認識の実装方法を説明します。方式は 1) gRPC と 2) WebSocket の 2 種類に対応しています。詳細はそれぞれ ストリーミング STT - gRPC と ストリーミング STT - WebSocket を参照してください。 ファイルの書き起こしが目的であれば、バッチ STT の利用がより簡便です。
注意
ストリーミング STT は同時チャネル数の制限を受けます。詳細はレート制限を参照してください。
対応エンコーディング
LINEAR16, FLAC, MULAW, ALAW, AMR, AMR_WB, OGG_OPUS, OPUS に対応します。
- LINEAR16 / MULAW / ALAW / AMR / AMR_WB: 生フレームで送信
- OGG_OPUS: OGG コンテナに格納された OPUS フレームを送信
- OPUS(生)は gRPC のみ対応。ご利用希望の際はお問い合わせください。
共通 DecoderConfig/Parameters
Name | Type (gRPC / WebSocket) | 説明 | 必須 | 既定 |
---|---|---|---|---|
sample_rate | int | 8000 ~ 48000 Hz | 〇 | - |
encoding | AudioEncoding / string | 上記エンコーディングを指定 | 〇 | - |
model_name | string | sommers_ko(韓)/ sommers_ja(日)/ whisper | - | sommers_ko |
domain | string | 下記ドメイン参照 | - | CALL |
use_itn | bool | 英字/数字/単位の正規化 | - | true |
use_disfluency_filter | bool | フィラーワード除去 | - | false |
use_profanity_filter | bool | 不適切語フィルタ | - | false |
use_punctuation | bool | 句読点を付与するか | - | false |
keywords | string[] / string | キーワードブースト | - | - |
language | string | whisper 使用時に適用(既定: ko) | - | ko |
キーワードブースト
特定語の認識を強めたり弱めたりできます。
注意
現在は sommers_ko
モデルでのみサポートされています。
形式と使い方
- gRPC:
string[]
- WebSocket: カンマ区切りの
string
各キーワードの形式:
"単語"
(スコア省略時は既定 2.0)"単語:スコア"
注意
- 単語は韓国語の発音表記で記述
- スコア範囲: -5.0 ~ 5.0(正で強化、負で抑制、0 は無効)
- 上限 100 語、各 20 文字以内
- 現在は
sommers_ko
でのみサポート
例
// gRPC
["ブースティング", "リターンゼロ:3.5", "エスティティ:-1"]
// WebSocket
"ブースティング,リターンゼロ:3.5,エスティティ:-1"
ドメイン
- CALL(既定): 近接マイクや通話環境に最適化
- MEETING: 会議室など遠距離マイク環境に最適化
入力環境に合わせて選択してください。