メインコンテンツまでスキップ

ストリーミング STT

本ガイドはストリーミング音声認識の実装方法を説明します。方式は 1) gRPC と 2) WebSocket の 2 種類に対応しています。詳細はそれぞれ ストリーミング STT - gRPCストリーミング STT - WebSocket を参照してください。 ファイルの書き起こしが目的であれば、バッチ STT の利用がより簡便です。

注意

ストリーミング STT は同時チャネル数の制限を受けます。詳細はレート制限を参照してください。

対応エンコーディング

LINEAR16, FLAC, MULAW, ALAW, AMR, AMR_WB, OGG_OPUS, OPUS に対応します。

  • LINEAR16 / MULAW / ALAW / AMR / AMR_WB: 生フレームで送信
  • OGG_OPUS: OGG コンテナに格納された OPUS フレームを送信
  • OPUS(生)は gRPC のみ対応。ご利用希望の際はお問い合わせください。

共通 DecoderConfig/Parameters

NameType (gRPC / WebSocket)説明必須既定
sample_rateint8000 ~ 48000 Hz-
encodingAudioEncoding / string上記エンコーディングを指定-
model_namestringsommers_ko(韓)/ sommers_ja(日)/ whisper-sommers_ko
domainstring下記ドメイン参照-CALL
use_itnbool英字/数字/単位の正規化-true
use_disfluency_filterboolフィラーワード除去-false
use_profanity_filterbool不適切語フィルタ-false
use_punctuationbool句読点を付与するか-false
keywordsstring[] / stringキーワードブースト--
languagestringwhisper 使用時に適用(既定: ko)-ko

キーワードブースト

特定語の認識を強めたり弱めたりできます。

注意

現在は sommers_ko モデルでのみサポートされています。

形式と使い方

  • gRPC: string[]
  • WebSocket: カンマ区切りの string

各キーワードの形式:

  • "単語"(スコア省略時は既定 2.0)
  • "単語:スコア"
注意
  • 単語は韓国語の発音表記で記述
  • スコア範囲: -5.0 ~ 5.0(正で強化、負で抑制、0 は無効)
  • 上限 100 語、各 20 文字以内
  • 現在は sommers_ko でのみサポート

// gRPC
["ブースティング", "リターンゼロ:3.5", "エスティティ:-1"]

// WebSocket
"ブースティング,リターンゼロ:3.5,エスティティ:-1"

ドメイン

  • CALL(既定): 近接マイクや通話環境に最適化
  • MEETING: 会議室など遠距離マイク環境に最適化

入力環境に合わせて選択してください。