音声認識モデル
利用する音声認識モデルを選択します。既定モデルの sommers
と、OpenAPI 向けにチューニングした whisper
を提供しています。
whisper
を使う場合は必ず language
パラメータを設定してください。
利用可能な言語は whisper の公式リストを参照してください。 自動検出や多言語を扱いたい場合は 音声認識言語 を参照してください。
注意
既定の同時処理上限は 2 件です。ご利用状況に応じて調整可能です。 Whisper 関連のご相談はチャットからお問い合わせください。
Sommers モデル
- リターンゼロ独自の ASR モデル。低レイテンシかつ高精度。
- 対応言語: 韓国語(
ko
)、日本語(ja
)。 language
は任意です。省略時はko
(韓国語)が既定になります。
Whisper モデル
- コミュニティモデルを API 用に最適化。
language
は必須です。検出/多言語の利用は 音声認識言語 を参照してください。
使い方
POST のリクエストボディで model_name
を sommers
または whisper
に設定します(whisper は language
が必須)。
POST example: Example
Unified example (presets): Example