音声認識モデル
利用する音声認識モデルを選択します。既定モデルの sommers と、OpenAPI 向けにチューニングした whisper を提供しています。
whisper を使う場合は必ず language パラメータを設定してください。
利用可能な言語は whisper の公式リストを参照してください。 自動検出や多言語を扱いたい場合は 音声認識言語 を参照してください。
注意
既定の同時処理上限は 2 件です。ご利用状況に応じて調整可能です。 Whisper 関連のご相談はチャットからお問い合わせください。
Sommers モデル
- リターンゼロ独自の ASR モデル。低レイテンシかつ高精度。
- 対応言語: 韓国語(
ko)、日本語(ja)。 languageは任意です。省略時はko(韓国語)が既定になります。
Whisper モデル
- コミュニティモデルを API 用に最適化。
languageは必須です。検出/多言語の利用は 音声認識言語 を参照してください。
使い方
POST のリクエストボディで model_name を sommers または whisper に設定します(whisper は language が必須)。
POST example: Example
Unified example (presets): Example