Whisper モデルタイプ

Whisperモデルには、以下の5つのモデルが用意されています。性能の高いモデルを使用することで、文字起こしの精度を向上させることができます。

  1. tiny: 最小のモデルで、処理速度が非常に高いが、精度が低い。
  2. base: デフォルトのモデルで、処理速度と精度のバランスが取れている。
  3. small: 中間のモデルで、処理速度と精度のバランスが取れている。
  4. medium: 高精度のモデルで、処理速度がやや長くなる。
  5. large: 最高精度のモデルで、処理速度が最も長くなるが、精度が最も高い[2][4][6]。

現在のコードではbaseモデルを使用していますが、より高性能なモデルを使用するには、以下のようにモデル名を変更する必要があります。

whisper_model = whisper.load_model("large")

これにより、最高精度のlargeモデルを使用することができます。ただし、処理速度が最も長くなるため、使用する際には注意が必要です。

Citations:
[1] https://ysdyt.hatenablog.jp/entry/whisper
[2] https://stella-international.co.jp/media/whisper/
[3] https://book.st-hakky.com/data-science/whisper-transcription/
[4] https://weel.co.jp/media/tech/whisper/
[5] https://zenn.dev/sunwood_ai_labs/articles/whisper-medusa-review
[6] https://qiita.com/diesekiefer/items/00d8c1507829b58a62ab

タイトルとURLをコピーしました