Whisperモデルには、以下の5つのモデルが用意されています。性能の高いモデルを使用することで、文字起こしの精度を向上させることができます。
- tiny: 最小のモデルで、処理速度が非常に高いが、精度が低い。
- base: デフォルトのモデルで、処理速度と精度のバランスが取れている。
- small: 中間のモデルで、処理速度と精度のバランスが取れている。
- medium: 高精度のモデルで、処理速度がやや長くなる。
- large: 最高精度のモデルで、処理速度が最も長くなるが、精度が最も高い[2][4][6]。
現在のコードではbase
モデルを使用していますが、より高性能なモデルを使用するには、以下のようにモデル名を変更する必要があります。
whisper_model = whisper.load_model("large")
これにより、最高精度のlarge
モデルを使用することができます。ただし、処理速度が最も長くなるため、使用する際には注意が必要です。
Citations:
[1] https://ysdyt.hatenablog.jp/entry/whisper
[2] https://stella-international.co.jp/media/whisper/
[3] https://book.st-hakky.com/data-science/whisper-transcription/
[4] https://weel.co.jp/media/tech/whisper/
[5] https://zenn.dev/sunwood_ai_labs/articles/whisper-medusa-review
[6] https://qiita.com/diesekiefer/items/00d8c1507829b58a62ab