AudioConverter
類別keras_hub.layers.AudioConverter(**kwargs)
轉換原始音訊以用於支援音訊輸入的模型。
此類別將任意長度的原始音訊張量轉換為預訓練模型輸入的預處理音訊。它旨在成為編寫非模型特定的自訂預處理程式碼的便捷方式。此層應透過 from_preset()
建構函式實例化,該函式將為模型預設建立此層的正確子類別。
該層將原始音訊張量作為輸入,形狀為 (batch_size, num_samples)
,並輸出用於建模的預處理音訊輸入。預處理輸入的確切結構將因模型而異。預處理通常包括計算原始音訊訊號的頻譜圖。
範例
# Load an audio converter from a preset.
converter = keras_hub.layers.AudioConverter.from_preset("whisper_base_en")
# Convert some raw audio input.
converter(np.ones(2, 1_000))
from_preset
方法AudioConverter.from_preset(preset, **kwargs)
從模型預設實例化 keras_hub.layers.AudioConverter
。
預設是配置、權重和其他檔案資產的目錄,用於儲存和載入預訓練模型。preset
可以作為以下之一傳遞
'whisper_base_en'
'kaggle://user/whisper/keras/whisper_base_en'
'hf://user/whisper_base_en'
'./whisper_base_en'
您可以執行 cls.presets.keys()
以列出類別上所有可用的內建預設。
此建構函式可以透過兩種方式之一呼叫。可以從基底類別呼叫,例如 keras_hub.models.AudioConverter.from_preset()
,或從模型類別呼叫,例如 keras_hub.models.WhisperAudioConverter.from_preset()
。如果從基底類別呼叫,則傳回物件的子類別將從預設目錄中的配置推斷出來。
引數
True
,權重將載入到模型架構中。如果為 False
,權重將隨機初始化。範例
# Load an audio converter from a preset.
converter = keras_hub.layers.AudioConverter.from_preset(
"whisper_base_en"
)
# Convert some raw mono channel audio input.
converter(np.ones(2, 1_000))
預設 | 參數 | 描述 |
---|---|---|
whisper_tiny_en | 37.18M | 4 層 Whisper 模型。在 438,000 小時的標記英語語音資料上訓練。 |
whisper_tiny_multi | 37.76M | 4 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練。 |
whisper_base_multi | 72.59M | 6 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練。 |
whisper_base_en | 124.44M | 6 層 Whisper 模型。在 438,000 小時的標記英語語音資料上訓練。 |
whisper_small_en | 241.73M | 12 層 Whisper 模型。在 438,000 小時的標記英語語音資料上訓練。 |
whisper_small_multi | 241.73M | 12 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練。 |
whisper_medium_en | 763.86M | 24 層 Whisper 模型。在 438,000 小時的標記英語語音資料上訓練。 |
whisper_medium_multi | 763.86M | 24 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練。 |
whisper_large_multi | 1.54B | 32 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練。 |
whisper_large_multi_v2 | 1.54B | 32 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練了 2.5 個 epoch。whisper_large_multi 的改進版本。 |