KerasHub:預訓練模型 / API 文件 / 預處理層 / AudioConverter 層

AudioConverter 層

[來源]

AudioConverter 類別

keras_hub.layers.AudioConverter(**kwargs)

轉換原始音訊以用於支援音訊輸入的模型。

此類別將任意長度的原始音訊張量轉換為預訓練模型輸入的預處理音訊。它旨在成為編寫非模型特定的自訂預處理程式碼的便捷方式。此層應透過 from_preset() 建構函式實例化,該函式將為模型預設建立此層的正確子類別。

該層將原始音訊張量作為輸入,形狀為 (batch_size, num_samples),並輸出用於建模的預處理音訊輸入。預處理輸入的確切結構將因模型而異。預處理通常包括計算原始音訊訊號的頻譜圖。

範例

# Load an audio converter from a preset.
converter = keras_hub.layers.AudioConverter.from_preset("whisper_base_en")
# Convert some raw audio input.
converter(np.ones(2, 1_000))

[來源]

from_preset 方法

AudioConverter.from_preset(preset, **kwargs)

從模型預設實例化 keras_hub.layers.AudioConverter

預設是配置、權重和其他檔案資產的目錄,用於儲存和載入預訓練模型。preset 可以作為以下之一傳遞

  1. 內建預設識別符,例如 'whisper_base_en'
  2. Kaggle Models handle,例如 'kaggle://user/whisper/keras/whisper_base_en'
  3. Hugging Face handle,例如 'hf://user/whisper_base_en'
  4. 本機預設目錄的路徑,例如 './whisper_base_en'

您可以執行 cls.presets.keys() 以列出類別上所有可用的內建預設。

此建構函式可以透過兩種方式之一呼叫。可以從基底類別呼叫,例如 keras_hub.models.AudioConverter.from_preset(),或從模型類別呼叫,例如 keras_hub.models.WhisperAudioConverter.from_preset()。如果從基底類別呼叫,則傳回物件的子類別將從預設目錄中的配置推斷出來。

引數

  • preset:字串。內建預設識別符、Kaggle Models handle、Hugging Face handle 或本機目錄的路徑。
  • load_weights:布林值。如果為 True,權重將載入到模型架構中。如果為 False,權重將隨機初始化。

範例

# Load an audio converter from a preset.
converter = keras_hub.layers.AudioConverter.from_preset(
    "whisper_base_en"
)
# Convert some raw mono channel audio input.
converter(np.ones(2, 1_000))
預設 參數 描述
whisper_tiny_en 37.18M 4 層 Whisper 模型。在 438,000 小時的標記英語語音資料上訓練。
whisper_tiny_multi 37.76M 4 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練。
whisper_base_multi 72.59M 6 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練。
whisper_base_en 124.44M 6 層 Whisper 模型。在 438,000 小時的標記英語語音資料上訓練。
whisper_small_en 241.73M 12 層 Whisper 模型。在 438,000 小時的標記英語語音資料上訓練。
whisper_small_multi 241.73M 12 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練。
whisper_medium_en 763.86M 24 層 Whisper 模型。在 438,000 小時的標記英語語音資料上訓練。
whisper_medium_multi 763.86M 24 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練。
whisper_large_multi 1.54B 32 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練。
whisper_large_multi_v2 1.54B 32 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練了 2.5 個 epoch。whisper_large_multi 的改進版本。