WhisperTokenizer

[原始碼]

WhisperTokenizer 類別

keras_hub.tokenizers.WhisperTokenizer(
    vocabulary=None, merges=None, special_tokens=None, language_tokens=None, **kwargs
)

使用位元組對編碼子詞分段的 Whisper 文字分詞器。

此分詞器類別會將原始字串分詞為整數序列,並且基於 keras_hub.tokenizers.BytePairTokenizer。此分詞器不提供輸入的截斷或填充。

參數

  • vocabulary:字串或字典,將 token 對應到整數 ID。如果是字串,則應為 json 檔案的路徑。
  • merges:字串或列表,包含合併規則。如果是字串,則應為合併規則檔案的路徑。合併規則檔案每行應有一個合併規則。每個合併規則包含以空格分隔的合併實體。
  • special_tokens:字串或字典,將特殊 token 對應到整數 ID。如果是字串,則應為 JSON 檔案的路徑。
  • language_tokens:字串或字典,將語言 token 對應到整數 ID。如果不是 None,則分詞器將被假定為多語言分詞器。

[原始碼]

from_preset 方法

WhisperTokenizer.from_preset(preset, config_file="tokenizer.json", **kwargs)

從模型預設實例化 keras_hub.models.Tokenizer

預設是一個包含配置、權重和其他檔案資產的目錄,用於儲存和載入預訓練模型。preset 可以作為以下其中之一傳遞:

  1. 一個內建預設識別符,例如 'bert_base_en'
  2. 一個 Kaggle 模型句柄,例如 'kaggle://user/bert/keras/bert_base_en'
  3. 一個 Hugging Face 句柄,例如 'hf://user/bert_base_en'
  4. 一個本地預設目錄的路徑,例如 './bert_base_en'

對於任何 Tokenizer 子類別,您可以執行 cls.presets.keys() 以列出類別上所有可用的內建預設。

此建構子可以透過兩種方式之一調用。可以從基底類別調用,例如 keras_hub.models.Tokenizer.from_preset(),或從模型類別調用,例如 keras_hub.models.GemmaTokenizer.from_preset()。如果從基底類別調用,則返回物件的子類別將從預設目錄中的配置推斷出來。

參數

  • preset:字串。一個內建預設識別符、Kaggle 模型句柄、Hugging Face 句柄,或本地目錄的路徑。
  • load_weights:布林值。如果為 True,權重將被載入到模型架構中。如果為 False,權重將被隨機初始化。

範例

# Load a preset tokenizer.
tokenizer = keras_hub.tokenizer.Tokenizer.from_preset("bert_base_en")

# Tokenize some input.
tokenizer("The quick brown fox tripped.")

# Detokenize some input.
tokenizer.detokenize([5, 6, 7, 8, 9])
預設 參數 描述
whisper_tiny_en 37.18M 4 層 Whisper 模型。在 438,000 小時的標記英語語音資料上訓練。
whisper_tiny_multi 37.76M 4 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練。
whisper_base_multi 72.59M 6 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練。
whisper_base_en 124.44M 6 層 Whisper 模型。在 438,000 小時的標記英語語音資料上訓練。
whisper_small_en 241.73M 12 層 Whisper 模型。在 438,000 小時的標記英語語音資料上訓練。
whisper_small_multi 241.73M 12 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練。
whisper_medium_en 763.86M 24 層 Whisper 模型。在 438,000 小時的標記英語語音資料上訓練。
whisper_medium_multi 763.86M 24 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練。
whisper_large_multi 1.54B 32 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練。
whisper_large_multi_v2 1.54B 32 層 Whisper 模型。在 680,000 小時的標記多語言語音資料上訓練了 2.5 個 epoch。是 whisper_large_multi 的改進版本。