MaskedLM
類別keras_hub.models.MaskedLM()
用於遮罩語言模型任務的基底類別。
MaskedLM
任務包裝了 keras_hub.models.Backbone
和 keras_hub.models.Preprocessor
,以建立可用於非監督式微調的模型,並使用遮罩語言模型損失。
當呼叫 fit()
時,所有輸入都將被 Token 化,並且輸入序列中的隨機 Token 將被遮罩。這些被遮罩 Token 的位置將作為額外的模型輸入,並且模型輸出將預測 Token 的原始值。
所有 MaskedLM
任務都包含一個 from_preset()
建構子,可用於載入預訓練的設定檔和權重。
範例
# Load a Bert MaskedLM with pre-trained weights.
masked_lm = keras_hub.models.MaskedLM.from_preset(
"bert_base_en",
)
masked_lm.fit(train_ds)
from_preset
方法MaskedLM.from_preset(preset, load_weights=True, **kwargs)
從模型預設 (preset) 實例化 keras_hub.models.Task
。
預設 (preset) 是一個目錄,其中包含用於儲存和載入預訓練模型的設定檔、權重和其他檔案資產。preset
可以作為以下其中一種方式傳遞:
'bert_base_en'
'kaggle://user/bert/keras/bert_base_en'
'hf://user/bert_base_en'
'./bert_base_en'
對於任何 Task
子類別,您可以執行 cls.presets.keys()
以列出該類別上所有可用的內建預設。
此建構子可以透過兩種方式之一呼叫。可以從任務特定的基底類別呼叫,例如 keras_hub.models.CausalLM.from_preset()
,也可以從模型類別呼叫,例如 keras_hub.models.BertTextClassifier.from_preset()
。如果從基底類別呼叫,則傳回物件的子類別將從預設目錄中的設定檔推斷而來。
引數
True
,則儲存的權重將載入到模型架構中。如果為 False
,則所有權重將隨機初始化。範例
# Load a Gemma generative task.
causal_lm = keras_hub.models.CausalLM.from_preset(
"gemma_2b_en",
)
# Load a Bert classification task.
model = keras_hub.models.TextClassifier.from_preset(
"bert_base_en",
num_classes=2,
)
預設 (Preset) | 參數 | 描述 |
---|---|---|
albert_base_en_uncased | 11.68M | 12 層 ALBERT 模型,其中所有輸入都為小寫。在英文維基百科 + BooksCorpus 上訓練。 |
albert_large_en_uncased | 17.68M | 24 層 ALBERT 模型,其中所有輸入都為小寫。在英文維基百科 + BooksCorpus 上訓練。 |
albert_extra_large_en_uncased | 58.72M | 24 層 ALBERT 模型,其中所有輸入都為小寫。在英文維基百科 + BooksCorpus 上訓練。 |
albert_extra_extra_large_en_uncased | 222.60M | 12 層 ALBERT 模型,其中所有輸入都為小寫。在英文維基百科 + BooksCorpus 上訓練。 |
bert_tiny_en_uncased | 4.39M | 2 層 BERT 模型,其中所有輸入都為小寫。在英文維基百科 + BooksCorpus 上訓練。 |
bert_tiny_en_uncased_sst2 | 4.39M | 在 SST-2 情感分析資料集上微調的 bert_tiny_en_uncased backbone 模型。 |
bert_small_en_uncased | 28.76M | 4 層 BERT 模型,其中所有輸入都為小寫。在英文維基百科 + BooksCorpus 上訓練。 |
bert_medium_en_uncased | 41.37M | 8 層 BERT 模型,其中所有輸入都為小寫。在英文維基百科 + BooksCorpus 上訓練。 |
bert_base_zh | 102.27M | 12 層 BERT 模型。在中文維基百科上訓練。 |
bert_base_en | 108.31M | 12 層 BERT 模型,其中保留大小寫。在英文維基百科 + BooksCorpus 上訓練。 |
bert_base_en_uncased | 109.48M | 12 層 BERT 模型,其中所有輸入都為小寫。在英文維基百科 + BooksCorpus 上訓練。 |
bert_base_multi | 177.85M | 12 層 BERT 模型,其中保留大小寫。在 104 種語言的維基百科上訓練 |
bert_large_en | 333.58M | 24 層 BERT 模型,其中保留大小寫。在英文維基百科 + BooksCorpus 上訓練。 |
bert_large_en_uncased | 335.14M | 24 層 BERT 模型,其中所有輸入都為小寫。在英文維基百科 + BooksCorpus 上訓練。 |
deberta_v3_extra_small_en | 70.68M | 12 層 DeBERTaV3 模型,其中保留大小寫。在英文維基百科、BookCorpus 和 OpenWebText 上訓練。 |
deberta_v3_small_en | 141.30M | 6 層 DeBERTaV3 模型,其中保留大小寫。在英文維基百科、BookCorpus 和 OpenWebText 上訓練。 |
deberta_v3_base_en | 183.83M | 12 層 DeBERTaV3 模型,其中保留大小寫。在英文維基百科、BookCorpus 和 OpenWebText 上訓練。 |
deberta_v3_base_multi | 278.22M | 12 層 DeBERTaV3 模型,其中保留大小寫。在 2.5TB 多語言 CC100 資料集上訓練。 |
deberta_v3_large_en | 434.01M | 24 層 DeBERTaV3 模型,其中保留大小寫。在英文維基百科、BookCorpus 和 OpenWebText 上訓練。 |
distil_bert_base_en | 65.19M | 6 層 DistilBERT 模型,其中保留大小寫。使用 BERT 作為教師模型,在英文維基百科 + BooksCorpus 上訓練。 |
distil_bert_base_en_uncased | 66.36M | 6 層 DistilBERT 模型,其中所有輸入都為小寫。使用 BERT 作為教師模型,在英文維基百科 + BooksCorpus 上訓練。 |
distil_bert_base_multi | 134.73M | 6 層 DistilBERT 模型,其中保留大小寫。在 104 種語言的維基百科上訓練 |
f_net_base_en | 82.86M | 12 層 FNet 模型,其中保留大小寫。在 C4 資料集上訓練。 |
f_net_large_en | 236.95M | 24 層 FNet 模型,其中保留大小寫。在 C4 資料集上訓練。 |
roberta_base_en | 124.05M | 12 層 RoBERTa 模型,其中保留大小寫。在英文維基百科、BooksCorpus、CommonCraw 和 OpenWebText 上訓練。 |
roberta_large_en | 354.31M | 24 層 RoBERTa 模型,其中保留大小寫。在英文維基百科、BooksCorpus、CommonCraw 和 OpenWebText 上訓練。 |
xlm_roberta_base_multi | 277.45M | 12 層 XLM-RoBERTa 模型,其中保留大小寫。在 100 種語言的 CommonCrawl 上訓練。 |
xlm_roberta_large_multi | 558.84M | 24 層 XLM-RoBERTa 模型,其中保留大小寫。在 100 種語言的 CommonCrawl 上訓練。 |
compile
方法MaskedLM.compile(optimizer="auto", loss="auto", weighted_metrics="auto", **kwargs)
設定 MaskedLM
任務以進行訓練。
MaskedLM
任務擴展了 keras.Model.compile
的預設編譯簽章,並具有 optimizer
、loss
和 weighted_metrics
的預設值。若要覆寫這些預設值,請在編譯期間將任何值傳遞給這些引數。
請注意,由於訓練輸入包含從損失中排除的填充 Token,因此幾乎總是建議使用 weighted_metrics
而不是 metrics
進行編譯。
引數
"auto"
、最佳化器名稱或 keras.Optimizer
實例。預設為 "auto"
,它會為給定的模型和任務使用預設最佳化器。有關可能的 optimizer
值的更多資訊,請參閱 keras.Model.compile
和 keras.optimizers
。"auto"
、損失名稱或 keras.losses.Loss
實例。預設為 "auto"
,其中 keras.losses.SparseCategoricalCrossentropy
損失將應用於 Token 分類 MaskedLM
任務。有關可能的 loss
值的更多資訊,請參閱 keras.Model.compile
和 keras.losses
。"auto"
,或在模型訓練和測試期間要評估的指標列表。預設為 "auto"
,其中 keras.metrics.SparseCategoricalAccuracy
將應用於追蹤模型在猜測遮罩 Token 值時的準確度。有關可能的 weighted_metrics
值的更多資訊,請參閱 keras.Model.compile
和 keras.metrics
。keras.Model.compile
。save_to_preset
方法MaskedLM.save_to_preset(preset_dir)
將任務儲存到預設目錄。
引數
preprocessor
屬性keras_hub.models.MaskedLM.preprocessor
用於預處理輸入的 keras_hub.models.Preprocessor
層。
backbone
屬性keras_hub.models.MaskedLM.backbone
具有核心架構的 keras_hub.models.Backbone
模型。