KerasHub:預訓練模型 / API 文件 / 模型架構 / VGG / VGG影像分類器模型

VGG影像分類器模型

[原始碼]

VGGImageClassifier 類別

keras_hub.models.VGGImageClassifier(
    backbone,
    num_classes,
    preprocessor=None,
    pooling="avg",
    pooling_hidden_dim=4096,
    activation=None,
    dropout=0.0,
    head_dtype=None,
    **kwargs
)

VGG 影像分類任務。

VGGImageClassifier 任務封裝了 keras_hub.models.VGGBackbonekeras_hub.models.Preprocessor,以創建可用於影像分類的模型。VGGImageClassifier 任務接受額外的 num_classes 參數,用於控制預測輸出類別的數量。

若要使用 fit() 進行微調,請傳遞包含 (x, y) 標籤元組的資料集,其中 x 是字串,y[0, num_classes) 範圍內的整數。

keras_hub.model.ImageClassifier 不同的是,VGGImageClassifier 允許並預設為 pooling="flatten",當輸入展平並在最終輸出投影之前通過兩個中間密集層時。

引數

  • backbonekeras_hub.models.VGGBackbone 實例或 keras.Model
  • num_classes:int。要預測的類別數量。
  • preprocessorNonekeras_hub.models.Preprocessor 實例、keras.Layer 實例或可呼叫物件。如果為 None,則不會對輸入套用任何預處理。
  • pooling"flatten""avg""max"。要對 backbone 輸出套用的池化類型。預設為 flatten 以匹配原始 VGG 實作,其中 backbone 輸入將被展平並通過具有 "relu" 激活的兩個密集層。
  • pooling_hidden_dim:池化密集層的輸出特徵大小。這僅在 pooling="flatten" 時適用。
  • activationNone、str 或可呼叫物件。要在 Dense 層上使用的激活函數。設定 activation=None 以傳回輸出 logits。預設為 "softmax"
  • head_dtypeNone、str 或 keras.mixed_precision.DTypePolicy。用於分類頭部計算和權重的 dtype。

範例

呼叫 predict() 以執行推論。

# Load preset and train
images = np.random.randint(0, 256, size=(2, 224, 224, 3))
classifier = keras_hub.models.VGGImageClassifier.from_preset(
    "vgg_16_imagenet"
)
classifier.predict(images)

在單一批次上呼叫 fit()

# Load preset and train
images = np.random.randint(0, 256, size=(2, 224, 224, 3))
labels = [0, 3]
classifier = keras_hub.models.VGGImageClassifier.from_preset(
    "vgg_16_imagenet"
)
classifier.fit(x=images, y=labels, batch_size=2)

使用自訂損失、最佳化器和 backbone 呼叫 fit()

classifier = keras_hub.models.VGGImageClassifier.from_preset(
    "vgg_16_imagenet"
)
classifier.compile(
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    optimizer=keras.optimizers.Adam(5e-5),
)
classifier.backbone.trainable = False
classifier.fit(x=images, y=labels, batch_size=2)

自訂 backbone。

images = np.random.randint(0, 256, size=(2, 224, 224, 3))
labels = [0, 3]
model = keras_hub.models.VGGBackbone(
    stackwise_num_repeats = [2, 2, 3, 3, 3],
    stackwise_num_filters = [64, 128, 256, 512, 512],
    image_shape = (224, 224, 3),
)
classifier = keras_hub.models.VGGImageClassifier(
    backbone=backbone,
    num_classes=4,
)
classifier.fit(x=images, y=labels, batch_size=2)

[原始碼]

from_preset 方法

VGGImageClassifier.from_preset(preset, load_weights=True, **kwargs)

從模型預設實例化 keras_hub.models.Task

預設是一個包含配置、權重和其他檔案資產的目錄,用於儲存和載入預訓練模型。preset 可以作為以下其中之一傳遞

  1. 內建預設識別符,例如 'bert_base_en'
  2. Kaggle Models 控制代碼,例如 'kaggle://user/bert/keras/bert_base_en'
  3. Hugging Face 控制代碼,例如 'hf://user/bert_base_en'
  4. 本地預設目錄的路徑,例如 './bert_base_en'

對於任何 Task 子類別,您可以執行 cls.presets.keys() 以列出該類別上所有可用的內建預設。

此建構子可以通過兩種方式之一呼叫。從任務特定的基底類別呼叫,例如 keras_hub.models.CausalLM.from_preset(),或從模型類別呼叫,例如 keras_hub.models.BertTextClassifier.from_preset()。如果從基底類別呼叫,則返回物件的子類別將從預設目錄中的配置推斷出來。

引數

  • preset:字串。內建預設識別符、Kaggle Models 控制代碼、Hugging Face 控制代碼或本地目錄的路徑。
  • load_weights:bool。如果為 True,則儲存的權重將載入到模型架構中。如果為 False,則所有權重將隨機初始化。

範例

# Load a Gemma generative task.
causal_lm = keras_hub.models.CausalLM.from_preset(
    "gemma_2b_en",
)

# Load a Bert classification task.
model = keras_hub.models.TextClassifier.from_preset(
    "bert_base_en",
    num_classes=2,
)
預設 參數 描述
vgg_11_imagenet 9.22M 在 ImageNet 1k 資料集上以 224x224 解析度預訓練的 11 層 vgg 模型。
vgg_13_imagenet 9.40M 在 ImageNet 1k 資料集上以 224x224 解析度預訓練的 13 層 vgg 模型。
vgg_16_imagenet 14.71M 在 ImageNet 1k 資料集上以 224x224 解析度預訓練的 16 層 vgg 模型。
vgg_19_imagenet 20.02M 在 ImageNet 1k 資料集上以 224x224 解析度預訓練的 19 層 vgg 模型。

backbone 屬性

keras_hub.models.VGGImageClassifier.backbone

具有核心架構的 keras_hub.models.Backbone 模型。


preprocessor 屬性

keras_hub.models.VGGImageClassifier.preprocessor

用於預處理輸入的 keras_hub.models.Preprocessor 層。