Keras 3 API 文件 / KerasCV / 模型 / 任務 / YOLOV8Detector 模型

YOLOV8Detector 模型

[來源]

YOLOV8Detector 類別

keras_cv.models.YOLOV8Detector(
    backbone,
    num_classes,
    bounding_box_format,
    fpn_depth=2,
    label_encoder=None,
    prediction_decoder=None,
    **kwargs
)

實現用於物件偵測的 YOLOV8 架構。

參數

  • backbone: keras.Model,必須使用鍵 "P3"、"P4" 和 "P5" 以及層名稱作為值來實現 pyramid_level_inputs 屬性。一個適合使用的骨幹是 keras_cv.models.YOLOV8Backbone
  • num_classes: 整數,資料集中不包括背景類別的類別數量。類別應該由 [0, num_classes) 範圍內的整數表示。
  • bounding_box_format: 字串,輸入資料集的邊界框格式。有關支援的邊界框格式的詳細資訊,請參考 keras.io 文件
  • fpn_depth: 整數,特徵金字塔網路中 CSP 區塊深度的規格。這通常是 1、2 或 3,具體取決於 YOLOV8Detector 模型的大小。建議對 "yolo_v8_l_backbone" 和 "yolo_v8_xl_backbone" 使用 3。預設值為 2。
  • label_encoder:(可選)負責將輸入框轉換為 YOLOV8Detector 可訓練標籤的 YOLOV8LabelEncoder。如果未提供,則會提供預設值。
  • prediction_decoder:(可選)負責將 YOLOV8 預測轉換為可用邊界框的 keras.layers.Layer。如果未提供,則會提供預設值。預設的 prediction_decoder 層是一個 keras_cv.layers.MultiClassNonMaxSuppression 層,它使用非極大值抑制進行框剪枝。

範例

images = tf.ones(shape=(1, 512, 512, 3))
labels = {
    "boxes": tf.constant([
        [
            [0, 0, 100, 100],
            [100, 100, 200, 200],
            [300, 300, 100, 100],
        ]
    ], dtype=tf.float32),
    "classes": tf.constant([[1, 1, 1]], dtype=tf.int64),
}

model = keras_cv.models.YOLOV8Detector(
    num_classes=20,
    bounding_box_format="xywh",
    backbone=keras_cv.models.YOLOV8Backbone.from_preset(
        "yolo_v8_m_backbone_coco"
    ),
    fpn_depth=2
)

# Evaluate model without box decoding and NMS
model(images)

# Prediction with box decoding and NMS
model.predict(images)

# Train model
model.compile(
    classification_loss='binary_crossentropy',
    box_loss='ciou',
    optimizer=tf.optimizers.SGD(global_clipnorm=10.0),
    jit_compile=False,
)
model.fit(images, labels)

[來源]

from_preset 方法

YOLOV8Detector.from_preset()

從預設配置和權重實例化 YOLOV8Detector 模型。

參數

  • preset:字串。必須是 "resnet18"、"resnet34"、"resnet50"、"resnet101"、"resnet152"、"resnet18_v2"、"resnet34_v2"、"resnet50_v2"、"resnet101_v2"、"resnet152_v2"、"mobilenet_v3_small"、"mobilenet_v3_large"、"csp_darknet_tiny"、"csp_darknet_s"、"csp_darknet_m"、"csp_darknet_l"、"csp_darknet_xl"、"efficientnetv1_b0"、"efficientnetv1_b1"、"efficientnetv1_b2"、"efficientnetv1_b3"、"efficientnetv1_b4"、"efficientnetv1_b5"、"efficientnetv1_b6"、"efficientnetv1_b7"、"efficientnetv2_s"、"efficientnetv2_m"、"efficientnetv2_l"、"efficientnetv2_b0"、"efficientnetv2_b1"、"efficientnetv2_b2"、"efficientnetv2_b3"、"densenet121"、"densenet169"、"densenet201"、"efficientnetlite_b0"、"efficientnetlite_b1"、"efficientnetlite_b2"、"efficientnetlite_b3"、"efficientnetlite_b4"、"yolo_v8_xs_backbone"、"yolo_v8_s_backbone"、"yolo_v8_m_backbone"、"yolo_v8_l_backbone"、"yolo_v8_xl_backbone"、"vitdet_base"、"vitdet_large"、"vitdet_huge"、"videoswin_tiny"、"videoswin_small"、"videoswin_base"、"resnet50_imagenet"、"resnet50_v2_imagenet"、"mobilenet_v3_large_imagenet"、"mobilenet_v3_small_imagenet"、"csp_darknet_tiny_imagenet"、"csp_darknet_l_imagenet"、"efficientnetv2_s_imagenet"、"efficientnetv2_b0_imagenet"、"efficientnetv2_b1_imagenet"、"efficientnetv2_b2_imagenet"、"densenet121_imagenet"、"densenet169_imagenet"、"densenet201_imagenet"、"yolo_v8_xs_backbone_coco"、"yolo_v8_s_backbone_coco"、"yolo_v8_m_backbone_coco"、"yolo_v8_l_backbone_coco"、"yolo_v8_xl_backbone_coco"、"vitdet_base_sa1b"、"vitdet_large_sa1b"、"vitdet_huge_sa1b"、"videoswin_tiny_kinetics400"、"videoswin_small_kinetics400"、"videoswin_base_kinetics400"、"videoswin_base_kinetics400_imagenet22k"、"videoswin_base_kinetics600_imagenet22k"、"videoswin_base_something_something_v2"、"yolo_v8_m_pascalvoc" 其中之一。如果要尋找具有預先訓練權重的預設值,請選擇 "resnet50_imagenet"、"resnet50_v2_imagenet"、"mobilenet_v3_large_imagenet"、"mobilenet_v3_small_imagenet"、"csp_darknet_tiny_imagenet"、"csp_darknet_l_imagenet"、"efficientnetv2_s_imagenet"、"efficientnetv2_b0_imagenet"、"efficientnetv2_b1_imagenet"、"efficientnetv2_b2_imagenet"、"densenet121_imagenet"、"densenet169_imagenet"、"densenet201_imagenet"、"yolo_v8_xs_backbone_coco"、"yolo_v8_s_backbone_coco"、"yolo_v8_m_backbone_coco"、"yolo_v8_l_backbone_coco"、"yolo_v8_xl_backbone_coco"、"vitdet_base_sa1b"、"vitdet_large_sa1b"、"vitdet_huge_sa1b"、"videoswin_tiny_kinetics400"、"videoswin_small_kinetics400"、"videoswin_base_kinetics400"、"videoswin_base_kinetics400_imagenet22k"、"videoswin_base_kinetics600_imagenet22k"、"videoswin_base_something_something_v2"、"yolo_v8_m_pascalvoc" 其中之一。
  • load_weights:是否將預先訓練的權重載入模型。預設值為 None,這將根據預設值是否有可用的預先訓練權重而定。
  • input_shape :將傳遞給骨幹初始化的輸入形狀,預設值為 None。如果為 None,則使用預設值。

範例

# Load architecture and weights from preset
model = keras_cv.models.YOLOV8Detector.from_preset(
    "resnet50_imagenet",
)

# Load randomly initialized model from preset architecture with weights
model = keras_cv.models.YOLOV8Detector.from_preset(
    "resnet50_imagenet",
    load_weights=False,
預設名稱 參數 說明
yolo_v8_m_pascalvoc 25.90M 在 PascalVOC 2012 物件偵測任務上預先訓練的 YOLOV8-M,包含 20 個類別。此模型在評估集上達到了 0.45 的最終 MaP。