程式碼範例 / 電腦視覺

電腦視覺

圖像分類

V3
從頭開始的圖像分類
V3
簡單的 MNIST 卷積網路
V3
使用 EfficientNet 微調的圖像分類
V3
使用 Vision Transformer 的圖像分類
V3
使用基於注意力的深度多實例學習進行分類
V3
使用現代 MLP 模型的圖像分類
V3
用於圖像分類的行動裝置友善變形金剛模型
V3
在 TPU 上進行肺炎分類
V3
緊湊型卷積變形金剛
V3
使用 ConvMixer 的圖像分類
V3
使用 EANet (外部注意力變形金剛) 的圖像分類
V3
內捲式神經網路
V3
使用 Perceiver 的圖像分類
V3
使用 Reptile 的少樣本學習
V3
使用 SimCLR 對比預訓練的半監督圖像分類
V3
使用 Swin Transformers 的圖像分類
V3
在小型資料集上訓練 Vision Transformer
V3
沒有注意力的 Vision Transformer
V3
使用全域上下文 Vision Transformer 進行圖像分類
V3
當遞迴遇上變形金剛時
V3
使用 BigTransfer (BiT) 進行圖像分類

圖像分割

V3
使用類似 U-Net 架構的圖像分割
V3
使用 DeepLabV3+ 的多類別語義分割
V2
使用 BASNet 的高精度邊界分割
V3
使用可組合的全卷積網路進行圖像分割

物件偵測

V2
使用 RetinaNet 的物件偵測
V3
使用遷移學習的關鍵點偵測
V3
使用 Vision Transformers 的物件偵測

3D

V3
從 CT 掃描進行 3D 圖像分類
V3
單眼深度估計
V3
使用 NeRF 的 3D 體積渲染
V3
使用 PointNet 的點雲分割
V3
點雲分類

OCR

V3
用於讀取驗證碼的 OCR 模型
V3
手寫辨識

圖像增強

V3
用於圖像去噪的卷積自動編碼器
V3
使用 MIRNet 的弱光圖像增強
V3
使用高效的子像素 CNN 進行圖像超解析度
V3
用於單圖像超解析度的增強型深度殘差網路
V3
用於弱光圖像增強的 Zero-DCE

資料擴增

V3
用於圖像分類的 CutMix 資料擴增
V3
用於圖像分類的 MixUp 擴增
V3
用於提高穩健性的圖像分類的 RandAugment

圖像 & 文字

V3
圖像標題
V2
使用雙編碼器的自然語言圖像搜尋

視覺模型可解釋性

V3
可視化卷積網路的學習內容
V3
使用整合梯度進行模型可解釋性
V3
研究 Vision Transformer 表示
V3
Grad-CAM 類別激活可視化

圖像相似度搜尋

V2
近似重複圖像搜尋
V3
語義圖像聚類
V3
使用帶有對比損失的暹羅網路進行圖像相似度估計
V3
使用帶有三元損失的暹羅網路進行圖像相似度估計
V3
用於圖像相似度搜尋的度量學習
V2
使用 TensorFlow Similarity 進行圖像相似度搜尋的度量學習
V3
使用 NNCLR 進行自我監督對比學習

影片

V3
使用 CNN-RNN 架構的影片分類
V3
使用卷積 LSTM 的下一幀影片預測
V3
使用 Transformers 的影片分類
V3
影片 Vision Transformer

效能秘訣

V3
用於提高訓練效能的梯度集中化
V3
在 Vision Transformers 中學習標記化
V3
知識蒸餾
V3
FixRes:修正訓練-測試解析度差異
V3
具有 LayerScale 的類別注意力圖像變形金剛
V3
使用聚合注意力增強卷積網路
V3
學習調整大小

其他

V2
使用 AdaMatch 進行半監督學習與領域自適應
V2
使用 Barlow Twins 進行對比式自監督學習
V2
使用監督進行一致性訓練
V2
視覺轉換器的知識蒸餾
V2
焦點調製:一種取代自注意力的方案
V2
使用前向-前向算法進行圖像分類
V2
使用自動編碼器進行遮蔽圖像建模
V2
使用 🤗Transformers 的 Segment Anything 模型
V2
使用 SegFormer 和 Hugging Face Transformers 進行語義分割
V2
使用 SimSiam 進行自監督對比學習
V2
監督式對比學習
V2
使用 YOLOV8 和 KerasCV 進行高效物件偵測