Keras 3 API 文件 / KerasHub / 建模層 / TransformerEncoder 層

TransformerEncoder 層

[來源]

TransformerEncoder 類別

keras_hub.layers.TransformerEncoder(
    intermediate_dim,
    num_heads,
    dropout=0,
    activation="relu",
    layer_norm_epsilon=1e-05,
    kernel_initializer="glorot_uniform",
    bias_initializer="zeros",
    normalize_first=False,
    **kwargs
)

Transformer 編碼器。

這個類別遵循論文 Attention Is All You Need 中 Transformer 編碼器層的架構。使用者可以實例化此類別的多個實例來堆疊編碼器。

此層將從隱式 Keras 填充遮罩正確計算注意力遮罩(例如,通過將 mask_zero=True 傳遞給 keras.layers.Embedding 層)。有關更多詳細資訊,請參閱遮罩和填充 指南

參數

  • intermediate_dim:整數,前饋網路的隱藏大小。
  • num_heads:整數,keras.layers.MultiHeadAttention 層中的注意力頭數。
  • dropout:浮點數。dropout 值,由 keras.layers.MultiHeadAttention 和前饋網路共用。預設為 0.
  • activation:字串或 keras.activations。前饋網路的激活函數。預設為 "relu"
  • layer_norm_epsilon:浮點數。層歸一化組件中的 epsilon 值。預設為 1e-5
  • kernel_initializer:字串或 keras.initializers 初始化器。密集層和多頭注意力層的核初始化器。預設為 "glorot_uniform"
  • bias_initializer:字串或 keras.initializers 初始化器。密集層和多頭注意力層的偏差初始化器。預設為 "zeros"
  • normalize_first:布林值。如果為 True,則對注意力層和中間密集層的輸入進行歸一化(類似於 GPT-2)。如果設定為 False,則對注意力層和中間密集層的輸出進行歸一化(類似於 BERT)。預設為 False
  • **kwargs:傳遞給 keras.layers.Layer 的其他關鍵字引數,包括 nametrainabledtype 等。

範例

# Create a single transformer encoder layer.
encoder = keras_hub.layers.TransformerEncoder(
    intermediate_dim=64, num_heads=8)

# Create a simple model containing the encoder.
input = keras.Input(shape=(10, 64))
output = encoder(input)
model = keras.Model(inputs=input, outputs=output)

# Call encoder on the inputs.
input_data = np.random.uniform(size=(2, 10, 64))
output = model(input_data)

參考


[來源]

call 方法

TransformerEncoder.call(
    inputs, padding_mask=None, attention_mask=None, training=None
)

TransformerEncoder 的正向傳遞。

參數

  • inputs:一個張量。TransformerEncoder 的輸入數據,形狀應為 [批次大小, 序列長度, 隱藏維度]。
  • padding_mask:一個布林張量。它表示是否應該遮罩該詞彙,因為該詞彙是由於填充而引入的。padding_mask 的形狀應為 [批次大小, 序列長度]。
  • attention_mask:一個布林張量。用於遮罩特定詞彙的自訂遮罩。attention_mask 的形狀應為 [批次大小, 序列長度, 序列長度]。
  • training:一個布林值,表示該層應該處於訓練模式還是推斷模式。

回傳值

一個與 inputs 形狀相同的張量。