KerasHub:預訓練模型 / API 文件 / 建模層 / TransformerDecoder 層

TransformerDecoder 層

[原始碼]

TransformerDecoder 類別

keras_hub.layers.TransformerDecoder(
    intermediate_dim,
    num_heads,
    dropout=0,
    activation="relu",
    layer_norm_epsilon=1e-05,
    kernel_initializer="glorot_uniform",
    bias_initializer="zeros",
    normalize_first=False,
    **kwargs
)

Transformer 解碼器。

此類別遵循論文 Attention is All You Need 中 transformer 解碼器層的架構。使用者可以實例化此類別的多個實例,以堆疊解碼器。

預設情況下,此層將對解碼器注意力層應用因果遮罩。您也可以在呼叫期間直接將填充或注意力遮罩傳遞到該層,例如使用 decoder_padding_maskdecoder_attention_mask

此層可以透過一個或兩個輸入來呼叫。輸入的數量在所有呼叫中必須一致。選項如下: layer(decoder_sequence):不會在解碼器區塊中建構交叉注意力。這在建構「僅解碼器」transformer(例如 GPT-2)時很有用。layer(decoder_sequence, encoder_sequence):交叉注意力將建構在解碼器區塊中。這在建構「編碼器-解碼器」transformer 時很有用,例如 Attention is All You Need 中描述的原始 transformer 模型。

參數

  • intermediate_dim:整數,前饋網路的隱藏大小。
  • num_heads:整數,多頭注意力中的頭數。
  • dropout:浮點數。dropout 值,由多頭注意力和前饋網路共享。預設為 0.
  • activation:字串或 keras.activations。前饋網路的啟動函數。預設為 "relu"
  • layer_norm_epsilon:浮點數。層正規化元件中的 eps 值。預設為 1e-5
  • kernel_initializer:字串或 keras.initializers 初始化器。用於密集和多頭注意力層的核心初始化器。預設為 "glorot_uniform"
  • bias_initializer:字串或 keras.initializers 初始化器。用於密集和多頭注意力層的偏差初始化器。預設為 "zeros"
  • normalize_first:布林值。如果為 True,則注意力層和中間密集層的輸入將被正規化(類似於 GPT-2)。如果設定為 False,則注意力層和中間密集層的輸出將被正規化(類似於 BERT)。預設為 False
  • **kwargs:傳遞給 keras.layers.Layer 的其他關鍵字引數,包括 nametrainabledtype 等。

範例

# Create a single transformer decoder layer.
decoder = keras_hub.layers.TransformerDecoder(
    intermediate_dim=64, num_heads=8)

# Create a simple model containing the decoder.
decoder_input = keras.Input(shape=(10, 64))
encoder_input = keras.Input(shape=(10, 64))
output = decoder(decoder_input, encoder_input)
model = keras.Model(
    inputs=(decoder_input, encoder_input),
    outputs=output,
)

# Call decoder on the inputs.
decoder_input_data = np.random.uniform(size=(2, 10, 64))
encoder_input_data = np.random.uniform(size=(2, 10, 64))
decoder_output = model((decoder_input_data, encoder_input_data))

參考文獻


[原始碼]

call 方法

TransformerDecoder.call(
    decoder_sequence,
    encoder_sequence=None,
    decoder_padding_mask=None,
    decoder_attention_mask=None,
    encoder_padding_mask=None,
    encoder_attention_mask=None,
    self_attention_cache=None,
    self_attention_cache_update_index=None,
    cross_attention_cache=None,
    cross_attention_cache_update_index=None,
    use_causal_mask=True,
    training=None,
)

TransformerDecoder 的前向傳遞。

參數

  • decoder_sequence:一個張量。解碼器輸入序列。
  • encoder_sequence:一個張量。編碼器輸入序列。對於僅解碼器模型(如 GPT2),應保留為 None。一旦模型在沒有 encoder_sequence 的情況下被呼叫一次,您就不能再次使用 encoder_sequence 呼叫它。
  • decoder_padding_mask:一個布林張量,解碼器序列的填充遮罩,必須具有形狀 [batch_size, decoder_sequence_length]
  • decoder_attention_mask:一個布林張量。自訂解碼器序列遮罩,必須具有形狀 [batch_size, decoder_sequence_length, decoder_sequence_length]
  • encoder_padding_mask:一個布林張量,編碼器序列的填充遮罩,必須具有形狀 [batch_size, encoder_sequence_length]
  • encoder_attention_mask:一個布林張量。自訂編碼器序列遮罩,必須具有形狀 [batch_size, encoder_sequence_length, encoder_sequence_length]
  • self_attention_cache:一個密集浮點張量。自我注意力層中鍵/值對的快取。具有形狀 [batch_size, 2, max_seq_len, num_heads, key_dims]
  • self_attention_cache_update_index:一個整數或整數張量,用於更新 self_attention_cache 的索引。通常,這是解碼期間正在處理的目前符號的索引。
  • cross_attention_cache:一個密集浮點張量。交叉注意力層中鍵/值對的快取。具有形狀 [batch_size, 2, S, num_heads, key_dims]
  • cross_attention_cache_update_index:一個整數或整數張量,用於更新 cross_attention_cache 的索引。通常,這不是 0(計算整個 cross_attention_cache),就是 None(重複使用先前計算的 cross_attention_cache)。
  • use_causal_mask:布林值,預設為 True。如果為 true,則會在解碼器序列上套用因果遮罩(遮蓋未來輸入)。
  • training:一個布林值,指示該層應在訓練模式還是推理模式下運行。

傳回值

  • 根據呼叫參數,傳回以下三者之一:
  • outputs,如果 self_attention_cacheNone
  • (outputs, self_attention_cache),如果設定了 self_attention_cache 且該層沒有交叉注意力。
  • (outputs, self_attention_cache, cross_attention_cache),如果設定了 self_attention_cachecross_attention_cache 且該層具有交叉注意力。