► KerasHub：預訓練模型 / API 文件 / 分詞器 / BytePairTokenizer

位元組配對編碼分詞器

`BytePairTokenizer` 類別

keras_hub.tokenizers.BytePairTokenizer(
    vocabulary=None,
    merges=None,
    sequence_length=None,
    add_prefix_space=False,
    unsplittable_tokens=None,
    dtype="int32",
    **kwargs
)

位元組配對編碼分詞器層。

此 BPE 分詞器提供的功能與官方 GPT-2 分詞器相同。給定相同的 vocabulary（將詞元映射到 ID）和 merges（描述 BPE 合併規則），它應提供與 OpenAI 實作 (https://github.com/openai/gpt-2/blob/master/src/encoder.py) 相同的輸出。與 OpenAI 不同的是，此實作與圖形相容，因此您可以在 tf.data 管道中使用它。

如果輸入是一批字串（階數 > 0）：預設情況下，此層將輸出 tf.RaggedTensor，其中輸出的最後一個維度是不規則的。如果設定 sequence_length，此層將輸出一個密集 tf.Tensor，其中所有輸入都已填充或截斷為 sequence_length。如果輸入是純量字串（階數 == 0）：預設情況下，此層將輸出一個具有靜態形狀 [None] 的密集 tf.Tensor。如果設定 sequence_length，則輸出將是形狀為 [sequence_length] 的密集 tf.Tensor。

引數

vocabulary：字串或字典，將詞元映射到整數 ID。如果它是字串，則應為 json 檔案的路徑。
merges：字串或列表，包含合併規則。如果它是字串，則應為合併規則檔案的路徑。合併規則檔案應每行有一個合併規則。
sequence_length：整數。如果設定，輸出將被填充或截斷為 sequence_length。預設值為 None。
add_prefix_space：布林值。是否在輸入中新增前綴空格。此分詞器可識別空格，並且會以不同的方式對帶有前導空格的單字進行分詞。在第一個單字中新增前綴空格將使其分詞方式與序列中所有後續單字相同。預設值為 False。
unsplittable_tokens：列表。在位元組配對編碼之前應用的詞級分割期間，永遠不會分割的字串列表。這可用於確保特殊詞元映射到詞彙表中的唯一索引，即使這些特殊詞元包含可分割的字元（例如標點符號）。特殊詞元仍必須包含在 vocabulary 中。預設值為 None。

範例

分詞

>>> vocab = {"butter": 1, "fly": 2}
>>> merge = ["b u", "t t", "e r", "bu tt", "butt er", "f l", "fl y"]
>>> tokenizer = keras_hub.tokenizers.BytePairTokenizer(vocab, merge)
>>> outputs = tokenizer("butterfly")
>>> np.array(outputs)
array([1, 2], dtype=int32)
>>> seq1, seq2 = tokenizer(["butterfly", "butter"])
>>> np.array(seq1)
array([1, 2])
>>> np.array(seq2)
array([1])
>>> tokenizer = keras_hub.tokenizers.BytePairTokenizer(
...     vocab, merge, sequence_length=2)
>>> seq1, seq2 = tokenizer(["butterfly", "butter"])
>>> np.array(seq1)
array([1, 2], dtype=int32)
>>> np.array(seq2)
array([1, 0], dtype=int32)

反分詞

>>> vocab = {"butter": 1, "fly": 2}
>>> merge = ["b u", "t t", "e r", "bu tt", "butt er", "f l", "fl y"]
>>> tokenizer = keras_hub.tokenizers.BytePairTokenizer(vocab, merge)
>>> tokenizer.detokenize([[1, 2]])
['butterfly']

[原始碼]

`tokenize` 方法

BytePairTokenizer.tokenize(inputs)

將字串的輸入張量轉換為輸出詞元。

引數

inputs：輸入張量，或輸入張量的字典/列表/元組。
*args：其他位置引數。
**kwargs：其他關鍵字引數。

[原始碼]

`detokenize` 方法

BytePairTokenizer.detokenize(inputs)

將詞元轉換回字串。

引數

inputs：輸入張量，或輸入張量的字典/列表/元組。
*args：其他位置引數。
**kwargs：其他關鍵字引數。

[原始碼]

`get_vocabulary` 方法

BytePairTokenizer.get_vocabulary()

取得分詞器詞彙表作為字串詞元列表。

[原始碼]

`vocabulary_size` 方法

BytePairTokenizer.vocabulary_size()

取得分詞器詞彙表的整數大小。

[原始碼]

`token_to_id` 方法

BytePairTokenizer.token_to_id(token)

將字串詞元轉換為整數 ID。

[原始碼]

`id_to_token` 方法

BytePairTokenizer.id_to_token(id)

將整數 ID 轉換為字串詞元。

位元組配對編碼分詞器

BytePairTokenizer 類別

tokenize 方法

detokenize 方法

get_vocabulary 方法

vocabulary_size 方法

token_to_id 方法

id_to_token 方法

位元組配對編碼分詞器

BytePairTokenizer 類別

tokenize 方法

detokenize 方法

get_vocabulary 方法

vocabulary_size 方法

token_to_id 方法

id_to_token 方法

`BytePairTokenizer` 類別

`tokenize` 方法

`detokenize` 方法

`get_vocabulary` 方法

`vocabulary_size` 方法

`token_to_id` 方法

`id_to_token` 方法