KerasHub:預訓練模型 / API 文件 / 分詞器 / WordPieceTokenizer

WordPieceTokenizer

[原始碼]

WordPieceTokenizer 類別

keras_hub.tokenizers.WordPieceTokenizer(
    vocabulary=None,
    sequence_length=None,
    lowercase=False,
    strip_accents=False,
    split=True,
    split_on_cjk=True,
    suffix_indicator="##",
    oov_token="[UNK]",
    special_tokens=None,
    special_tokens_in_strings=False,
    dtype="int32",
    **kwargs
)

一個 WordPiece 分詞器層。

此層提供了 BERT 和其他模型使用的 WordPiece 演算法的有效率、圖內實作。

為了讓此層更方便使用,此層將會預先分詞輸入,可選擇性地將輸入轉為小寫、移除重音符號,並以空白和標點符號分割輸入。這些預先分詞步驟皆不可逆。detokenize 方法將會以空格連接單字,且不會完全反轉 tokenize

如果需要更客製化的預先分詞步驟,可以設定此層僅應用嚴格的 WordPiece 演算法,方法是傳入 lowercase=Falsestrip_accents=Falsesplit=False。在這種情況下,輸入應該是預先分割的字串張量或不規則張量。

分詞器的輸出可以使用 sequence_length 參數進行填充和截斷,或者保持不截斷。確切的輸出將取決於輸入張量的秩。

如果輸入是一批字串(秩 > 0):預設情況下,此層會輸出一個 tf.RaggedTensor,其中輸出的最後一個維度是不規則的。如果設定了 sequence_length,此層會輸出一個密集 tf.Tensor,其中所有輸入都已填充或截斷為 sequence_length

如果輸入是純量字串(秩 == 0):預設情況下,此層會輸出一個靜態形狀為 [None] 的密集 tf.Tensor。如果設定了 sequence_length,則輸出將會是一個形狀為 [sequence_length] 的密集 tf.Tensor

輸出資料類型可以透過 dtype 參數控制,應該是整數或字串類型。

參數

  • vocabulary:字串列表或字串檔案路徑。如果傳遞列表,則列表的每個元素都應為單個 WordPiece 詞符字串。如果傳遞檔案名稱,則該檔案應該是純文字檔案,每行包含一個 WordPiece 詞符。
  • sequence_length:整數。如果設定,輸出將會轉換為密集張量,並進行填充/修剪,使所有輸出都具有 sequence_length。
  • lowercase:布林值。如果為 True,輸入文字會在分詞之前轉換為小寫。預設為 False
  • strip_accents:布林值。如果為 True,所有重音符號會在分詞之前從文字中移除。預設為 False
  • split:布林值。如果為 True,輸入將會以空白和標點符號分割,所有標點符號都會保留為詞符。如果為 False,輸入應該在調用分詞器之前進行分割(「預先分詞」),並以整個單字的密集或不規則張量傳遞。預設為 True
  • split_on_cjk:布林值。如果為 True,輸入將會以 CJK 字元分割,即中文、日文、韓文和越南文字元(https://en.wikipedia.org/wiki/CJK_Unified_Ideographs_(Unicode_block))。請注意,這僅在 split 為 True 時適用。預設為 True
  • suffix_indicator:字串。在 WordPiece 前面加上字元,以表示它是另一個子詞的後綴。例如 "##ing"。預設為 "##"
  • oov_token:字串。用來替代未知詞符的字串值。它必須包含在詞彙表中。預設為 "[UNK]"
  • special_tokens_in_strings:布林值。一個布林值,表示分詞器是否應該預期輸入字串中有特殊詞符,這些特殊詞符應該被正確地分詞並對應到其 ID。預設為 False。

參考文獻

範例

不規則輸出。

>>> vocab = ["[UNK]", "the", "qu", "##ick", "br", "##own", "fox", "."]
>>> inputs = "The quick brown fox."
>>> tokenizer = keras_hub.tokenizers.WordPieceTokenizer(
...     vocabulary=vocab,
...     lowercase=True,
... )
>>> outputs = tokenizer(inputs)
>>> np.array(outputs)
array([1, 2, 3, 4, 5, 6, 7], dtype=int32)

密集輸出。

>>> vocab = ["[UNK]", "the", "qu", "##ick", "br", "##own", "fox", "."]
>>> inputs = ["The quick brown fox."]
>>> tokenizer = keras_hub.tokenizers.WordPieceTokenizer(
...     vocabulary=vocab,
...     sequence_length=10,
...     lowercase=True,
... )
>>> outputs = tokenizer(inputs)
>>> np.array(outputs)
array([[1, 2, 3, 4, 5, 6, 7, 0, 0, 0]], dtype=int32)

字串輸出。

>>> vocab = ["[UNK]", "the", "qu", "##ick", "br", "##own", "fox", "."]
>>> inputs = "The quick brown fox."
>>> tokenizer = keras_hub.tokenizers.WordPieceTokenizer(
...     vocabulary=vocab,
...     lowercase=True,
...     dtype="string",
... )
>>> tokenizer(inputs)
['the', 'qu', '##ick', 'br', '##own', 'fox', '.']

反分詞。

>>> vocab = ["[UNK]", "the", "qu", "##ick", "br", "##own", "fox", "."]
>>> inputs = "The quick brown fox."
>>> tokenizer = keras_hub.tokenizers.WordPieceTokenizer(
...     vocabulary=vocab,
...     lowercase=True,
... )
>>> tokenizer.detokenize(tokenizer.tokenize(inputs))
'the quick brown fox .'

自訂分割。

>>> vocab = ["[UNK]", "the", "qu", "##ick", "br", "##own", "fox", "."]
>>> inputs = "The$quick$brown$fox"
>>> tokenizer = keras_hub.tokenizers.WordPieceTokenizer(
...     vocabulary=vocab,
...     split=False,
...     lowercase=True,
...     dtype='string',
... )
>>> split_inputs = tf.strings.split(inputs, sep="$")
>>> tokenizer(split_inputs)
['the', 'qu', '##ick', 'br', '##own', 'fox']

[原始碼]

tokenize 方法

WordPieceTokenizer.tokenize(inputs)

將字串的輸入張量轉換為輸出詞符。

參數

  • inputs:輸入張量,或輸入張量的字典/列表/元組。
  • *args:其他位置參數。
  • **kwargs:其他關鍵字參數。

[原始碼]

detokenize 方法

WordPieceTokenizer.detokenize(inputs)

將詞符轉換回字串。

參數

  • inputs:輸入張量,或輸入張量的字典/列表/元組。
  • *args:其他位置參數。
  • **kwargs:其他關鍵字參數。

[原始碼]

get_vocabulary 方法

WordPieceTokenizer.get_vocabulary()

取得分詞器的詞彙表作為字串詞符的列表。


[原始碼]

vocabulary_size 方法

WordPieceTokenizer.vocabulary_size()

取得分詞器詞彙表的整數大小。


[原始碼]

token_to_id 方法

WordPieceTokenizer.token_to_id(token)

將字串詞符轉換為整數 ID。


[原始碼]

id_to_token 方法

WordPieceTokenizer.id_to_token(id)

將整數 ID 轉換為字串詞符。