KerasHub:預訓練模型 / API 文件 / KerasHub 詞語分詞器

KerasHub 詞語分詞器

詞語分詞器將原始字串輸入轉換為適合 Keras Embedding 層的整數輸入。它們也可以將預測的整數序列轉換回原始字串輸出。

所有詞語分詞器都是 keras_hub.tokenizers.Tokenizer 的子類別,而 keras_hub.tokenizers.Tokenizer 本身又是 keras.layers.Layer 的子類別。詞語分詞器通常應在 tf.data.Dataset.map 中用於訓練,並且可以包含在 keras.Model 中用於推論。

詞語分詞器

WordPieceTokenizer

SentencePieceTokenizer

BytePairTokenizer

ByteTokenizer

UnicodeCodepointTokenizer

compute_word_piece_vocabulary 函數

compute_sentence_piece_proto 函數