► Keras 3 API 文件 / 內建小型資料集 / 路透社新聞專線分類資料集

路透社新聞專線分類資料集

`load_data` 函數

keras.datasets.reuters.load_data(
    path="reuters.npz",
    num_words=None,
    skip_top=0,
    maxlen=None,
    test_split=0.2,
    seed=113,
    start_char=1,
    oov_char=2,
    index_from=3,
)

載入路透社新聞專線分類資料集。

這是一個包含 11,228 篇路透社新聞專線的資料集，標註了超過 46 個主題。

這最初是透過解析和預處理經典的 Reuters-21578 資料集而產生的，但預處理程式碼已不再與 Keras 一起打包。請參閱此 GitHub 討論以獲取更多資訊。

每篇新聞專線都編碼為單字索引（整數）列表。為了方便起見，單字依其在資料集中整體頻率進行索引，例如，整數 "3" 編碼資料中第 3 個最常見的單字。這允許快速過濾操作，例如：「僅考慮前 10,000 個最常見的單字，但排除前 20 個最常見的單字」。

作為慣例，「0」不代表特定的單字，而是用於編碼任何未知的單字。

參數

path：快取資料的位置（相對於 ~/.keras/dataset）。
num_words：整數或 None。單字依其出現頻率（在訓練集中）排序，並且僅保留 num_words 個最常見的單字。任何頻率較低的單字將在序列資料中顯示為 oov_char 值。如果為 None，則保留所有單字。預設為 None。
skip_top：跳過前 N 個最常出現的單字（可能不具資訊性）。這些單字將在資料集中顯示為 oov_char 值。0 表示不跳過任何單字。預設為 0。
maxlen：整數或 None。最大序列長度。任何更長的序列都將被截斷。None 表示不截斷。預設為 None。
test_split：介於 0. 和 1. 之間的浮點數。用作測試資料的資料集比例。0.2 表示資料集的 20% 用作測試資料。預設為 0.2。
seed：整數。用於可重現資料洗牌的種子。
start_char：整數。序列的開始將以這個字元標記。0 通常是填充字元。預設為 1。
oov_char：整數。詞彙外字元。由於 num_words 或 skip_top 限制而被刪除的單字將被替換為此字元。
index_from：整數。從此索引和更高的索引開始索引實際單字。

Numpy 陣列的元組：(x_train, y_train), (x_test, y_test)。

x_train、x_test：序列列表，即索引（整數）列表。如果指定了 num_words 參數，則最大可能的索引值為 num_words - 1。如果指定了 maxlen 參數，則最大可能的序列長度為 maxlen。

y_train、y_test：整數標籤列表（1 或 0）。

注意：「詞彙外」字元僅用於訓練集中存在，但由於未達到此處的 num_words 限制而被排除的單字。在訓練集中未見過但在測試集中出現的單字已被簡單地跳過。

[來源]

`get_word_index` 函數

keras.datasets.reuters.get_word_index(path="reuters_word_index.json")

檢索將單字映射到它們在路透社資料集中索引的字典。

實際單字索引從 3 開始，其中 3 個索引保留用於：0 (填充)、1 (開始)、2 (oov)。

例如，'the' 的單字索引為 1，但在實際訓練資料中，'the' 的索引將為 1 + 3 = 4。反之亦然，要使用此映射將訓練資料中的單字索引翻譯回單字，索引需要減去 3。

參數

path：快取資料的位置（相對於 ~/.keras/dataset）。

單字索引字典。鍵是單字字串，值是它們的索引。

路透社新聞專線分類資料集

load_data 函數

get_word_index 函數

路透社新聞專線分類資料集

load_data 函數

get_word_index 函數

`load_data` 函數

`get_word_index` 函數