► Keras 3 API 文件說明 / 內建小型資料集 / 加州房價迴歸資料集

加州房價迴歸資料集

keras.datasets.california_housing.load_data(
    version="large", path="california_housing.npz", test_split=0.2, seed=113
)

載入加州房價資料集。

此資料集取自 StatLib 儲存庫。

這是一個連續迴歸資料集，包含 20,640 個樣本，每個樣本有 8 個特徵。

目標變數是一個純量：加州各區房屋中位數價格，以美元計價。

以下是 8 個輸入特徵

此資料集源自 1990 年美國人口普查，每個普查區塊群組使用一列。區塊群組是美國人口普查局發布樣本資料的最小地理單位 (一個區塊群組通常有 600 到 3,000 人)。

家庭是指居住在同一住宅內的一群人。由於此資料集中每戶提供的平均房間數和臥室數，對於家庭數量少且空屋多的區塊群組（例如度假勝地），這些欄位的值可能會異常地大。

參數

version："small" 或 "large"。小型版本包含 600 個樣本，大型版本包含 20,640 個樣本。小型版本的目的是作為已棄用的 boston_housing 資料集的近似替代品。
path：用於在本機快取資料集的路徑（相對於 ~/.keras/datasets）。
test_split：保留作為測試集的資料比例。
seed：用於在計算測試集分割之前，對資料進行洗牌的隨機種子。

傳回

x_train、x_test：形狀為 (num_samples, 8) 的 numpy 陣列，包含訓練樣本（用於 x_train）或測試樣本（用於 x_test）。

y_train、y_test：形狀為 (num_samples,) 的 numpy 陣列，包含目標純量。目標是浮點純量，通常介於 25,000 到 500,000 之間，代表以美元計價的房屋價格。

加州房價迴歸資料集

load_data 函數