Keras 3 API 文件說明 / 內建小型資料集 / 加州房價迴歸資料集

加州房價迴歸資料集

[原始碼]

load_data 函數

keras.datasets.california_housing.load_data(
    version="large", path="california_housing.npz", test_split=0.2, seed=113
)

載入加州房價資料集。

此資料集取自 StatLib 儲存庫

這是一個連續迴歸資料集,包含 20,640 個樣本,每個樣本有 8 個特徵。

目標變數是一個純量:加州各區房屋中位數價格,以美元計價。

以下是 8 個輸入特徵

  • MedInc:區塊群組收入中位數
  • HouseAge:區塊群組房屋屋齡中位數
  • AveRooms:每戶平均房間數
  • AveBedrms:每戶平均臥室數
  • Population:區塊群組人口
  • AveOccup:平均每戶家庭成員數
  • Latitude:區塊群組緯度
  • Longitude:區塊群組經度

此資料集源自 1990 年美國人口普查,每個普查區塊群組使用一列。區塊群組是美國人口普查局發布樣本資料的最小地理單位 (一個區塊群組通常有 600 到 3,000 人)。

家庭是指居住在同一住宅內的一群人。由於此資料集中每戶提供的平均房間數和臥室數,對於家庭數量少且空屋多的區塊群組(例如度假勝地),這些欄位的值可能會異常地大。

參數

  • version"small""large"。小型版本包含 600 個樣本,大型版本包含 20,640 個樣本。小型版本的目的是作為已棄用的 boston_housing 資料集的近似替代品。
  • path:用於在本機快取資料集的路徑(相對於 ~/.keras/datasets)。
  • test_split:保留作為測試集的資料比例。
  • seed:用於在計算測試集分割之前,對資料進行洗牌的隨機種子。

傳回

  • Numpy 陣列的元組(x_train, y_train), (x_test, y_test)

x_trainx_test:形狀為 (num_samples, 8) 的 numpy 陣列,包含訓練樣本(用於 x_train)或測試樣本(用於 x_test)。

y_trainy_test:形狀為 (num_samples,) 的 numpy 陣列,包含目標純量。目標是浮點純量,通常介於 25,000 到 500,000 之間,代表以美元計價的房屋價格。