Keras 3 API 文件 / 內建小型資料集 / 加州房價迴歸資料集

加州房價迴歸資料集

[原始碼]

load_data 函式

keras.datasets.california_housing.load_data(
    version="large", path="california_housing.npz", test_split=0.2, seed=113
)

載入加州房價資料集。

此資料集取自 StatLib 儲存庫

這是一個連續迴歸資料集,包含 20,640 個樣本,每個樣本有 8 個特徵。

目標變數是一個純量:加州各區的房屋中位數價格,以美元計價。

8 個輸入特徵如下:

  • MedInc:區塊群組中的收入中位數
  • HouseAge:區塊群組中的房屋屋齡中位數
  • AveRooms:每個家庭的平均房間數
  • AveBedrms:每個家庭的平均臥室數
  • Population:區塊群組人口
  • AveOccup:平均家庭成員人數
  • Latitude:區塊群組緯度
  • Longitude:區塊群組經度

此資料集源自 1990 年的美國人口普查,每個普查區塊群組使用一行。區塊群組是美國人口普查局發布抽樣資料的最小地理單位(一個區塊群組通常有 600 到 3,000 人)。

一個家庭是指居住在一個房屋內的一群人。由於此資料集中提供的房間和臥室平均數是針對每個家庭計算的,因此對於只有少數家庭和許多空房的區塊群組(例如度假勝地),這些欄位可能會出現驚人的大數值。

引數

  • version"small""large"。小型版本包含 600 個樣本,大型版本包含 20,640 個樣本。小型版本的目的是作為已棄用的 boston_housing 資料集的近似替代品。
  • path:在本機快取資料集的路徑(相對於 ~/.keras/datasets)。
  • test_split:保留作為測試集的資料比例。
  • seed:在計算測試分割之前,用於隨機打亂資料的隨機種子。

回傳值

  • Numpy 陣列的元組(x_train, y_train), (x_test, y_test)

x_train, x_test:形狀為 (num_samples, 8) 的 numpy 陣列,包含訓練樣本(用於 x_train)或測試樣本(用於 y_train)。

y_train, y_test:形狀為 (num_samples,) 的 numpy 陣列,包含目標純量。目標值是浮點純量,通常介於 25,000 到 500,000 之間,代表房屋價格(以美元計價)。