load_data
函數keras.datasets.california_housing.load_data(
version="large", path="california_housing.npz", test_split=0.2, seed=113
)
載入加州房價資料集。
此資料集取自 StatLib 儲存庫。
這是一個連續迴歸資料集,包含 20,640 個樣本,每個樣本有 8 個特徵。
目標變數是一個純量:加州各區房屋中位數價格,以美元計價。
以下是 8 個輸入特徵
此資料集源自 1990 年美國人口普查,每個普查區塊群組使用一列。區塊群組是美國人口普查局發布樣本資料的最小地理單位 (一個區塊群組通常有 600 到 3,000 人)。
家庭是指居住在同一住宅內的一群人。由於此資料集中每戶提供的平均房間數和臥室數,對於家庭數量少且空屋多的區塊群組(例如度假勝地),這些欄位的值可能會異常地大。
參數
"small"
或 "large"
。小型版本包含 600 個樣本,大型版本包含 20,640 個樣本。小型版本的目的是作為已棄用的 boston_housing
資料集的近似替代品。~/.keras/datasets
)。傳回
(x_train, y_train), (x_test, y_test)
。x_train
、x_test
:形狀為 (num_samples, 8)
的 numpy 陣列,包含訓練樣本(用於 x_train
)或測試樣本(用於 x_test
)。
y_train
、y_test
:形狀為 (num_samples,)
的 numpy 陣列,包含目標純量。目標是浮點純量,通常介於 25,000 到 500,000 之間,代表以美元計價的房屋價格。