이전 글에서 말했듯이, 의사 결정 트리의 깊이가 너무 깊거나 리프가 너무 많으면 과대적합이다. 또한 깊이가 너무 얕거나 리프가 너무 적으면 과소적합이다. 모델링은 이러한 과대적합과 과소적합 사이의 긴장을 가지고 있다.

랜덤포레스트(Random Forests)는 각 구성 요소 트리의 예측을 평균화하여 예측한다. 일반적으로 단일 의사 결정 트리보다 나은 예측 정확도를 제공한다.


import pandas as pd
# Load data
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
# Filter rows with missing values
melbourne_data = melbourne_data.dropna(axis=0)
# Choose target and features
y = melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = melbourne_data[melbourne_features]

from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
# The split is based on a random number generator. Supplying a numeric value to
# the random_state argument guarantees we get the same split every time we
# run this script.
train_X, val_X, train_y, val_y = train_test_split(X, y,random_state = 0)

사이킷런에서 의사 결정 트리를 구축한 것과 유사하게 랜덤 포레스트 모델을 구축할 것이다. 이번에는 DecisionTreeRegressor 대신 RandomForestRegressor 클래스를 사용한다.

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

forest_model = RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)
melb_preds = forest_model.predict(val_X)
print(mean_absolute_error(val_y, melb_preds))


추가 개선의 여지가 있지만, 의사 결정 트리의 최대 오류인 25만 개보다 크게 개선된 것을 알 수 있다.


Step 1: Use a Random Forest

from sklearn.ensemble import RandomForestRegressor

# Define the model. Set random_state to 1
# fit your model

# Calculate the mean absolute error of your Random Forest model on the validation data
print("Validation MAE for Random Forest Model: {}".format(rf_val_mae))

from sklearn.ensemble import RandomForestRegressor

# Define the model. Set random_state to 1
rf_model = RandomForestRegressor(random_state=1)

# fit your model
rf_model.fit(train_X, train_y)

# Calculate the mean absolute error of your Random Forest model on the validation data
rf_val_mae = mean_absolute_error(val_y, rf_model.predict(val_X))

print("Validation MAE for Random Forest Model: {}".format(rf_val_mae))

