Random Forest : iris 데이터셋 학습, 시각화

Data Analysis

Random Forest : iris 데이터셋 학습, 시각화

김심슨 2025. 6. 25. 08:25

1. 랜덤포레스트

여러 개의 의사결정 나무 모델을 생성하고, 각 모델의 예측 결과를 종합 -> 최종 결정을 내리는 앙상블 기법 중 하나

주로 분류, 회귀 문제에 쓰임, 개별 나무의 약점을 보완, 전체 모델의 정확도와 일반화 성능을 높임

< 목적 >

- 여러 결정 나무를 생성하여 과적합 방지하는 방법 배움ㄴ

- 랜덤 포레스트 모델 내부 구조 (결정 나무)를 시각화하여 이해력을 높이고자 함

2. 필수 라이브러리

pandas : 데이터 프레임 다루는 라이브러리, 데이터 분석, 전처리 작업

numpy : 다차원 배열 연산 및 수치 계산의 핵심

matplotlib.pyplot : 데이터 시각화를 위한 대표적인 라이브러리

sklearn.datasets.load_iris : 머신러닝 학습용 데이터셋

sklearn.ensemble.RandomForestClassifier : 랜덤 포레스트 분류 모델 구현

sklearn.tree.plot.tree : 의사결정 나무 시각화

< 분석 흐름 >

데이터 로드

데이터 전처리

모델 학습 (RandomForestClassifier)

- n_estimators : 트리의 개수 설정

max_depth : 각 결정 나무의 최대 깊이 제한

모델 시각화

3. 코드 뜯어먹기

# 라이브러리 임포트
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import plot_tree

# 데이터 로드
iris = load_iris()

# 독립변수(X), 종속변수(y) 설정
X = iris.data[:, 2:4] # 꽃잎 길이와 넓이만 사용
y = iris.target # 붓꽃 품종(0, 1, 2)

# 모델 생성 (랜덤포레스트)
rf = RandomForestClassifier(
    n_estimators=3,     # 3개의 결정 나무를 생성
    max_depth=3,        # 각 나무의 최대 깊이는 3
    random_state=42     # 결과 재현성을 위해 난수 설정
)

# 모델 학습
rf.fit(X, y)

# 시각화를 위한 설정
plt.figure(figsize=(20, 5))

# 각 결정 나무 시각화
for i in range(len(rf.estimators_)):
    plt.subplot(1, len(rf.estimators_), i+1) # subplot을 가로로 나열
    plot_tree(
        rf.estimators_[i],                   # 랜덤포레스트의 각 트리
        feature_names=iris.feature_names[2:4],
        class_names=iris.target_names,
        filled=True,
        rounded=True
    )
    plt.title(f'Tree {i+1}') # 각 subplot 제목
plt.tight_layout() # 서브플롯 간격 자동조정
plt.show()

4. 모델 분석 인사이트

1.트리별 주요 특징, 패턴

<Tree1>

첫 번째 노드는 꽃잎 넓이 (petal width)를 기준으로 분할, 값이 0.8cm 이하이면 setosa로 분류됨

이후 꽃잎 길이 (petal length)와 꽃잎 넓이를 기준으로 versicolor와 virginica를 구분함

지니지수 낮은 노드가 보임 -> 명확한 클래스 구분이 이루어지고 있음

2 -> 지니지수0.08에서 약간의 클래스 혼재가 발생하지만 전반적으로 명확한 기준으로 안정적으로 분류

3 -> 지니지수 0.0 완벽히 한 클래스만을 나타냄 (신뢰도 매우 높음)

+) 지니지수는 해당 노드에서 클래스가 얼마나 섞여있는지 나타냄. (0에 가까울 수록 노드의 순도가 높아진다는 것을 의미)

하위 노드로 갈수록 지니지수가 낮아져 명확한 분류가 이루어짐

5. 배운 점

하이퍼파라미터의 적용?

실제 실무에서는 3개의 트리로는 충분하지 않음. 100개 이상의 트리를 사용해 안정성 확보

max_depth는 일반적으로 데이터 크기와 복잡성에 따라 조정됨. 과적합 방지를 위해 5~20 사이에서 최적의 값을 찾는 것이 일반적

자동 하이퍼파라미터 튜닝 도입해보기 ( GridSearchCV, RandomizedSearchCV )

from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [3, 5, 10, None],
    'min_samples_split': [2, 5, 10]
}

grid_search = GridSearchCV(RandomForestClassifier(), param_grid, cv=5)
grid_search.fit(X, y)
print(grid_search.best_params_)

데이터 불균형 조심

실제 데이터에서는 클래스 불균형 (한 클래스 데이터가 너무 많거나, 적은 경우) 자주 발생

이때, class_weight = 'balanced' 옵션을 사용하거나 SMOTE 기법을 활용해 데이터 균형을 맞추는 것이 필요

특징 중요도 (Feature importance) 기능 활용하기

어떤 변수가 중요한 지 빠르게 확인할 수 있음

예 )

importances = rf.feature_importances_
indices = np.argsort(importances)[::-1]
plt.bar(range(X.shape[1]), importances[indices])
plt.xticks(range(X.shape[1]), iris.feature_names[2:4], rotation=45)
plt.title("Feature Importance")
plt.show()