Data Analysis

회귀모델 평가 지표, 회귀 vs 분류 비교, 알고리즘 선택 가이드

김심슨 2025. 6. 17. 09:26

회귀모델 평가 지표 (Regression Metrics)

회귀문제에서는 예측값이 숫자(연속형 변수)이기 때문에, 실제값과 예측값의 차이를 측정하는 방식으로 모델의 성능을 평가

 

1. 평균 제곱 오차 (MSE, Mean Squared Error)

목적 : 오차를 제곱하여 평균 

특징 : 큰 오차에 더 민감 (제곱이기 때문)

장점 : 미분이 가능해 학습시 활용됨 

단점 : 이상치에 매우 민감 

해석 : 값이 작을수록 모델이 예측을 잘하는 것 

=> 오차를 크게 벌점화하고 싶을 때 유용 (고가 제품 예측)

 

2. 평균 절대 오차 (MAE, Mean Absolute Error)

목적 : 오차의 절댓값을 평균 

특징 : 이상치에 덜 민감 

장점 : 해석이 직관적 (예 : 평균 오차가 3만원)

단점 : 수학적으로 미분 불가 (일부 모델 학습에 불리)

해석 : 값이 작을수록 좋음. 오차를 그대로 본다. 

=> 가격 예측이나 실제 오차 해석이 중요한 경우 선호됨 

 

3. 결정 계수 (R2, R-squared)

목적 : 모델이 전체 변동성을 얼마나 잘 설명했는지 

값의 범위 : -∞ ~ 1

1에 가까울 수록 : 모델이 데이터를 잘 설명함 

0이면 모델이 아무것도 설명하지 못함 

음수면 예측이 평균값보다 못함 (최악)

=> 보통 R2값이 0.8 이상이면 상당히 설명력이 좋은 모델이라고 판단함 

모델 비교용 지표로 적합하다. 

 

4. 회귀 vs 분류 차이 

항목 회귀 (Regression) 분류 (Classification)
목표 숫자 예측 (연속값) 범주 예측 (클래스, 라벨)
출력값  예 : 23.4, 78.9 예 : 스팸/정상, 합격/불합격
예시 집값, 키, 온도 메일 분류, 질병 유무
대표 지표  MSE, MAE, R2 Accuracy, Precision, Recall, F1-score
시각화 선형 회귀선, 잔차 plot 등 Confusion matrix, Roc curve 등
대표 알고리즘 Linear, Ridge, SVR, RF 등 로지스틱 회귀, KNN, Random Forest 분류 등 

 

5. 회귀 알고리즘 선택 가이드 

관계가 단순하고 직선적이다 > 선형회귀 (빠르고 직관적, 해석 쉬움)

변수들 간 관계가 복잡하거나 다중공선성 우려가 있다 > 릿지, 라쏘 (과적합 방지, 변수 조절)

불필요한 변수를 제거하고 싶다 > 라쏘 회귀 (계수 0으로 변수 제거)

데이터가 곡선형이다 > 다항 회귀 (비선형 관계 반영)

노이즈가 많거나 큰 오차는 무시하고 흐름이 중요하다 > SVR 서포트 벡터 회귀 (허용 오차 개념으로 유연)

예측 정확도가 최우선이다 > 랜덤 포레스트 회귀 (앙상블 기반 고성능 모델)