회귀모델 평가 지표 (Regression Metrics)
회귀문제에서는 예측값이 숫자(연속형 변수)이기 때문에, 실제값과 예측값의 차이를 측정하는 방식으로 모델의 성능을 평가
1. 평균 제곱 오차 (MSE, Mean Squared Error)
목적 : 오차를 제곱하여 평균
특징 : 큰 오차에 더 민감 (제곱이기 때문)
장점 : 미분이 가능해 학습시 활용됨
단점 : 이상치에 매우 민감
해석 : 값이 작을수록 모델이 예측을 잘하는 것
=> 오차를 크게 벌점화하고 싶을 때 유용 (고가 제품 예측)
2. 평균 절대 오차 (MAE, Mean Absolute Error)
목적 : 오차의 절댓값을 평균
특징 : 이상치에 덜 민감
장점 : 해석이 직관적 (예 : 평균 오차가 3만원)
단점 : 수학적으로 미분 불가 (일부 모델 학습에 불리)
해석 : 값이 작을수록 좋음. 오차를 그대로 본다.
=> 가격 예측이나 실제 오차 해석이 중요한 경우 선호됨
3. 결정 계수 (R2, R-squared)
목적 : 모델이 전체 변동성을 얼마나 잘 설명했는지
값의 범위 : -∞ ~ 1
1에 가까울 수록 : 모델이 데이터를 잘 설명함
0이면 모델이 아무것도 설명하지 못함
음수면 예측이 평균값보다 못함 (최악)
=> 보통 R2값이 0.8 이상이면 상당히 설명력이 좋은 모델이라고 판단함
모델 비교용 지표로 적합하다.
4. 회귀 vs 분류 차이
항목 | 회귀 (Regression) | 분류 (Classification) |
목표 | 숫자 예측 (연속값) | 범주 예측 (클래스, 라벨) |
출력값 | 예 : 23.4, 78.9 | 예 : 스팸/정상, 합격/불합격 |
예시 | 집값, 키, 온도 | 메일 분류, 질병 유무 |
대표 지표 | MSE, MAE, R2 | Accuracy, Precision, Recall, F1-score |
시각화 | 선형 회귀선, 잔차 plot 등 | Confusion matrix, Roc curve 등 |
대표 알고리즘 | Linear, Ridge, SVR, RF 등 | 로지스틱 회귀, KNN, Random Forest 분류 등 |
5. 회귀 알고리즘 선택 가이드
관계가 단순하고 직선적이다 > 선형회귀 (빠르고 직관적, 해석 쉬움)
변수들 간 관계가 복잡하거나 다중공선성 우려가 있다 > 릿지, 라쏘 (과적합 방지, 변수 조절)
불필요한 변수를 제거하고 싶다 > 라쏘 회귀 (계수 0으로 변수 제거)
데이터가 곡선형이다 > 다항 회귀 (비선형 관계 반영)
노이즈가 많거나 큰 오차는 무시하고 흐름이 중요하다 > SVR 서포트 벡터 회귀 (허용 오차 개념으로 유연)
예측 정확도가 최우선이다 > 랜덤 포레스트 회귀 (앙상블 기반 고성능 모델)
'Data Analysis' 카테고리의 다른 글
Encoding : 문자형이나 범주형 데이터를 숫자형 데이터로 변환하는 과정 (0) | 2025.06.17 |
---|---|
선형회귀 실습 (당뇨병 진행률 BMI, 광고비 기반 매출 예측) (0) | 2025.06.17 |
Regression 회귀 알고리즘, 선형회귀, 릿지회귀, 라쏘회귀, 다항회귀, SVR, 랜덤포레스트 (1) | 2025.06.17 |
KNN 실습 : 의류 이미지 속성 분류 (2) | 2025.06.09 |
KNN 분류 예제 (Iris 데이터 셋) (0) | 2025.06.08 |