2601-04-회귀모델,최적화,트리_0325
Shared on April 2, 2026
선형 회귀와 트리 기반 회귀 모델
개요
- 지도학습의 회귀와 분류 개념 소개
- 선형 회귀 모델과 최적화 방법
- 정규화(릿지, 라쏘, 엘라스틱넷)
- 트리 기반 회귀 모델(결정 트리, 랜덤 포레스트, 그래디언트 부스팅, XGBoost)
- 각 모델의 학습 방식, 장단점 및 주요 하이퍼파라미터
핵심 개념
| 구분 | 주요 내용 | 핵심 포인트 |
|---|---|---|
| 선형 회귀 | y = w·x + b | 목적 함수: 평균제곱오차(MSE) 최소화 |
| 최적화 | 경사 하강법: 배치, 스토캐스틱, 미니배치 | **기울기(gradient)**로 파라미터 업데이트 |
| 정규화 | 릿지(L2): 계수 제곱, 라쏘(L1): 절대값, 엘라스틱넷(L1+L2) | 과적합 방지, 변수 선택 |
| 트리 기반 | 결정 트리: 조건 분할, 평균 예측<br>랜덤 포레스트: 부트스트랩 + 랜덤 특성, OOB 검증<br>그래디언트 부스팅: 잔차 학습, 순차적 트리<br>XGBoost: 정규화 내장, 병렬 분기 탐색, 자동 결측 처리 | 구조 직관, 해석 용이, 과적합 조절 |
상세 내용
1. 선형 회귀
- 모델:
ŷ = w·x + b - 목적 함수:
[ J(\theta) = \frac{1}{N}\sum_{i=1}^{N}(y_i - \hat{y}_i)^2 ] - 학습: 파라미터 초기화 → 반복적으로 기울기 계산 → 업데이트
- 정규화 필요성: 데이터가 많거나 상관관계가 높은 경우 과적합 위험
2. 최적화 기법
- 경사 하강법
- 배치: 전체 데이터 평균 기울기 계산 → 한 번 업데이트
- 스토캐스틱: 데이터 1개씩 즉시 업데이트 → 더 많은 반복 필요
- 미니배치: 32~128 샘플 단위 → 실무에서 가장 일반적
- 기울기(gradient): 파라미터 공간에서 손실이 가장 빠르게 감소하는 방향
3. 정규화 기법
| 기법 | 손실 함수 | 특징 |
|---|---|---|
| 릿지 (Ridge) | (L_2) | 모든 계수 약간 감소, 0이 아님 |
| 라쏘 (Lasso) | (L_1) | 일부 계수 0으로 만들며 변수 선택 |
| 엘라스틱넷 (ElasticNet) | (L_1 + L_2) | 라쏘와 릿지의 장점 결합, 상관 변수 함께 선택 |
- α (정규화 강도): α=0 → 선형 회귀와 동일, α↑ → 계수 0에 가까워짐
4. 트리 기반 회귀 모델
4.1 결정 트리
- 학습: 각 노드에서 모든 feature와 분할값을 탐색 → 분산 감소(Δ) 최대인 분할 선택 (Greedy Search)
- 예측: 리프 노드에 도달하면 그 리프의 평균값 반환
- 핵심 파라미터
max_depth: 트리 깊이 제한min_samples_split,min_samples_leaf: 분할 최소 샘플 수
4.2 랜덤 포레스트
- 무작위성
- 부트스트랩 샘플링: 원본 데이터에서 복원 추출 → 각 트리마다 다른 데이터
- 랜덤 특징 선택: 각 분기마다 일부 feature만 후보로 사용
- Out‑of‑Bag (OOB): 평균적으로 37% 데이터가 한 트리에서 사용되지 않음 → 별도 검증셋 없이 성능 추정 가능
- 예측: 모든 트리 예측값 평균
- 장점: 과적합 감소, 특징 중요도 안정성
- 단점: 단일 트리보다 느림, 구조 해석 어려움
4.3 그래디언트 부스팅 (GBM)
- 순차적 학습:
- 초기 모델 (F_0) = 전체 평균
- 잔차 (r_i = y_i - F_{t-1}(x_i)) 계산
- 잔차를 예측하는 트리 (h_t) 학습 → (F_t = F_{t-1} + \eta \cdot h_t)
- 학습률 (\eta): 각 트리의 기여도 조절
- 장점: 높은 정확도, 다양한 손실 함수 지원
- 단점: 순차적 학습 → 병렬화 어려움, 하이퍼파라미터 튜닝 복잡
4.4 XGBoost
- 개선 포인트
- 정규화 내장: (L_1) + (L_2)
- 병렬 분기 탐색: 전체 후보 대신 근사 분위수 사용 → 속도 향상
- 자동 결측 처리: 결측값을 학습 시 최적 방향으로 분기
- 조기 종료(Early Stopping): 검증 오차가 일정 횟수 이상 개선되지 않으면 학습 중단
- 핵심 파라미터
n_estimators,learning_rate,max_depth,subsample,colsample_bytree
- 장점: 실무에서 가장 많이 사용, 빠르고 정확
- 단점: 파라미터 수가 많아 튜닝 어려움
요약
- 선형 회귀는 간단하고 해석이 용이하지만 비선형 패턴과 과적합에 한계가 있음.
- 정규화를 통해 과적합을 방지하고 변수 선택이 가능함.
- 트리 기반 모델은 비선형성을 자연스럽게 처리하며, 랜덤 포레스트는 과적합을 줄이고 OOB 검증을 제공, 그래디언트 부스팅과 XGBoost는 잔차를 순차적으로 보정해 높은 정확도를 달성.
- 각 모델마다 주요 하이퍼파라미터가 존재하며, 데이터 특성과 목적에 따라 적절히 조정해야 최적의 성능을 이끌어낼 수 있다.