2601-04-회귀모델,최적화,트리_0325

Shared on April 2, 2026

선형 회귀와 트리 기반 회귀 모델

개요

지도학습의 회귀와 분류 개념 소개
선형 회귀 모델과 최적화 방법
정규화(릿지, 라쏘, 엘라스틱넷)
트리 기반 회귀 모델(결정 트리, 랜덤 포레스트, 그래디언트 부스팅, XGBoost)
각 모델의 학습 방식, 장단점 및 주요 하이퍼파라미터

핵심 개념

구분	주요 내용	핵심 포인트
선형 회귀	`y = w·x + b`	목적 함수: 평균제곱오차(MSE) 최소화
최적화	경사 하강법: 배치, 스토캐스틱, 미니배치	기울기(gradient)로 파라미터 업데이트
정규화	릿지(L2): 계수 제곱, 라쏘(L1): 절대값, 엘라스틱넷(L1+L2)	과적합 방지, 변수 선택
트리 기반	결정 트리: 조건 분할, 평균 예측<br>랜덤 포레스트: 부트스트랩 + 랜덤 특성, OOB 검증<br>그래디언트 부스팅: 잔차 학습, 순차적 트리<br>XGBoost: 정규화 내장, 병렬 분기 탐색, 자동 결측 처리	구조 직관, 해석 용이, 과적합 조절

상세 내용

1. 선형 회귀

모델: ŷ = w·x + b
목적 함수:
[ J(\theta) = \frac{1}{N}\sum_{i=1}^{N}(y_i - \hat{y}_i)^2 ]
학습: 파라미터 초기화 → 반복적으로 기울기 계산 → 업데이트
정규화 필요성: 데이터가 많거나 상관관계가 높은 경우 과적합 위험

2. 최적화 기법

경사 하강법
- 배치: 전체 데이터 평균 기울기 계산 → 한 번 업데이트
- 스토캐스틱: 데이터 1개씩 즉시 업데이트 → 더 많은 반복 필요
- 미니배치: 32~128 샘플 단위 → 실무에서 가장 일반적
기울기(gradient): 파라미터 공간에서 손실이 가장 빠르게 감소하는 방향

3. 정규화 기법

기법	손실 함수	특징
릿지 (Ridge)	(L_2)	모든 계수 약간 감소, 0이 아님
라쏘 (Lasso)	(L_1)	일부 계수 0으로 만들며 변수 선택
엘라스틱넷 (ElasticNet)	(L_1 + L_2)	라쏘와 릿지의 장점 결합, 상관 변수 함께 선택

α (정규화 강도): α=0 → 선형 회귀와 동일, α↑ → 계수 0에 가까워짐

4. 트리 기반 회귀 모델

4.1 결정 트리

학습: 각 노드에서 모든 feature와 분할값을 탐색 → 분산 감소(Δ) 최대인 분할 선택 (Greedy Search)
예측: 리프 노드에 도달하면 그 리프의 평균값 반환
핵심 파라미터
- max_depth: 트리 깊이 제한
- min_samples_split, min_samples_leaf: 분할 최소 샘플 수

4.2 랜덤 포레스트

무작위성
- 부트스트랩 샘플링: 원본 데이터에서 복원 추출 → 각 트리마다 다른 데이터
- 랜덤 특징 선택: 각 분기마다 일부 feature만 후보로 사용
Out‑of‑Bag (OOB): 평균적으로 37% 데이터가 한 트리에서 사용되지 않음 → 별도 검증셋 없이 성능 추정 가능
예측: 모든 트리 예측값 평균
장점: 과적합 감소, 특징 중요도 안정성
단점: 단일 트리보다 느림, 구조 해석 어려움

4.3 그래디언트 부스팅 (GBM)

순차적 학습:
1. 초기 모델 (F_0) = 전체 평균
2. 잔차 (r_i = y_i - F_{t-1}(x_i)) 계산
3. 잔차를 예측하는 트리 (h_t) 학습 → (F_t = F_{t-1} + \eta \cdot h_t)
학습률 (\eta): 각 트리의 기여도 조절
장점: 높은 정확도, 다양한 손실 함수 지원
단점: 순차적 학습 → 병렬화 어려움, 하이퍼파라미터 튜닝 복잡

4.4 XGBoost

개선 포인트
- 정규화 내장: (L_1) + (L_2)
- 병렬 분기 탐색: 전체 후보 대신 근사 분위수 사용 → 속도 향상
- 자동 결측 처리: 결측값을 학습 시 최적 방향으로 분기
- 조기 종료(Early Stopping): 검증 오차가 일정 횟수 이상 개선되지 않으면 학습 중단
핵심 파라미터
- n_estimators, learning_rate, max_depth, subsample, colsample_bytree
장점: 실무에서 가장 많이 사용, 빠르고 정확
단점: 파라미터 수가 많아 튜닝 어려움

요약

선형 회귀는 간단하고 해석이 용이하지만 비선형 패턴과 과적합에 한계가 있음.
정규화를 통해 과적합을 방지하고 변수 선택이 가능함.
트리 기반 모델은 비선형성을 자연스럽게 처리하며, 랜덤 포레스트는 과적합을 줄이고 OOB 검증을 제공, 그래디언트 부스팅과 XGBoost는 잔차를 순차적으로 보정해 높은 정확도를 달성.
각 모델마다 주요 하이퍼파라미터가 존재하며, 데이터 특성과 목적에 따라 적절히 조정해야 최적의 성능을 이끌어낼 수 있다.