alt

2601-04-회귀모델,최적화,트리_0325

Shared on April 2, 2026

선형 회귀와 트리 기반 회귀 모델

개요

  • 지도학습의 회귀와 분류 개념 소개
  • 선형 회귀 모델과 최적화 방법
  • 정규화(릿지, 라쏘, 엘라스틱넷)
  • 트리 기반 회귀 모델(결정 트리, 랜덤 포레스트, 그래디언트 부스팅, XGBoost)
  • 각 모델의 학습 방식, 장단점 및 주요 하이퍼파라미터

핵심 개념

구분주요 내용핵심 포인트
선형 회귀y = w·x + b목적 함수: 평균제곱오차(MSE) 최소화
최적화경사 하강법: 배치, 스토캐스틱, 미니배치**기울기(gradient)**로 파라미터 업데이트
정규화릿지(L2): 계수 제곱, 라쏘(L1): 절대값, 엘라스틱넷(L1+L2)과적합 방지, 변수 선택
트리 기반결정 트리: 조건 분할, 평균 예측<br>랜덤 포레스트: 부트스트랩 + 랜덤 특성, OOB 검증<br>그래디언트 부스팅: 잔차 학습, 순차적 트리<br>XGBoost: 정규화 내장, 병렬 분기 탐색, 자동 결측 처리구조 직관, 해석 용이, 과적합 조절

상세 내용

1. 선형 회귀

  • 모델: ŷ = w·x + b
  • 목적 함수:
    [ J(\theta) = \frac{1}{N}\sum_{i=1}^{N}(y_i - \hat{y}_i)^2 ]
  • 학습: 파라미터 초기화 → 반복적으로 기울기 계산 → 업데이트
  • 정규화 필요성: 데이터가 많거나 상관관계가 높은 경우 과적합 위험

2. 최적화 기법

  • 경사 하강법
    • 배치: 전체 데이터 평균 기울기 계산 → 한 번 업데이트
    • 스토캐스틱: 데이터 1개씩 즉시 업데이트 → 더 많은 반복 필요
    • 미니배치: 32~128 샘플 단위 → 실무에서 가장 일반적
  • 기울기(gradient): 파라미터 공간에서 손실이 가장 빠르게 감소하는 방향

3. 정규화 기법

기법손실 함수특징
릿지 (Ridge)(L_2)모든 계수 약간 감소, 0이 아님
라쏘 (Lasso)(L_1)일부 계수 0으로 만들며 변수 선택
엘라스틱넷 (ElasticNet)(L_1 + L_2)라쏘와 릿지의 장점 결합, 상관 변수 함께 선택
  • α (정규화 강도): α=0 → 선형 회귀와 동일, α↑ → 계수 0에 가까워짐

4. 트리 기반 회귀 모델

4.1 결정 트리

  • 학습: 각 노드에서 모든 feature와 분할값을 탐색 → 분산 감소(Δ) 최대인 분할 선택 (Greedy Search)
  • 예측: 리프 노드에 도달하면 그 리프의 평균값 반환
  • 핵심 파라미터
    • max_depth: 트리 깊이 제한
    • min_samples_split, min_samples_leaf: 분할 최소 샘플 수

4.2 랜덤 포레스트

  • 무작위성
    • 부트스트랩 샘플링: 원본 데이터에서 복원 추출 → 각 트리마다 다른 데이터
    • 랜덤 특징 선택: 각 분기마다 일부 feature만 후보로 사용
  • Out‑of‑Bag (OOB): 평균적으로 37% 데이터가 한 트리에서 사용되지 않음 → 별도 검증셋 없이 성능 추정 가능
  • 예측: 모든 트리 예측값 평균
  • 장점: 과적합 감소, 특징 중요도 안정성
  • 단점: 단일 트리보다 느림, 구조 해석 어려움

4.3 그래디언트 부스팅 (GBM)

  • 순차적 학습:
    1. 초기 모델 (F_0) = 전체 평균
    2. 잔차 (r_i = y_i - F_{t-1}(x_i)) 계산
    3. 잔차를 예측하는 트리 (h_t) 학습 → (F_t = F_{t-1} + \eta \cdot h_t)
  • 학습률 (\eta): 각 트리의 기여도 조절
  • 장점: 높은 정확도, 다양한 손실 함수 지원
  • 단점: 순차적 학습 → 병렬화 어려움, 하이퍼파라미터 튜닝 복잡

4.4 XGBoost

  • 개선 포인트
    • 정규화 내장: (L_1) + (L_2)
    • 병렬 분기 탐색: 전체 후보 대신 근사 분위수 사용 → 속도 향상
    • 자동 결측 처리: 결측값을 학습 시 최적 방향으로 분기
    • 조기 종료(Early Stopping): 검증 오차가 일정 횟수 이상 개선되지 않으면 학습 중단
  • 핵심 파라미터
    • n_estimators, learning_rate, max_depth, subsample, colsample_bytree
  • 장점: 실무에서 가장 많이 사용, 빠르고 정확
  • 단점: 파라미터 수가 많아 튜닝 어려움

요약

  • 선형 회귀는 간단하고 해석이 용이하지만 비선형 패턴과 과적합에 한계가 있음.
  • 정규화를 통해 과적합을 방지하고 변수 선택이 가능함.
  • 트리 기반 모델은 비선형성을 자연스럽게 처리하며, 랜덤 포레스트는 과적합을 줄이고 OOB 검증을 제공, 그래디언트 부스팅XGBoost는 잔차를 순차적으로 보정해 높은 정확도를 달성.
  • 각 모델마다 주요 하이퍼파라미터가 존재하며, 데이터 특성과 목적에 따라 적절히 조정해야 최적의 성능을 이끌어낼 수 있다.