K-Nearest Neighbors (KNN) 및 서포트 벡터 머신(SVM) 개요

개요

KNN: 학습 단계가 없고, 새로운 데이터가 들어오면 학습 데이터와의 거리를 계산해 가장 가까운 K개의 이웃을 찾고 다수결(또는 거리 가중)로 클래스를 결정한다.
SVM: 데이터 포인트 간의 마진을 최대화하는 결정 경계를 찾는 모델로, 하드/소프트 마진과 커널 트릭을 통해 비선형 분류를 수행한다.

거리 측정
- 유클리디안 거리
- 맨해튼 거리
- 민코프스키 거리 (P값 조정)
k 값 선택
- 보통 √(학습 데이터 수) 기준, 홀수로 설정하여 투표 동률 방지
- 교차 검증으로 최적 k 탐색
가중 투표
- 단순 다수결 → 거리 가중(거리 가깝을수록 투표 가중치 증가)
스케일링
- 거리 기반이므로 각 특성의 범위가 비슷해야 함
계산 복잡도
- O(n·d) (n: 데이터 수, d: 차원) → 대규모 데이터 시 느림
트리 기반 가속
- KD-트리, Ball-트리 등으로 검색 범위 축소
SVM 핵심 요소
- 결정 경계: 클래스 구분선
- 마진: 경계와 가장 가까운 포인트까지 거리 × 2
- 서포트 벡터: 마진 경계에 놓인 포인트
- 하드 마진: 오분류 허용 없음
- 소프트 마진: 오분류 허용, 정규화 파라미터 C 사용
- 커널 트릭: 비선형 데이터에 대해 고차원 공간으로 매핑 없이 유사하게 동작

중요: 학습 단계가 없으므로 모델 저장만 필요하지만, 예측 시 모든 데이터와 거리 계산이 필요해 대규모에서는 비효율적.

Takeaway: KNN은 구현이 단순하고 비선형 데이터에 강하지만, 대규모 데이터에서는 느리고, SVM은 마진을 최대화해 일반화 성능이 뛰어나지만 파라미터 튜닝이 필요하다.