멀티레이어 퍼셉트론과 딥러닝 이해(인개론4/20월)

Shared on April 26, 2026

멀티레이어 퍼셉트론과 딥러닝 개론

개요

이 강의는 퍼셉트론(Perceptron) 과 멀티레이어 퍼셉트론(Multilayer Perceptron, MLP), 그리고 딥러닝의 기초 개념과 학습 방법, 그리고 GPU 가속에 대해 설명한다.
주요 목표는 선형 모델의 한계와 비선형 모델을 구현하기 위한 MLP 구조, 학습 알고리즘(역전파), 그리고 데이터 종류(표형, 이미지, 시계열)와 모델 선택 기준을 이해하는 데 있다.

핵심 개념

항목	내용
퍼셉트론	입력층, 출력층 하나의 단일 은닉층이 없는 선형 분류 모델.
멀티레이어 퍼셉트론	입력층 → 은닉층 여러 개 → 출력층 구조. 비선형 활성함수를 적용해 비선형 변환 가능.
활성화 함수	ReLU, Sigmoid, Tanh 등으로, 출력이 0 이하이면 0, 0 초과이면 그대로 통과시키는 ReLU가 흔함.
역전파(Back‑Propagation)	출력 오차를 은닉층으로 전파해 가중치를 업데이트. 에러가 “전파”되는 과정이다.
학습률(learning rate)	가중치 업데이트 시 스텝 크기를 결정. 값이 너무 크면 발산, 작으면 수렴 속도 저하.
데이터 종류	1) 표형(Structured) – 행렬형 데이터. 2) 이미지 – 2D 픽셀 행렬. 3) 시계열 – 시간에 따라 변하는 시퀀스.
GPU 가속	병렬 연산이 가능한 GPU는 대규모 행렬·벡터 연산을 빠르게 수행, 딥러닝 학습 속도에 큰 기여.

상세 내용

1. 퍼셉트론의 한계

선형 분류만 가능 → 복잡한 데이터(예: XOR 문제)에서는 분류 불가.
은닉층이 없으므로 비선형 변환을 수행할 수 없음.

2. 멀티레이어 퍼셉트론(Multi‑Layer Perceptron, MLP)

구조: 입력층 → 은닉층(수) → 출력층. 은닉층 개수와 노드 수는 사용자가 설정.
활성화 함수: 은닉층에 비선형 함수 적용 → 비선형 변환 가능.
학습: 역전파와 경사하강법으로 가중치 업데이트.
전달(Forward Pass): 입력 → 은닉층(활성화) → 출력.
오차: 출력과 정답의 차이(예: Mean Squared Error)를 계산하고, 이를 기반으로 가중치를 조정.

3. 역전파와 가중치 업데이트

전달 단계에서 모든 레이어의 출력을 계산.
오차 확산: 최종 출력 오차를 출력층에서 은닉층으로 전파.
가중치 갱신: 각 가중치에 대한 경사(오차·입력)를 계산해, 가중치 -= 학습률 * 경사 로 업데이트.

4. 데이터 종류와 모델 선택

데이터	대표적 모델	특징
표형	MLP, 회귀, 결정나무	행렬 형태; 피처가 명확히 구분
이미지	CNN, MLP	공간적 구조를 활용; 픽셀은 2D 행렬
시계열	RNN, LSTM, GRU	시간 의존성 고려 필요

CNN은 이미지에 특화된 필터와 풀링을 사용해 이미지의 공간적 패턴을 학습.
RNN은 순차적 데이터에 적합하지만, 장기 의존성 문제(vanishing/exploding gradient) 해결을 위해 LSTM/GRU가 사용.

5. GPU 가속의 역할

병렬 연산이 가능 → 행렬·벡터 곱 같은 연산을 동시에 수행.
딥러닝에서 핵심 연산(컨볼루션, 행렬곱)은 GPU에서 10~100배 빠르게 실행.
CPU는 개별 계산이 복잡하거나 제어 로직에 적합; GPU는 대규모 연산에 특화.

6. 딥러닝 vs. 전통적 기계학습

딥러닝: 다층 구조, 자동 특징 추출 → 복잡한 비선형 패턴 학습.
전통적 기계학습: 수동 특징 추출 + 간단한 모델(선형 회귀, SVM 등).
딥러닝은 비선형성과 대규모 데이터가 동시에 요구될 때 가장 효과적.

7. 학습의 핵심 과제

하이퍼파라미터: 은닉층 수, 노드 수, 학습률, 배치크기 등.
초기화: 가중치 초기값이 학습 성능에 큰 영향.
정규화: 과적합 방지를 위해 드롭아웃, L2 정규화 등 사용.
학습률 조정: 학습 초반 빠른 수렴, 이후 수렴 속도 조절.

요약

퍼셉트론은 선형 모델로 비선형 문제 해결이 불가능하지만, 멀티레이어 퍼셉트론은 은닉층과 비선형 활성함수를 통해 복잡한 패턴을 학습할 수 있다.
역전파를 통한 가중치 업데이트와 GPU 가속이 딥러닝 학습을 효율적으로 만든다.
데이터 종류에 따라 적절한 모델(MLP, CNN, RNN 등)을 선택하고, 하이퍼파라미터를 조정해 최적화해야 한다.