2024-11-11 이채연

목차

Abstract

전에 사용된 것보다 깊은 네트워크의 훈련을 용이하게 하기 위한 잔차 학습 프레임워크를 제시한다.

ImageNet 데이터셋에서 최대 152층 깊이를 가진 잔차 네트워크를 평가했으며, 이는 VGG 네트워크보다 8배 깊지만 여전히 더 적은 복잡성을 가지고 있다. 이 잔차 네트워크들의 앙상블은 ImageNet 테스트 세트에서 3.57%의 오류율을 기록했다. 또한, COCO 객체 탐지 데이터셋에서 28%의 상대적 개선을 달성했다.

1. Introduction

심층 신경망은 자연스럽게 저수준/중간수준/고수준 특징과 분류기를 end-to-end 방식으로 다층적으로 통합하며, 이 "특징의 수준"은 쌓인 레이어의 수에 의해 풍부해질 수 있다. 즉 높은 추상화 특징은 고수준에서 파악할 수 있다는 것이다.

image.png

깊이가 중요해지면서 더 나은 네트워크를 학습하는 것이 단순히 더 많은 레이어를 쌓는 것만큼 쉬운 일일까에 대한 의문이 제기되었고 기울기 소실(vanishing gradients) 또는 기울기 폭발(exploding gradients) 문제가 장애물이 되었으나, back-propagation을 이용한 SGD적용으로 문제를 해결했다.

image.png

그러나 심층 신경망의 경우, 성능이 최고 수준에 도달할 때 degradation 문제가 발생하였고, 이는 네트워크의 깊이가 깊어 짐에 따라 정확도가 포화하고, 급속하게 감소하는 것을 의미한다. 이러한 문제의 원인은 과적합이 아니라, 그저 층의 수가 더 추가되었기 때문인데 test error 만이 아닌, training error도 함께 높아졌기 때문이다.

image.png

왼쪽이 기본 네트워크, 오른쪽이 ResNet 네트워크이다. 기존 네트워크는 입력 x를 받고 layer를 거쳐 H(x)를 출력하는데, 이는 함수 H(x)를 얻는 것이 목적이다. 여기서 ResNet의 Residual Learning은 H(x)가 아닌 출력과 입력의 차인 H(x) - x를 얻도록 목표를 수정한다. 따라서 Residual Function인 F(x) = H(x) - x를 최소화시켜야 하고 이는 즉, 출력과 입력의 차을 줄인다는 의미가 된다. 결과적으로 H(x) = F(x) + x 이므로 네트워크 구조 또한 크게 변경할 필요가 없는데, 단순히 입력에서 출력으로 한 개 이상의 층을 건너뛰는 연결되는 shortcut만 추가하면 되기 때문이다. 또한, 입력과 같은 x가 그대로 출력에 연결되기에 파라미터 수에 영향이 없으며, 덧셈이 늘어나는 것을 제외하면 shortcut 연결을 통한 연산량 증가는 없다. 이때 곱셈 연산에서 덧셈 연산으로 변형되어 몇 개의 layer를 건너뛰는 효과가 있어, 이 덕에 forward와 backward path가 단순해지는 효과가 있었으며, gradient의 소멸 문제를 해결할 수 있다.

2. Related Work

Residual Representations

image.png

low-level 비전 및 컴퓨터 그래픽 문제에서 편미분 방정식을 풀기 위해 dl 방식을 많이 사용해왔는데, 이 방식은 시스템을 여러 scale의 하위 문제로 재구성하는 것이다.