๋ณธ ํฌ์คํธ๋ ์ ๊ฐ ํด๋จผ์ค์ผ์ดํ ๊ธฐ์ ๋ธ๋ก๊ทธ์ ๋จผ์ ์์ฑํ๊ณ ์ฎ๊ธด ํฌ์คํธ์
๋๋ค.
๋ณธ ํฌ์คํธ์์๋ semantic segmentation ๋ถ์ผ์์ ์ธ์ฉ ์ 54000+์ ์ก๋ฐํ๋ ๋
ผ๋ฌธ์ ๋ํด์ ๋ฆฌ๋ทฐํ๋ ค๊ณ ํฉ๋๋ค. ํนํ ์ด ๋
ผ๋ฌธ์ deep neural network์ ํ์ต ํจ์จ์ ๋ํ ๊ธฐ์ฌ๋ก CVPR 2016์ ์ค๋ ธ์ต๋๋ค. ๋
ผ๋ฌธ์ ์ ๋ชฉ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
โDeep Residual Learning for Image Recognitionโ
Basic concept of Residual Learning
Objective
๋
ผ๋ฌธ์์ ๋ชฉ์ ์ผ๋ก ํ๊ณ ์๋ ๊ฒ์ deeper neural network ๊ตฌ์กฐ์์ ๋ํ๋๋ย gradient vanishing ํ์์ผ๋ก ์ธํ degradation(ํ์ตํจ๊ณผ ์ ํด)์ ํด๊ฒฐํ๋ ๊ฒ์
๋๋ค.
์ผ๋ฐ์ ์ผ๋ก gradient vanishing์ ์ ๊ฒฝ๋ง์ด ๊น์ด์ง์ ๋ฐ๋ผ์ย layer์ ํ weight ๊ฐ์ด ์ ์ฒด ์ฐ์ฐ ๊ฒฐ๊ณผ์ ์ํฅ์ ๋ฏธ์น๋ ์ ๋๊ฐ ๊ต์ฅํ ์์์ง๋ ํ์์ ๋งํฉ๋๋ค. ์ด๋ neural network์์ ์ฌ์ฉํ๋ activation function์ด ๋ฏธ๋ถ์ ๊ฑฐ์น๊ฒ ๋์์ ๋ ๋์ค๋ output์ scale์ด ์ค์ด๋ ๋ค๋ ์ ๋๋ฌธ์ ๋ฐ์ํ๊ฒ ๋ฉ๋๋ค. ์ฆ, back propagation์ ์งํํ ๋ ์ค๋ฅ ํญ๋ชฉ์ ์ง์์ ์ผ๋ก activation function์ ๋ฏธ๋ถ ํญ์ด ํฌํจ๋๋ฉด์ ์ค์ output layer๋ก๋ถํฐ ๋จผ ์ชฝ(์ด๊ธฐ layer)์ ๊ฒฝ์ฐ, ๊ทธ ์ค๋ฅ์ scale์ด ๊ต์ฅํ ์์์ง๋ฉด์ gradient descent๊ฐ ์ค์ output์ ๋ฐ์๋๊ธฐ ํ๋ ๊ตฌ์กฐ๊ฐ ๋๋ ๊ฒ์
๋๋ค.
ํํ ์ด๋ฐ deep neural network์์ ๋ํ๋๋ ํ์ตํจ๊ณผ ์ ํด๋ฅผ overfitting(ํน์ ๋ฐ์ดํฐ์
์ ํน์ฑ์ ๊ณผ๋ํ๊ฒ ๋ฐ์ํ์ฌ ์ผ๋ฐ์ ์ผ๋ก ์๋ฌ๊ฐ ์ปค์ง๋ ํ์)์ ์ํ ๊ฒ์ผ๋ก ๋จ์ํ ํด์ํ๊ณ ๋์ด๊ฐ ์ ์๋๋ฐ, ๋
ผ๋ฌธ์์ ์ด์ ์ ๋ง์ถ๊ณ ์๋ ํ์์ ์ด๋ฌํ ์์ธ์ด ์๋๋ผ๋ ๊ฒ์ ๋ช
ํํ ์ง๊ณ ๋์ด๊ฐ๋๋ค.
Reason why the problem is not caused by โoverfittingโ
Overfitting์ด ์์ธ์ธ ํ์ตํจ๊ณผ ์ ํด์ ๊ฒฝ์ฐ, training error๋ ์์ง๋ง test error๋ ํฌ๊ฒ ๋ฑ์ฅํด์ผ ํฉ๋๋ค. ํ์ง๋ง, ์์ชฝ ๊ทธ๋ํ์ ๊ฒฝ์ฐ ๋ชจ๋ layer ์๊ฐ ๋ ๋ง์ ์ชฝ์ด error๊ฐ ํฌ๊ฒ ๋ฑ์ฅํ๋ค๋ ๊ฒ์ ํตํด, ์ผ๋ฐ์ ์ผ๋ก ๊น์ ์ ๊ฒฝ๋ง์ ๋ํ ํ์ตํจ๊ณผ ์ ํด์ ์ด์ ์ ๋ง์ถ๊ณ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
Residual Learning
์์์ ์ค๋ช
๋๋ฆฐ degradation ํ์์ ๋ณต์กํ layer๋ฅผ ์ถ๊ฐํ์ง ์๊ณ ๋จ์ํ identity layer ๋ง์ ๊ธฐ์กด์ ์ ๊ฒฝ๋ง์ ๋ถ์ด๋๋ผ๋ ๋ฐ์ํ๋ ํ์์
๋๋ค. ResNet์ ์ด๋ฐ identity mapping์ ์กฐ๊ธ ๋ ์ ๊ตฌํํ ์ ์๋ ๋ฐฉ๋ฒ์ผ๋ก residual learning์ ์ ์ํฉ๋๋ค.
๊ธฐ์กด์ ์กด์ฌํ๋ neural network๋ ์ข์ธก์ plain net์ ๊ตฌ์กฐ๋ก, input x์ ๋ํด์ ๋ชฉํ๋ก ํ๋ H(x)๋ฅผ ํ์ตํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํฉ๋๋ค. ๋ฐ๋ฉด, residual net ๊ตฌ์กฐ๋ input x ์ ๋ํ ๋ชฉํ H(x)์ identity mapping์ธ x๋ฅผ ํฌํจ์ํจ ํํ๋ก ๋จ์ F(x)๋ฅผ optimizeํ๋ ํํ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
Identity mapping์ ๊ด์ ์์ ์ ๊ตฌ์กฐ๋ฅผ ์ดํด๋ณด๋ฉด ์ข์ธก์ plain net์ H(x)๋ฅผ x์ ๋์ผํ๋๋ก ํ์ต์์ผ์ผ ํ๋ ๋ฐ๋ฉด, ์ฐ์ธก์ ๊ฒฝ์ฐ F(x)=H(x)-x๋ฅผ 0์ ์๋ ดํ๋๋ก ํ์ต์์ผ์ผ ํจ์ ์ ์ ์์ต๋๋ค. layer๋ฅผ ํน์ ๊ฐ input x๋ฅผ ๊ฐ์ง๋๋ก ํ์ต์ํค๋ ๊ฒฝ์ฐ๋ณด๋ค๋, ์ด๋ค x๊ฐ ๋ค์ด์ค๋๋ผ๋ residual(์์ฐจ)๋ฅผ 0์ ๊ฐ์ง๋๋ก ํ์ตํ๋ ๊ฒ์ด ๋์ฑ ์ข์ ํ์ตํจ๊ณผ๋ฅผ ๋ถ๋ฌ์ฌ ๊ฒ์ด๋ผ๋ ๊ฒ์์ ์์ํ ๋ฐ์์
๋๋ค.
๋ง๋ถ์ฌ, ์์ ์ค๋ช
ํ residual net์ ์์ ๊ฐ์ ํํ์ ์์ผ๋ก ๋ํ๋ผ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์ W_s์ ๊ฒฝ์ฐ, input๊ณผ output์ dimension์ด ๋์ผํ์ง ์์ ๊ฒฝ์ฐ, ๋ง์ถฐ์ฃผ๊ธฐ ์ํ linear projection matrix์
๋๋ค.
How Residual Learning Solves Problem
๋ค์ค layer๋ฅผ ์ด์ฉํ identity mapping์ ๊ตฌํ์ ์ฉ์ด์ฑ์ด๋ผ๋ ๊ด์ ์์ ์์ํ์ง๋ง, residual learning์ ๊ทผ๋ณธ์ ์ผ๋ก degradation์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ์ ์ ํฉํ์ต๋๋ค.
์ด๋ H(x) ํญ๋ชฉ์ ๊ณ ์ ์ ์ผ๋ก linearly addition๋ x๊ฐ ๊ฒฐ๊ณผ์ ์ผ๋ก output layer์์ ๋จผ layer์์๋ output์ ๋ํ x๊ฐ ๋ฐ์์ด ์ฉ์ดํ๊ฒ ์ผ์ด๋๋๋ก ์์ฉํ๊ธฐ ๋๋ฌธ์
๋๋ค.
์ด๋ฌํ ๊ฐ layer์ feature ์ output์ ๋ํ ๋ฐ์์ ๋ํ ์ธก๋ฉด์ผ๋ก ResNet์ ํจ์จ์ ์ธ ์ธก๋ฉด์ ๋ถ์ํย โIdentity Mappings in Deep Neural Networksโย ๋
ผ๋ฌธ์ ๋ํด์๋ ํ ๋ฒ ์ฝ์ด๋ณด์๋ฉด ์ข์ ๊ฒ ๊ฐ์ต๋๋ค. ๋
ผ๋ฌธ์์ ์ ์ํ ๋ด์ฉ์ ๋ํด์ ๊ฐ๋ตํ ์๊ฐํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
๋จผ์ residual net์์ ํ์ฑํ block์ ๋ฐ๋ผ์ ์์ ๊ฐ์ ์์ผ๋ก input-output์ mapping์ ํ์ฑํ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์ h๋ shortcut-connection์ ์ ๊ณตํ๋ ํจ์์ด๋ฉฐ, F๋ weight์ feature๋ก ๊ณ์ฐ๋ ํญ๋ชฉ์
๋๋ค. ๋๋ถ์ด f๋ activation function์
๋๋ค.
์ดํ ๋
ผ๋ฌธ์์๋ ๋ฑ์ฅํ๊ฒ ์ง๋ง, h๋ฅผ identity mapping์ผ๋ก ์ค์ ํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ผ๋ก ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, activation function ๋ํ ReLU๋ฑ์ ํจ์๋ฅผ ์ฌ์ฉํ์ ๊ฒฝ์ฐ๋ฅผ ๋ฐ์ํ identity๋ก ๊ฐ์ ํ๊ณ ์์์ ์ ๊ฐํ๋ฉด ์์ ๊ฐ์ ํํ๋ก ๋ํ๋๊ฒ ๋ฉ๋๋ค. ์ด ์์์์๋ถํฐ feature์ ์จ์ ํ ์ ๋ฌ์ด ์ด๋ฃจ์ด์ง๋ค๋ ๋๋์ ๊ฐํ๊ฒ ๋ฐ์ ์ ์์ต๋๋ค.
ํน์ layer์ feature๊ฐ ๊ธฐ์ฌํ๋ error ํญ๋ชฉ์ ๊ตฌํ๋ฉด ์์ ๊ฐ์ด ๋ํ๋ฉ๋๋ค. ์์์ feature๊ฐ์ ๊ด๊ณ๋ฅผ ๋ํ๋ธ forward propagation์์ ์ด์ฉํด ์ ๊ฐ๋ฅผ ํ ๊ฒฐ๊ณผ์
๋๋ค. ์ฌ๊ธฐ์ ์ฃผ๋ชฉํด์ผ ํ ๊ฒ์ ์์ ์ฒซ ๋ฒ์งธ ํญ์
๋๋ค. ์ด ๊ฐ์ layer์ ๊น์ด์ ๊ด๊ณ์์ด ์ผ์ ํ๊ฒ backpropagation์ ํตํด ์ ๋ฌ๋๋ ๊ฐ์
๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ต์ํ์ gradient๋ฅผ ๋ณด์ฅํด ์ค์ผ๋ก์จ feature์ ๋ํ error๋ฅผ ์ผ์ ์์ค์ผ๋ก ์ ์งํ ์ ์๊ณ , ์ด๋ฅผ ํตํด์ ๊ฐ weight๊ฐ total output์ ๊ธฐ์ฌํ๋ ์ ๋๋ ์ผ์ ์์ค ์ด์์ผ๋ก ์ ์งํ ์ ์๊ฒ ๋๋ ๊ฒ์
๋๋ค.(์ด ๋ถ๋ถ์ ๋ํ ์ดํด๊ฐ ์ ๋์ง ์๋๋ค๋ฉด backpropagation formula์ ๋ํด์ ๋ณด๊ณ ์ค์
๋ ์ข์ต๋๋ค)
Deeper Bottleneck Architecture
์ด๋ ๊ฒ ๊น์ ์ ๊ฒฝ๋ง์ ๊ตฌํํ๋ฉด ๋ณต์กํด์ง ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋งํผ ๋ง์ ์์ ์ฐ์ฐ์ด ํ์ํ๊ฒ ๋ฉ๋๋ค. GoogleNet์ ์ด๋ฌํ ์ ์ ์ด์ฉํด Inception v1์ด๋ผ๋ ๊ธฐ์ ์ ์ฌ์ฉํด ์ฐ์ฐ์ ์๋ฅผ ๋ํญ ์ค์ด๋ฉด์๋ ์ฑ๋ฅ์ ์ด๋์ ๋ ์ ์งํ๋ ๋ฐฉ์์ ์ ์ํฉ๋๋ค. ResNet์์๋ ์ด๋ฌํ ๊ตฌ์กฐ๋ฅผ ๋ฐ์ํ์ฌ ๊ธฐ์กด์ residual net block์ ์ ๋์ 1x1 convolutional layer๋ฅผ ๋ถ์ฌ์ feature์ depth๋ฅผ ์ค์ธ ํ ์ฐ์ฐ์ ๊ฑฐ์น๋ค์ ๋ค์ ๋๋ฆฌ๋ ํํ๋ฅผ ๊ตฌํํ์ต๋๋ค. (์ฐ์ฐ ํ์์ ๋ํ ๊ณ์ฐ ๋ด์ฉ์ ๋จ์ ์๋ตํ๊ฒ ์ต๋๋ค.)
Experiment 1 : ImageNet
CVPR์ ๊ฒ์ฌ๋ ๋
ผ๋ฌธ๋ต๊ฒ, ๋
ผ๋ฌธ์์๋ ๊ตฌํํ ๋คํธ์ํฌ์ ๋ํ ๋ค์ํ๊ณ ์ธ์ฌํ ์คํ๋ค์ ํตํด ์ ์ํ ๊ตฌ์กฐ๊ฐ ์ผ๋ฐ์ ์ผ๋ก ํจ์จ์ ๊ฐ์ ํ๋ ๊ฒ์ ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์จ๋ค๋ ๊ฒ์ ์ฆ๋ช
ํฉ๋๋ค.
๊ฐ์ฅ ๋จผ์ ๋
ผ๋ฌธ์์ ์ ์ํ ๊ฒ์ด ImageNet 2012 classificaiton dataset์ ์ด์ฉํด์ VGG-19 net์ ์ฐธ๊ณ ํ์ฌ 34-layer plain net๊ณผ 34-layer residual net์ ์ค๊ณํ์ฌ ๋น๊ตํ ์ฑ๋ฅ์
๋๋ค.
์ ๊ทธ๋ํ๋ iteration์ ๋ฐ๋ฅธ error๋ฅผ ๋ํ๋ธ ๊ทธ๋ํ์
๋๋ค. ๊ทธ๋ํ์์ ์์ ์ ์ด training error ์ด๊ณ , ๊ตต์ ์ ์ด validation error์
๋๋ค.
๋จผ์ ์ข์ธก ๊ทธ๋ํ์ ๊ฒฝ์ฐ PlainNet ๋ง์ ๋ํ๋ด๋๋ฐ, degradation problem์ด ๋ํ๋ ๊ฒ์ ํ์ธํ ์ ์์์ต๋๋ค. ๊ทธ๋ฐ๋ฐ, ๋
ผ๋ฌธ์์ ํ์ธํ ๋ฐ์ ๋ฐ๋ฅด๋ฉด ์ค์ ๋ก gradient ๊ฐ์ ํ์ธํด๋ณธ ๊ฒฐ๊ณผ gradient vanishing์ผ๋ก ๋ณผ ๋งํผ ์์ง ์์๊ธฐ ๋๋ฌธ์ gradient vanishig์ ์ํ degradation์ ์๋ ๊ฒ์ผ๋ก ๋ณด๊ณ ์์ต๋๋ค. ์ด๋ฌํ optimization difficulty ์ ๋ํด์๋ ์ถํ์ ์ฐ๊ตฌ๋ก ๋ฏธ๋ฃจ๊ณ ์์ต๋๋ค.
๋ค์์ผ๋ก ์ฐ์ธก ๊ทธ๋ํ์ ๊ฒฝ์ฐ ResNet์ ๋ํ๋ด๋๋ฐ, ๊น์ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ์์์ error๊ฐ ๋ ์๊ฒ ๋ํ๋ฌ๋ค๋ ์ฌ์ค์ ๋ณผ ์ ์์์ต๋๋ค.
Top 1 Error
Top 1 error์ ๊ด์ ์์๋ ResNet์ด PlainNet ๋ณด๋ค ๋ ์ข์ ํ์ตํจ๊ณผ๋ฅผ ๋ํ๋๋ค๋ ์ฌ์ค์ ์ ์ ์์ต๋๋ค. ์ด ๊ฒฐ๊ณผ๋ ๋ชจ๋ shortcut connection์ increasing dimension์ ๋ํด zero padding์ ์งํํ ๊ฒฐ๊ณผ์
๋๋ค. ์ด๋ฅผ ํตํด residual net์ ์ด์ฉํด degradation problem์ ํด๊ฒฐํ ๊ฒ์ผ๋ก ๋ณด๊ณ ์์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก 18 layer PlainNet๊ณผ 18 layer ResNet์ ๋ํด์๋ PlainNet๊ณผ ResNet ์ด ๋น์ทํ ์์ค์ error๋ก ์๋ ดํ์ง๋ง, ResNet์ด ์์ ์ ์ํ optimization(ํน์ ๊ฐ์ผ๋ก์ ํ์ต์ด ์๋๋ผ ์์ฐจ๋ฅผ 0์ผ๋ก ๋ณด๋ด๋)์ ์ฝ๊ฒ ํ์ฌ ํจ์ฌ ๋ ๋น ๋ฅด๊ฒ ์๋ ด์ง์ ์ ๋๋ฌํ๋ค๋ ์ฌ์ค์ ์ ์ ์์์ต๋๋ค.
Experiment 2: Dimension Increasing Option & Deeper Bottleneck Architecture
์์ ์ค๋ช
ํ Deeper Bottleneck Architecture๋ฅผ ์ด์ฉํด์ ๋
ผ๋ฌธ์์๋ ResNet-50, ResNet-101, ResNet-152๋ฑ์ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ๋ง๋ค์ด ํ๊ฐํฉ๋๋ค. ๋ํ dimension increasing(์์ ์ค๋ช
ํ W_s๋ฅผ ์ฌ์ฉํ dimension ๋ณํ๊ฐ ์กด์ฌํ ๊ฒฝ์ฐ์ ๋ฐฉ๋ฒ)์ ์ํ ๊ฒฝ์ฐ์ ์๋ก 3๊ฐ์ง ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ ๊ฐ๊ฐ์ ๊ฒฝ์ฐ์ ๋ํ ์ฑ๋ฅ์ ํ๊ฐํฉ๋๋ค.
Dimension increasing option & Deeper bottleneck architecture
3๊ฐ์ง ๋ฐฉ๋ฒ A, B, C ๋ ๊ฐ๊ฐ dimension increasing์ ์ํด zero padding์ ์ฌ์ฉํ๊ธฐ, dimension increasing์ด ํ์ํ ๊ฒฝ์ฐ์๋ง projection shortcut ์ฌ์ฉํ๊ธฐ, ๋ชจ๋ ๊ฒฝ์ฐ์ projection shortcut ์ฌ์ฉํ๊ธฐ ์์ต๋๋ค. ๊ฒฐ๊ณผ ์์ผ๋ก๋ C, B, A ์์๋ก ๋์ ์ฑ๋ฅ์ ๋ณด์์ง๋ง, ๋
ผ๋ฌธ์์๋ ํฐ ์ฐจ์ด๋ฅผ ๋ณด์ด์ง ์๋ ๊ฒ์ผ๋ก ๋ณด๊ณ ๋ชจ๋ธ์ ๋ณต์กํ๊ฒ ๋ง๋ค์ง ์๊ธฐ ์ํด์ C์ ๊ฒฝ์ฐ๋ ๋ฐฐ์ ํ๊ฒ ๋ฉ๋๋ค.
50-layer ResNet์ ๊ฒฝ์ฐ๋ ๊ธฐ์กด 34-layer์์ 2-layer block์ผ๋ก ๊ตฌํ๋ residual block์ ์ผ๋ถ 3-layer residual block์ผ๋ก ๋ฐ๊พธ์๊ณ , 101, 150 ๋ํ 50๋ณด๋ค ๋ ๋ง์ block์ ๋ฐ๊พธ์ด layer์๋ฅผ ๋๋ ธ์ต๋๋ค. ์ด ๊ฒฝ์ฐ๋ค ์ ๋ถ degradation problem์ ๊ด์ฐฐํ ์ ์์๊ณ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ ํ์ธํ ์ ์์์ต๋๋ค.
์ฌ๊ธฐ์ ์ง์ ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ ์ํ์ง ์๊ฒ ์ง๋ง, ๋
ผ๋ฌธ์์๋ ์ ๊ตฌ์กฐ๋ค์ ์กฐํฉํด์ ImageNet validation์ ์งํํ ๊ฒฐ๊ณผ ์ต์ข
์ ์ผ๋ก top 5 error 3.57%์ ๋ ๋์ ์ฑ๋ฅ์ ๊ตฌ์กฐ๋ฅผ ๋ง๋ค ์ ์์๋ค๊ณ ํฉ๋๋ค.
Experiment 3: CIFAR-10 dataset
๋ค์์ผ๋ก ๋
ผ๋ฌธ์์๋ ์๋นํ ์ ๋ช
ํ dataset์ธ CIFAR-10์ผ๋ก ๊ตฌ์กฐ๋ฅผ ํ๊ฐํฉ๋๋ค. 32x32์ pixel image input์ ๊ฐ์ง๊ณ ์๋์ ๊ฐ์ด 3x3 convolutional layer์ ๊ฐ์๋ฅผ ๋ถํฌํ์ฌ ๊ตฌ์กฐ๋ฅผ ์ค๊ณํฉ๋๋ค.
์ดํ ๋ง์ง๋ง์ 10-way fully connected layer๋ฅผ ๋์ ์ด 6n+2๊ฐ์ layer๋ฅผ ๊ฐ์ง ๊ตฌ์กฐ ์ฌ๋ฌ๊ฐ๋ฅผ ์ค๊ณํ๊ณ ์ฑ๋ฅ์ ๋ํ ํ๊ฐ๋ฅผ ์ค์ํฉ๋๋ค.
CIFAR-10 Evaluation
์ ์ layer์ ์๋ฅผ ๋๋ ค๊ฐ๋ฉด์ error๋ฅผ ์ธก์ ํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ ์ํ๋ ๋๋ก degradation problem์ ํด๊ฒฐํ์ฌ layer์ ์๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ์ error๊ฐ ๊ฐ์ํ์ต๋๋ค. ๋
ผ๋ฌธ์์๋ 1202๊ฐ์ layer์ ๋ํด์๋ ์คํ์ ํ๋๋ฐ, ์ด ๊ฒฝ์ฐ๋ overfitting์ ๋ฌธ์ ๋ก error๊ฐ ์ฆ๊ฐํ ๊ฒ์ผ๋ก ๋ณด๊ณ ์์ต๋๋ค.
PlainNet VS ResNet
๋ง์ฐฌ๊ฐ์ง๋ก, ์ด ๊ฒฐ๊ณผ๋ iteration์ ๋ฐ๋ฅธ error์ ๊ทธ๋ํ์์๋ ๊ด์ฐฐํ ์ ์์์ต๋๋ค. PlainNet์ layer๊ฐ ๋ง์ ์๋ก error๊ฐ ์ปธ์ง๋ง, ResNet์ layer๊ฐ ๋ง์ ์๋ก error๊ฐ ์์์ ๋ณด์์ต๋๋ค.
๋๋ถ์ด ๋
ผ๋ฌธ์์๋ batch normalization ์ดํ, ๊ทธ๋ฆฌ๊ณ activation์ด์ ์ ๊ฐ๋ค์ธ response์ ๋ํ ๊ทธ๋ํ๋ฅผ layer index์ ๋ํด ํํํ ๋ด์ฉ์ ์ ์ํ์ต๋๋ค.
์ ๊ทธ๋ฆผ์ ํตํด plain๋ณด๋ค๋ residual์ ์ฌ์ฉํ ๊ฒฝ์ฐ๊ฐ response๊ฐ ์์ ๊ฒ์ ํ์ธํ ์ ์์๊ณ , ์ด๋ ์ด๋ฏธ shortcut ํญ๋ชฉ์ ํฌํจํ residual์ ๊ฒฝ์ฐ๊ฐ optimal์ ํฅํด ๊ฐ๊ธฐ ์ํด ํ์ํ ๋ณํ๋์ด ์ผ๋ฐ์ ์ผ๋ก ์ ์ ๊ฒ์ด๋ผ๋ ์ค๊ณ์ ๋ง์๋จ์ด์ง๋ ๋ถ๋ถ์ธ ๊ฒ์ ํ์ธํ ์ ์์์ต๋๋ค.
Conclusion
์ด๊ฒ์ผ๋ก ๋
ผ๋ฌธย โDeep Residual Learning for Image Recognitionโ์ ๋ด์ฉ์ ๊ฐ๋จํ๊ฒ ์์ฝํด๋ณด์์ต๋๋ค. ํ์คํ, CVPR์ ์ค๋ฆฐ ๋
ผ๋ฌธ์ด์ด์ ์ค๊ฒ์ ํ๊ฐ ๋ ๋ถ๋ถ์ ์์ด์ ์์ธํ ๊ฒ์ฆ์ด ์ด๋ฃจ์ด์ ธ์์ธ์ง ์ฌ๋ฏธ์๊ฒ ์ฝ์ ์ ์์๋ ๊ฒ ๊ฐ์ต๋๋ค.
์ ์ด ๋
ผ๋ฌธ์ด ์ ๋ ๊ฒ ๋ง์ ์ธ์ฉ์๋ฅผ ๊ฐ์ง๊ณ , semantic segmentation์ ์์ด์ ์ค์ํ ๋
ผ๋ฌธ์ผ๋ก ํ๊ฐ๋ฐ๋์ง๋ฅผ ์ถฉ๋ถํ ์ ์ ์์๋ ๋
ผ๋ฌธ์ด์๊ณ , ์ด ๋ถ์ผ์ ๋ํ ํฅ๋ฏธ๋ฅผ ์ผ๊นจ์์ฃผ๋ ๋
ผ๋ฌธ์ด์๋ ๊ฒ ๊ฐ์ต๋๋ค.
์ฌ๊ธฐ์๋ ๋ค๋ฃจ์ง ์์์ง๋ง ๋
ผ๋ฌธ์ ๋ถ๋ก์์ย Object Detection on PASCAL and MS COCOย ๊ด๋ จํ์ฌ ์ถ๊ฐ์ ์ผ๋ก ํ๊ฐ๋ฅผ ์งํํ๋๋ฐ ๊ด์ฌ์๋ ๋ถ๋ค์ ํ ๋ฒ์ฏค ์ฝ์ด๋ณด์
๋ ์ข์ ๊ฒ ๊ฐ์ต๋๋ค.