๋ณธ ํฌ์คํธ๋ ์ ๊ฐ ํด๋จผ์ค์ผ์ดํ ๊ธฐ์ ๋ธ๋ก๊ทธ์ ๋จผ์ ์์ฑํ๊ณ ์ฎ๊ธด ํฌ์คํธ์
๋๋ค.
๋ณธ ํฌ์คํธ์์๋ Object Detection ์ด ํ์ํ ๋ ๋ง์ด ์ฐ์ด๋ ํด์ด๊ธฐ๋ํ, YOLO ์ ๋ํด์ ๋ฆฌ๋ทฐํ๋ ค๊ณ ํฉ๋๋ค. YOLO ์๋ ์ง๊ธ๊น์ง ์ด 4๊ฐ์ง ๋ฒ์ ์ด ์๋ ๊ฒ์ ํ์ธํ ์ ์๋๋ฐ์, ๊ทธ ์ค ์ ์ผ ์ฒ์ ๋ฑ์ฅํ yolov1 ์ด๋ผ๊ณ ๋ถ๋ฆฌ๋ ์น๊ตฌ๋ฅผ ์ดํด๋ณด๋ ค๊ณ ํฉ๋๋ค.
๋ฆฌ๋ทฐํ๋ ค๋ ๋
ผ๋ฌธ์ ์ ๋ชฉ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
โYou Only Look Once: Unified, Real-Time Object Detectionโ
Objective
๋
ผ๋ฌธ์ ๋ฐฐ๊ฒฝ์ ์กด์ฌํ๋ Object Detection System ์ ํ์ง ์๋๊ฐ ํ์ ํ ๋๋ ธ๋ ๊ฒ์์ ์์ํฉ๋๋ค.
์โฆ Objective Detection ์ ๋ ๋ญ๊น? ํ์๋ ๋ถ๋ค์ ์ํด ์ต์ํ๋ฉด์๋ ํฅ๋ฏธ๋ก์ด ์ฌ์ง ํ ๊ฐ์ง๋ฅผ ๋ณด์ฌ๋๋ฆฌ๊ณ ์์ํ๋ ค๊ณ ํฉ๋๋ค.
Object Detection
Object Detection ์ย ์ด๋ฏธ์ง๋ก๋ถํฐ ํน์ object ๋ฅผ ์ฐพ์์ฃผ๋ ๊ธฐ์ ์
๋๋ค. ์ ๊ทธ๋ฆผ์์๋ ๊ฐ, ์์ ๊ฑฐ, ์๋์ฐจ๋ฅผ ์ด๋ฏธ์ง ์์์ ์ฐพ์์ ๊ทธ๊ฒ๋ค์ ๊ฐ์ธ์ฃผ๋ ๊ฐ์ฅ ์์ bounding box ๋ฅผ ํ์ํด ์ค ๊ฒ์
๋๋ค. ๋น์ฐํ๊ฒ๋, ์ด๋ฏธ์ง์ ์ฐ์์ธ ๋์์์์๋ ์ ์ฉ ๊ฐ๋ฅํ ๊ธฐ์ ์
๋๋ค.
๊ทธ๋ฌ๋ฉด ์ด๋ฌํ ๊ธฐ์ ์ด ๊ธฐ์กด์ ๋๋ ธ๋ ์ด์ ๋ ๋ฌด์์ผ๊น์??
๋
ผ๋ฌธ์์๋ ๊ทธ ์ด์ ๋ฅผ ํฌ๊ฒ ๊ธฐ์กด์ Object Detection System ์ดย classifying ์ ์ฌ๊ตฌ์ฑํด์ ๊ตฌํํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋งํ๊ณ ์์ต๋๋ค.
๊ฐ์๊ธฐ classifying ์ด ์ ๋์????!!
๋ผ๊ณ ์๊ฐํ์๋ ๋ถ๋ค์ ์ํด์, ๊ฐ๋จํ ๋ถ์ฐ์ค๋ช
์ ๋๋ฆฌ์๋ฉด Object Detection ์ 1. ๋ฌผ์ฒด์ ์กด์ฌ ์ฌ๋ถ์ 2. ๊ทธ ๋ฌผ์ฒด๊ฐ ๋ฌด์์ธ์ง์ ํ๋จ ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. 2 ๋ฒ์ ๊ณผ์ ์ ์ํด์ย ๋จ๋
์ ์ธ classifying process ๊ฐ ์์๋ ๊ฒ์ด๋ผ๊ณ ๋ณด์๋ฉด ๋ฉ๋๋ค. ์ค๋นํ ๋ผ๋ฒจ๋ค ์ค ๊ฐ์ฅ ์ ํฉํ ์น๊ตฌ๋ฅผ ๋ฝ์๋ด๋ ๋ถ๋ฅ ๊ณผ์ ์ด ์์๋ ๊ฒ์ด์ฃ .
๋ค์ ๋ณธ๋ก ์ผ๋ก ๋์๊ฐ์, ๋
ผ๋ฌธ์์๋ ๊ธฐ์กด์ Object Detection System ์ ๋ ๊ฐ์ง ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๋ํ ์์๋ฅผ ๋ญ๋๋ค.
์ฒซ ๋ฒ์งธ ์์๋ก, DPM (Deformable Parts Model) ์ ๊ฒฝ์ฐ, sliding-window ๊ธฐ๋ฒ์ ํ์ฉํด์ ์ด๋ฏธ์ง์ ๋ค์ํ location ๊ณผ scale ์์์ classifying ์ ์งํํ์ต๋๋ค.
๋ ๋ฒ์งธ ์์๋ก, R-CNN ์ ๊ฒฝ์ฐ, region proposal methods ๋ฅผ ์ฌ์ฉํด ์ด๋ฏธ์ง ์์์ potential bounding box ๋ฅผ ์์ฑํ ์ดํ์ ์ด box ์์ classifying ์ ์งํํ์ต๋๋ค.
๋ ์์์์ ์ดํด๋ณผ ์ ์๋ ๊ณตํต์ ์ด์, ๋
ผ๋ฌธ์์ ์ ๊ธฐํ๋ ๋ฌธ์ ์ ์ classifying ์์ฒด๋ง์ผ๋ก๋ ํ์ต์ด ํ์ํ ์์์ธ๋ฐ, ์ด ๊ฒ์ ์ง์คํ๊ณ ์ ํ๋ ์์ญ์ sliding-window ๊ธฐ๋ฒ์ผ๋ก ๋ค์ํํ๋ฉด์ ๊ณ์ ํ์ธํ๋ ค๊ณ ํ๊ณ , ์ ๋ง์ bounding box ์ ๋ํด์ ์ ์ฉํ๋ ค๊ณ ํ๋ ๋น์ฐํ ๋๋ฆด ์ ๋ฐ์ ์์๋ ์ ์
๋๋ค.
YOLO ๋ ์ด๋ฌํ ๋ฌธ์ ์ ์ง๋ฉดํ์ฌ ํ ๊ฐ์ง ์์ด๋์ด๋ฅผ ์ ์ํฉ๋๋ค. Object Detection ๋ฌธ์ ๋ฅผ ์์ ๋งํ ๋ ๋จ๊ณ๊ฐ ์๋,ย single regression problem ์ผ๋ก ํด๊ฒฐํ ์๋ ์์๊น์ ๋ํด์ ๊ณ ๋ฏผํ ๊ฒ์
๋๋ค.
์ฌ์ค ์ธ๊ฐ์ด ์ด๋ฏธ์ง์์ ๋ฌผ์ฒด๋ฅผ ์ธ์ํ ๋ ๋ ๋จ๊ณ๋ฅผ ๊ฑฐ์น์ง ์์ฃ . ๋
ผ๋ฌธ์์๋ ์ด๋ฌํ ์ ์์ ๊ทธ๋ฅ ์ด๋ฏธ์ง๋ฅผ ๋ฑ ๋ณด๋ฉด ๊ทธ ์์ ๋ฌผ์ฒด๊ฐ ๋ฑ ๋์จ๋ค ๋ผ๋ ์๋ฏธ๋กย โYou Only Look Onceโย ์ YOLO ๋ก ๊ทธ๋ค์ ๋ฐฉ๋ฒ๋ก ์ ๋ช
๋ช
ํฉ๋๋ค.
Unified Detection
Unified Detection ์ด ๋
ผ๋ฌธ์์ ์ ์ํ ํ๋์ ํ๊ท ๋ฌธ์ ๋ก Object Detection ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋ฐฉ๋ฒ์
๋๋ค.
์ ๋ ์ด ๊ณผ์ ์ด ์๊ฐ๋ณด๋ค ๊ฐ๋จํด์ ๋๋์ต๋๋ค. (์ ๋ฌผ๋ก โฆ ๊ณผ์ ์ โ์ค๋ช
ํ๊ธฐ์๋ง" ๊ฐ๋จํ ๊ฒ์ด์ง ์ด๊ฑฐ ๋ผ๋ฒจ๋ง ํ๋ ค๋ฉด ์์ฒญ๋ ๊ฒ ๊ฐโฆ๊ธดํด์.) ๋ฑ 4๊ฐ์ง ํน์ฑ๋ค๋ก ์ค๋ช
๋๋ฆด ์ ์์ต๋๋ค.
์ฒซ ๋ฒ์งธ๋ก, input ์ด๋ฏธ์ง๋ย S x S Grid ๊ฒฉ์ ํํ๋ก ๋๋ฑํ๊ฒ ๋๋์ด ์ง๋๋ค.
๋ ๋ฒ์งธ๋ก, ํ๋์ Grid ๊ฒฉ์๋ย B ๊ฐ์ potential bounding box ๋ฅผ ๊ฐ์ง๋๋ค. ์ฌ๊ธฐ์ โ๊ฐ์ง๋คโ ๋ ํน์ ์ง์ฌ๊ฐํ bounding box ์ ์ค์ (์ง์ฌ๊ฐํ์ ์ค์์ด ์ด๋์ง๋ ๊ตณ์ด ์ค๋ช
ํ์ง ์์๊ฒ์.) ์ด ์ด๋ค Grid ์ ์ํ๋ฉด ๊ทธ Grid ๊ฐ bounding box ๋ฅผ ๊ฐ์ง๋ค๊ณ ํํํฉ๋๋ค. ๋
ผ๋ฌธ์์๋ responsible ์ด๋ผ๋ ํํ์ ์ฐ์ง๋ง ๋๋ฌด ์์ด์ ์ธ ํํ์ธ ๊ฒ ๊ฐ๋ค์.
์ธ ๋ฒ์งธ๋ก, ํ๋์ potential bounding box ๋ย x, y, w, h, c ์ 5 ๊ฐ์ง ์์๋ก ์ ์ํ ์ ์์ต๋๋ค.x, y ๋ potential bounding box ์ ์ค์์ ๋ํ๋ด๋ ์์์ด๊ณ , w, h ๋ potential bounding box ์ ๋๋น์ ๋์ด๋ฅผ ๋ํ๋ด๋ ์์์
๋๋ค. c ๋ potential box ๊ฐ object ๋ฅผ ํฌํจํ ๊ฐ๋ฅ์ฑ Pr(Object) ์ IOU (Intersection Over Union)์ ๊ณฑ ํํ๋ก ๋ํ๋ด์ง confidence ๋ผ๋ ์น๊ตฌ์
๋๋ค.
์, IOU ๊ฐ ๋ฌด์์ธ๊ฐ ํ๋ฉด,
์ ๊ทธ๋ฆผ๊ฐ์ ์น๊ตฌ์
๋๋ค. ์ด ๊ฒฝ์ฐ์ ๋์
์์ผ๋ณด์๋ฉด, ์ค์ ๋ฌผ์ฒด๊ฐ ์กด์ฌํ๋ ์์ญ์ X, potential bounding box ์์ญ์ Y ๋ผ ํ๋ฉด X ์ Y ์์ญ์ ๊ต์งํฉ ์์ญ์ ๋๋น๋ฅผ ํฉ์งํฉ ์์ญ์ ๋๋น๋ก ๋๋ ๊ฐ์
๋๋ค. ์ ์ฑ์ ์ผ๋ก๋ ๋ ์์ญ์ด ์ผ๋ง๋ ๋น์ทํ๊ฐ๋ฅผ ์ธก์ ํ๋ ์์์
๋๋ค.
์ ๋ฆฌํ์๋ฉด, confidence c ๋ ์์ ์์ผ๋ก ์ ์ํ ์ ์์ต๋๋ค.
๋ค ๋ฒ์งธ๋ก, ๊ฐ๊ฐ์ Grid ๋ย C ๊ฐ์ potential conditional probabilities Pr(Class_i | Object) ๋ฅผ ๊ฐ์ง๋๋ค. Object ๊ฐ ์กด์ฌํ ๋ ๊ทธ๊ฒ์ด ์ด๋ค Object ์ผ ํ๋ฅ ์ ๋ํ ์์์ธ ๊ฒ์ด์ฃ .
์, ์์์ ์ ๊ฐ ๋ง์๋๋ฆฐ ์์๋ค์ ๊ฐ์๋ฅผ ์ธ์ด๋ณผ๊น์?
S x S ์ Grid ๊ฐ ์๊ณ , ๊ฐ Grid ๋ B ๊ฐ์ potential bounding box ๋ฅผ ๊ฐ์ง๊ณ , ๊ฐ potential bounding box ๋ 5๊ฐ์ง ์์ x, y, w, h, c ๋ฅผ ๊ฐ์ง๊ณ , ๊ฐ Grid ๋ C ๊ฐ์ potential conditional probabilities ๋ฅผ ๊ฐ์ง๋๋ค.
S *S *(5*B+C) ๊ฐ์ ์์๋ฅผ ๊ฐ์ง๋ ๊ฒ์ ๊ณ์ฐํ ์ ์์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ด ์์๋ค์ย ground truth ์์ ๋น๊ต๋ฅผ ํตํด ํ์ต์ ์งํํด์ผ ํ๋ ์์๋ค์ด๊ธฐ ๋๋ฌธ์, ์ต์ข
์ ์ผ๋ก ์ฐ์ถ ๋์ด์ผ ํ๋ vector ์ ํํ์
๋๋ค. ๋ง์น N ๊ฐ์ Label ์ ๊ฐ์ง classifier ์์ softmax layer ๋ฅผ ๋ง์ง๋ง์ผ๋ก ๋์ด 1xN dimension vector ๋ฅผ ์ฐ์ถํ๋ ๊ฒ๊ณผ ๊ฐ์ ๋งฅ๋ฝ์
๋๋ค.
๊ฒฐ๊ตญ Unifed Detection ์์ ์ค๋ช
ํ๋ ค๊ณ ํ๋ ๊ฒ์ย input image ๋ก ๋ถํฐ bounding box ๋ค์ ์ฐพ์๋ด๊ธฐ ์ํด์ ์ธ๋ถ์ ์ผ๋ก ์ ์๋์ด์ผ ํ๋ ์์๋ค์ ๋ํด ์ ์ํ ๋ถ๋ถ์ด์๋ค๊ณ ๋ณด์๋ฉด ๋ฉ๋๋ค.
Network Design
๋
ผ๋ฌธ์์๋ ์ฌ์ฉํ ๋คํธ์ํฌ์ ๋ํด์ ๋ง์ ๋ถ๋ถ์ ํ ๋นํ์ง ์์์ต๋๋ค. ๊ทธ๋ ๊ทธ๋ด ๊ฒ์ด ๋
ผ๋ฌธ์ ์ฃผ์ ์ด์ ์ด Object Detection ์ single regression problem ์ผ๋ก ํด๊ฒฐํ ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์์, ์ด๋ฅผ ์ํ loss function ์ ์ฌ์ ์ ์ด๊ธฐ ๋๋ฌธ์
๋๋ค.
๋ณดํต ์ด๋ฐ ๋
ผ๋ฌธ๋ค์ ๋คํธ์ํฌ ์ ์ผ๋ก ์ ์๋ฏธํ ๋ณ๊ฒฝ์ ์ ์ฉํด ํจ์จ ๊ฐ์ ์ ์งํํ ResNet ๋ฑ๊ณผ๋ ์ฑ๊ฒฉ ์์ฒด๊ฐ ๋ค๋ฅด๊ธฐ๋ ํ์ง๋ง, ๊ทธ๋ผ์๋ ๊ธฐ์กด์ ๋คํธ์ํฌ์ ํน๋ณํ ์ฅ์น๋ฅผ ํ์ฌ ๋
ผ๋ฌธ์์ ์ด์ ์ ๋ง์ถ ๋ฌธ์ ํด๊ฒฐ์ ํนํ๋ ์ญํ ์ ๋ถ์ฌํ๋ฏ์ด ๊ฐ์กฐ๋ฅผ ํ ๋
ผ๋ฌธ๋ค์ ๋๋ฌธ๋๋ฌธ ์๋๋ฐ YOLO ๋ ๊ทธ๋ฐ ๊ฒ์กฐ์ฐจ ์ธ๊ธ์ด ์์ด์ ์์ฝ๊ธด ํ์ต๋๋ค.
GoogLeNet ์ ๊ธฐ๋ฐ์ผ๋ก ๋คํธ์ํฌ๋ฅผ ์ ์ํ๊ณ , 24 ๊ฐ์ convolution layers ์ 2 ๊ฐ์ fully connected layers ๋ฅผ ์ฌ์ฉํ๋ค๊ณ ํฉ๋๋ค. GoogLeNet ์์ ์ฌ์ฉํ inception module ๋์ ์ 1x1 reduction layers ์ 3x3 convolution layers ๋ฅผ ์ฌ์ฉํ๋ค๊ณ ๋ ํ๋๋ฐ ๊ทธ ์ด์ ์ ๋ํด์๋ ํฌ๊ฒ ์ธ๊ธ์ ํด์ฃผ์ง ์์ต๋๋ค.
์ฌ๋ฌ๋ถ๋ค๋ ๊ฐ๋จํ ๋ณด๊ณ ๋ง ๋์ด๊ฐ๋ฉด ์ข์ ๊ฒ ๊ฐ์ต๋๋ค.
Training
๋
ผ๋ฌธ์ Training ๋ถ๋ถ์ ์ค๋ช
์ด ์ดํด๋ ์ ๋๋๋ฐ ํ๋ฆ์ด ์์ต๋๋ค. ๋์ด์์ธ๋ฐ๋ ๋ถ๊ตฌํ๊ณ ๊ทธ ์ด์ ๊ฐ ์์ธํ ์ค๋ช
ํ ์๋์ด ์๋ ๋ถ๋ถ๋ค์ด ๋ง์ต๋๋ค. ๊ทธ๋์, ์ ๋๋ฆ๋๋ก ๊ทธ๋ฅ ํ ๋ฒ ๋ณด๊ณ ๋ง ๋์ด๊ฐ๋ฉด ์ข์ ์น๊ตฌ๋ค๊ณผ, ์์ธํ ์ดํด๋ณผ ์น๊ตฌ๋ค์ ๋๋์ด์ ์ค๋ช
๋๋ฆฌ๋ ค๊ณ ํฉ๋๋ค.
๋จผ์ ,ย ํ ๋ฒ ๋ณด๊ณ ๋ง ๋์ด๊ฐ ์์๋ค์
๋๋ค. ๋
ผ๋ฌธ์์ ์์ธํ ์ค๋ช
์ด๋ ์ด์ ๋ฅผ ์๋ ค์ฃผ์ง ์์์ ์์ฝ์ต๋๋ค๋ง, performance ์ ๋ถ๋ช
๋์์ด ๋์๊ธฐ์ ์งํํ์ ๊ฒ์ผ๋ก ๋ณด์
๋๋ค.
1.
๋
ผ๋ฌธ์์๋ ImageNet 1000-class competition dataset ์ผ๋ก pretrain ์ ์งํํ๋ค๊ณ ํฉ๋๋ค.
2.
Ren et al. ์์ pretrain model ์ convolutional layer ์ fully connected layer ๋ฅผ ์ถ๊ฐํ๋ฉด ์ฑ๋ฅ์ด ์ข์์ง๋ค๊ณ ํ ๋ถ๋ถ์ ์ฐฉ์ํ์ฌ ์งํํ๋ค๊ณ ํฉ๋๋ค.
3.
Bounding box ์ width ์ height ๋ฅผ normalize ํ๋ค๊ณ ํฉ๋๋ค. (์๋ง๋ ์๋ ด ์๋๋ฅผ ์ํด์๊ฒ ์ฃ โฆ?)
4.
๋ง์ง๋ง layer ์ leaky ReLU ๋ฅผ ์ค์นํ๋ค๊ณ ํฉ๋๋ค.
๋ค์์ผ๋ก,ย ์์ธํ ์ดํด ๋ณผ ์์๋ค์
๋๋ค. ์ด๋ค์ ๋ค์์ ์ค๋ช
ํ loss function ์ค๊ณ์ ์ํฅ์ ์ฃผ๊ฑฐ๋ ๋ฐฉ๋ฒ๋ก ์ ์ค์ํ ์ญํ ์ ํ๋ ์์๋ค์ด๊ธฐ ๋๋ฌธ์ ์์ธํ ์ดํด๋ณด๋ ค๊ณ ํฉ๋๋ค.
๊ทธ ์ ์ ๋จผ์ Object Detection ์์ ํ๊ฐ ์์๋ก ๋ง์ด ์ฌ์ฉ๋๋ mAP ์ ๋ํด์ ์์๋ณผ ํ์๊ฐ ์์ต๋๋ค. ์ด๋ฏธ ์๊ณ ๊ณ์๋ค๋ฉด ๊ทธ๋ฅ ๋์ด๊ฐ์
๋ ์ข์ต๋๋ค.mAP ์ ๋ํด์ ์๊ธฐ ์ํด์ AP ์ ๋ํด์ ์์์ผ ํ๊ณ , AP ์ ๋ํด์ ์๊ธฐ ์ํด์ precesion ๊ณผ recall ์ ๋ํด์ ์์์ผ ํฉ๋๋ค.๋ญ ์ด๋ ๊ฒ ์์์ผ ํ ๊ฒ ๋ง์!!!!! ๋ผ๊ณ ํ์ค ์ ์์ง๋ง ์๊ณ ๋ณด๋ฉด ์ด๋ ค์ด ๊ฐ๋
์ ์๋๋๋ค.ํ ๋ง๋๋ก ํํํ์๋ฉด, Precesion ์ ์ ํ๋์ด๊ณ Recall ์ ์ฌํ์จ์
๋๋ค.์ณ๊ณ ๊ทธ๋ฆ์ ํ๋จํ ์ ์๋ ์ด๋ค ์์
X ์ ๋ํด์ X ์ ๊ฒฐ๊ณผ๋ก๋ 4๊ฐ์ง๊ฐ ๋์ฌ ์ ์์ต๋๋ค.
1. ์ณ๋ค๊ณ ํ๋จํ๋๋ฐ ์ณ์ ๊ฒฝ์ฐ
2. ์ณ๋ค๊ณ ํ๋จํ๋๋ฐ ํ๋ฆฐ ๊ฒฝ์ฐ
3. ํ๋ฆฌ๋ค๊ณ ํ๋จํ๋๋ฐ ์ณ์ ๊ฒฝ์ฐ
4. ํ๋ฆฌ๋ค๊ณ ํ๋จํ๋๋ฐ ํ๋ฆฐ ๊ฒฝ์ฐ
๊ฐ๊ฐ์ ํ๋ฅ ์ ๋ผ ์นญํ๋ค๋ฉด,
Precesion ์ ๋ก ๊ณ์ฐํ ์ ์๊ณ ,
Recall ์ ๋ก ๊ณ์ฐํ ์ ์์ต๋๋ค.
๋ณด๋ฉด ๋ถ๋ชจ ๋ถ๋ถ๋ง ๋ค๋ฅด์ฃ ??
์ด๊ฒ ๋ ๊ธฐ์ค์ด ์ง์คํ๋ ๋ถ๋ถ์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์
๋๋ค. Precesion ์ ์ณ๋ค๊ณ ํ๋จํ ๊ฒ ์ค ์ค์ ์ณ์ ๊ฒ์ ๋น์จ์ด๋ฉฐ, Recall ์ ์ค์ ๋ก ์ณ์ ๊ฒ ์ค ์ณ๋ค๊ณ ํ๋จํ ๊ฒ์ ๋น์จ์
๋๋ค.
Precesion ์ด ๋๋ค๋ ๊ฒ์ ๊ฐ ์ ๋นํด ์์ ๊ฒฝ์ฐ์ด๊ณ ,
Recall ์ด ๋๋ค๋ ๊ฒ์ ๊ฐ ์ ๋นํด ์์ ๊ฒฝ์ฐ์
๋๋ค.
์ฆ, Precesion ๊ณผ Recall ๋ชจ๋๊ฐ ๋์ ๊ฒ์ ๊ทธ๋ฅ X ๊ฐ ํ๋ฆฐ ํ๋จ์ ํ์ ๊ฒฝ์ฐ๊ฐ ์ ์ ๋์ด๊ณ , ์๋ฒฝํ ํ๋จ์ ํ ๊ฒ์ ๊ฐ๊น์ ์ง๋๋ค. ๊ทธ๋ฆฌ๊ณ , ์๋ฒฝํ ํ๋จ์ ๊ฐ๊น๊ฒ ํ๊ธฐ ์ํด์ Precesion ๊ณผ Recall ๋ชจ๋๋ฅผ ๋์ด๋ฉด ๋๋ค๋ ์ฌ์ค๋ ๋ฐ๋๋ก ๋์ถํ ์ ์์ต๋๋ค. ๊ทธ๋ฐ๋ฐ, ์ ๋ชจ๋ ์์์ง๊ธธ ์ํ์ง๋ง... ์ค์ ๋ก๋ ๊ทธ๋ ๊ฒ ์๋ฒฝํ ํ๋จ์ด ์ฝ๊ฒ ๋์ค์ง ์์ต๋๋ค. ์ด๋ฌํ ๊ฒฝํฅ์ฑ ๋๋ฌธ์ ์ ๋ ์๋์น ์๊ฒ ํ๋๊ฐ ์ปค์ง๋ฉด ํ๋๊ฐ ์์์ง๋ ํ์์ด ๋ฐ์ํ๋๋ฐ,
๊ทธ๋ ๊ธฐ ๋๋ฌธ์ Precision - Recall Curve ๋ฅผ ๊ทธ๋ฆฌ๋ฉด ์์ ๊ฐ์ด ๊ฐ์ํ๋ ๊ทธ๋ํ ์์์ด ๋ง์ด ๋ํ๋ฉ๋๋ค. ์ฌ๊ธฐ์ AP ์ ๋ํ ๊ฐ๋
์ด ๋ฑ์ฅํฉ๋๋ค. AP ๋ Precesion, Recall ๋ชจ๋ ์ปค์ ์๋ฒฝํ ํ๋จ์ ํ๋ ๊ฒ์ด ์ข๊ฒ ํ๊ฐํ์๋ ์๋ฏธ์์ ์ ์๋ evaluation metric ์ผ๋ก Precision - Recall Curve ๋ก ๊ฐ์ธ์ ธ ์๋ ์์ญ์ ๋๋น๋ฅผ ์๋ฏธํฉ๋๋ค.mAP ๋ ์ฌ๊ธฐ์ ํ ๋จ๊ณ ๋ ๊ฐ์ mean ์ด๋ผ๋ ๋จ์ด๊ฐ ์ถ๊ฐ๋ evaluation metric ์
๋๋ค. ํ๋จ์ด ํ ๋ฒ์ด ์๋๋ผ ์ฌ๋ฌ ๋ฒ ๋ํ๋ ๋ mean ์ ๊ณ์ฐํด ์ฐ์ถํ๋ ์งํ์
๋๋ค. YOLO ์ ๊ฒฝ์ฐ์๋ "์๋์ฐจ๋ฅผ ๊ฒ์ถํ๋ ํ๋จ" ๋ง ์์ ๋ฟ๋ง์ด ์๋๋ผ, "์ธ๊ฐ์ ๊ฒ์ถํ๋ ํ๋จ" ๋ ์๋ฏ์ด label ์ ๋งํผ์ ํ๋จ์ด ์ด๋ฃจ์ด์ง๊ธฐ ๋๋ฌธ์ mAP ๋ฅผ ์งํ๋ก ์ฌ์ฉํ๋ ๊ฒ์
๋๋ค.์ค๋ช
์ด ๊ธธ์๋๋ฐ ์ผ๋ฅธ ๋ณธ๋ก ์ผ๋ก ๋์๊ฐ์๋ค..!!!
1.
๋
ผ๋ฌธ์์๋ย Sum-Squared Error ๋ฅผ ์ฌ์ฉํด loss ๋ฅผ ๊ณ์ฐํฉ๋๋ค.์ต์ ํ๊ฐ ์ฉ์ดํด์ ์ฌ์ฉํ๋ค๊ณ ํ๋๋ฐ, ๋
ผ๋ฌธ์์ Sum-Squared Error ๋ฅผ ์ฌ์ฉํ์ ๋ ์ง๋ฉดํ๋ ๋ฌธ์ ๊ฐ loss ์ ์ต์ ํ๊ฐ mAP ์ ์ฆ๊ฐ์ ์๋ฒฝํ๊ฒ align ๋์ง ์์๋ค๊ณ ํฉ๋๋ค.ํนํ x, y, w, h ์์ ์ฐ์ถ๋๋ localization error ์ c ์์ ์ฐ์ถ๋๋ classification error ๋ฅผ ๋์ผํ ๊ฐ์ค์น๋ก ๊ณ์ฐํ๋ค๋ณด๋ ๋ง์ ์ด๋ฏธ์ง์์ Grid ๊ฐ object ๋ฅผ ํฌํจํ์ง ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ฐ์ถํ๋ค๊ณ ํฉ๋๋ค.์ด๊ฒ ์ด๋ค ๊ฒฝ์ฐ์ ๋ฌธ์ ๊ฐ ๋๋ ํ๋ฉด, c ๋ฅผ 0์ผ๋ก ์ถ์ ํ๋๋ฐ ์ค์ ๋ก ๋ฌผ์ฒด๊ฐ ์กด์ฌํ๋ ๊ฒฝ์ฐ, ์ด ํฐ ์ฐจ์ด๊ฐ gradient ๋ฅผ ๊ต์ฅํ ํฌ๊ฒ ๋ง๋ค์๊ณ model ์ instability ๋ฅผ ๋ถ์ฌํ๋ค๊ณ ํฉ๋๋ค.์ด๋ฐ ํ์์ ํด๊ฒฐํ๊ธฐ ์ํด์ย bounding box coordinate ์ loss ๋ฅผ ๋๋ฆฌ๊ณ , object ๊ฐ ์กด์ฌํ์ง ์๋ ๊ฒฝ์ฐ์ confidence prediction ์ loss ๋ฅผ ์ค์ด๋ factor ๋ฅผ ๋์
ํ์ต๋๋ค.
2.
๋
ผ๋ฌธ์์ ์ฌ์ฉํ Sum-Squared Error ๋ large bounding box ์ small bounding box ๊ฐ loss ์ ๋ฏธ์น๋ ์ํฅ์ ๋์ผํ๊ฒ ๊ฐ์คํ์ต๋๋ค.์ด๊ฒ ์ ๋ฌธ์ ๊ฐ ๋๋ํ๋ฉด, IOU ๋ฅผ ๊ณ์ฐํจ์ ์์ด์ large bounding box ์ ๋ฏผ๊ฐ๋, ์ฆ deviation ์ด ์๊ธฐ ๋๋ฌธ์
๋๋ค.์ด๋ฐ ํ์์ ํด๊ฒฐํ๊ธฐ ์ํด์ w, h ์ scale ์ square root ๋ฅผ ์ฌ์ฉํด ์ ๋ฐ์ ์ผ๋ก ์ค์ฌ์ย large bounding box ์ small bounding box ์์์ deviation ์ฐจ์ด๋ฅผ ์ค์ด๋ ๋ฐฉ์์ ์ ํํ์ต๋๋ค.
3.
Obejct ๋น ํ๋์ bounding box ๋ฅผ ๊ฐ์ง๊ฒ ํ๊ธฐ ์ํด์ย NMS(Non-Maximum Suppresion) ์ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ ๋ง ๊ทธ๋๋ก maximum ์ด ์๋ confidence ๋ฅผ ๊ฐ์ง bounding box ๋ฅผ ์ต์ ํ๋ ๋ฐฉ๋ฒ์
๋๋ค.
๋
ผ๋ฌธ์์๋ ์ด๋ ๊ฒ ์ 1, 2 ๋ฒ์ ๊ณ ๋ คํด์ Sum-Squared Error ๋ก loss ๋ฅผ ์ค๊ณํ๊ณ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ ์์ ์ฌ์ค ๋ณต์กํด๋ณด์ด์ง๋ง, ๋งค์ฐ ๊ฐ๋จํฉ๋๋ค.
1_ij^obj (โฆ์ด ๊ธฐํธ ํํํ๋ ค๋ ์กฐ๊ธ ๊ทธ๋ ๋ค์.) ๋ i ๋ฒ์งธ Grid ์ j ๋ฒ์งธ bounding box predictor ์ object ๊ฐ ์กด์ฌํ๋์ง์ ์ฌ๋ถ์
๋๋ค.๋ i ๋ฒ์งธ Grid ์ object ๊ฐ ์กด์ฌํ๋์ง์ ์ฌ๋ถ์
๋๋ค.
์ด๋ ๊ฒ ์๊ฐํ๋ฉด,
์ฒซ ๋ฒ์งธ ์ค ์์์ bounding box ์ ์ค์ฌ์ ์ ๋ํ loss ํญ๋ชฉ์์,๋ ๋ฒ์งธ ์ค ์์์ bounding box ์ dimension ์ ๋ํ loss ํญ๋ชฉ์์,์ธ ๋ฒ์งธ ์ค ์์์ bounding box predictor ๋ด ๋ฌผ์ฒด๊ฐ ์กด์ฌํ๋ ๊ฒฝ์ฐ์ confidence ์ ๋ํ loss ํญ๋ชฉ์์,๋ค ๋ฒ์งธ ์ค ์์์ bounding box predictor ๋ด ๋ฌผ์ฒด๊ฐ ์กด์ฌํ์ง ์๋ ๊ฒฝ์ฐ์ confidence ์ ๋ํ loss ํญ๋ชฉ์์,๋ง์ง๋ง ์ค ์์์ classification loss ํญ๋ชฉ์์ ์ ์ ์์ต๋๋ค.
1๋ฒ์ lambda ํญ๋ชฉ์ผ๋ก, ์ฒซ ๋ฒ์งธ, ๋ ๋ฒ์งธ, ๋ค ๋ฒ์งธ ์์์์ ์ ์ฉ๋์๊ณ , 2๋ฒ์ square-root dimension ํญ๋ชฉ์ผ๋ก ๋ ๋ฒ์งธ ์์์์ ์ ์ฉ๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, Training ๋ถ๋ถ์์๋ย loss function ์ ์ค๊ณ์ ๊ทธ ๊ณผ์ ์์ ํธ๋ค๋งํ ๋ถ๋ถ๋ค์ ์ค์ ์ ์ผ๋ก ์ค๋ช
ํ๋ ค๊ณ ํ๋ค๊ณ ๋ณด์๋ฉด ๋ฉ๋๋ค.
Comparison to Other Detection Systems
๋
ผ๋ฌธ์์๋ ๋ค๋ฅธ Detection System ๊ณผ YOLO ๋ฅผ ๋น๊ตํฉ๋๋ค.
๋จผ์ , ๋ด์ฉ์ ์๋ ค๋๋ฆฌ๊ธฐ ์ ์!!
์ ์๊ฐ์๋ ๋
ผ๋ฌธ์์ ์ค๋ช
ํ๋ ค๊ณ ํ๋ ๋ฐ๋ ๋ถ๋ช
ํ ๋ช ๊ฐ์ง๋ก ์ถ๋ ค์ ธ ์๋๋ฐ, ์ด ๊ฒ์ ๊ฐ๋ณ์ ์ผ๋ก ๋น๊ตํ๋ค ๋ณด๋ ๋ถํ์ํ๊ฒ ๊ธธ์ด์ง ์ ์ด ์๋ ๊ฒ ๊ฐ์์ ์ด ๋ถ๋ถ์ ์๋ตํ์
๋ YOLO ๋ฅผ ์ดํดํ๋๋ฐ๋ ํฌ๊ฒ ๋ฌธ์ ๊ฐ ์๋ค๊ณ ์๊ฐ์ด ๋ญ๋๋ค. ์ ๋ ๋น์ทํ ์๊ฐ์ด์๋ค๋ฉด ๋ค์ ํญ๋ชฉย Experimentsย ๋ก ์ด๋ํด๋ ๋ฌด๋ฐฉํ ๊ฒ ๊ฐ์ต๋๋ค.
์๋๋ ๊ฐ๊ฐ์ Detection System ๊ณผ์ ๋น๊ต์
๋๋ค.
1.
DPM (Deformable Ports Model)DPM ์ static feature ์ถ์ถ, classify region. bounding box prediction ๋ฑ์ ์์
์ดย ๋ถ๋ฆฌ๋ pipelineย ์ ๊ฐ์ง๋๋ค.ํ์ง๋ง, YOLO ๋ feature extraction, bounding box prediction, non-maximal suppression, contextual reasoningย ๋ชจ๋ ๋์์ ๊ฐ๋ฅํ์ฌ ๋น ๋ฅด๊ณ ์ ํํฉ๋๋ค.
2.
R-CNNR-CNN ์์ ์งํํ๋ pipeline ์ ์๋นํ ๋ณต์กํฉ๋๋ค. DPM ์์ ์ฌ์ฉํ sliding-window ๋์ ์ region proposal ์ ์ฌ์ฉํฉ๋๋ค.์ธ๋ถ์ ์ผ๋ก๋, selective search ๋ก potential bounding box ๋ค์ ์ฐพ๊ณ , convolutional network ๊ฐ feature ๋ฅผ extract ํ๊ณ , SVM ์ด box ๋ค์ scoring ํ๊ณ , linear model ์ด bounding box ๋ฅผ ์กฐ์ ํ๊ณ , non-maximal suppression ์ด duplicate detection ์ ์ ๊ฑฐํฉ๋๋ค. ์ด๋ฌํ ๊ณผ์ ๋ค์ ๊ฐ๊ฐ ๊ฐ๋ณ์ ์ผ๋ก tuning ๋์ด์ผ ํ๊ณ ํ์ต์ด ๋๋ฆฝ๋๋ค.ํ์ง๋ง, YOLO ๋ ์ด๋ฌํ individual components ๋ฅผ ํ๋์ ๋ชจ๋ธ๋ก optimize ํ ์ ์์ด์ ๋ ๋น ๋ฆ
๋๋ค.
3.
Other Fast DetectorsFast R-CNN, Faster R-CNN ์ sharing computation ๊ณผ selective search ๋์ neural network ๋ฅผ ์ฌ์ฉํด R-CNN ์ ์๋๋ฅผ ๊ฐ์ ํฉ๋๋ค. ํ์ง๋ง ๊ทธ๋ผ์๋ real-time performance ๋ถ์กฑํ์ต๋๋ค. ๊ฐ์ ๋งฅ๋ฝ์ผ๋ก ๋ง์ ์ฐ๊ตฌ๊ฐ DPM pipeline ์ speed-up ํ๋๋ฐ ์ด์ ์ ๋ง์ถ์์ง๋ง 30Hz ๊น์ง๋ง ์ง์ํ๋ ๋ฑ ๋ถ์กฑํ ์ ์ด ์กด์ฌํ์ต๋๋ค.YOLO ๋ ๊ทธ ๋ฐฉ๋ฒ๋ก ์ ๋ํ ๋์์ธ ์์ฒด๊ฐ ๋น ๋ฅด๊ธฐ ๋๋ฌธ์ real-time performance ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์
๋๋ค.
4.
Deep MultiBoxR-CNN ๊ณผ ๋ฌ๋ฆฌ multibox ๋ selective search ๋์ convolutional neural network ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ํ์ง๋ง single object detection ์ ๊ฐ๋ฅํ์ง๋ง multiple object detection ์ ๊ตฌํํ์ง๋ ๋ชปํ์ต๋๋ค.YOLO ๋ classification probabilities ๋ฅผ ๋์ด multiple object detection ์ด ๊ฐ๋ฅํฉ๋๋ค.
5.
OverFeatOverFeat ์ ์์ ๋ฑ์ฅํ๋ R-CNN ๊ณผ DPM ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก disjoint ํ system ์ ๊ฐ์ง๊ณ ์๋ ๋ฌธ์ ๋ฅผ ํฌํจํด์ prediction ์ ๋ด๋ฆด ๋ local information ๋ง์ ๋ณด์ prediction ์ global context ๋ฐ์ํ๊ธฐ ์ด๋ ค์ ์ต๋๋ค. ๋ํ ์ผ๊ด๋ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋ ค๋ฉด significant ํ post-processing ์ด ํ์ํ ์ ๋ ๋จ์ ์
๋๋ค.YOLO ๋ local ํ patch ์ ๋ํ classifying ์ด ์๋ ํ ๋ฒ์ ๋ชจ๋ธ ํ์ต์ผ๋ก ์ด๋ฃจ์ด์ง๊ธฐ ๋๋ฌธ์ global context ๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ ์ ์์ต๋๋ค.
6.
MultiGraspYOLO ์ grid approach ์ ๊ธฐ์์ธ MultiGrasp ๋ ํ๋์ object ๋ฅผ ํฌํจํ ์ด๋ฏธ์ง์์ graspable region ์ ์์ธกํด๋ด๋ ๋น๊ต์ ๊ฐ๋จํ ์์
์ ์ฌ์ฉ๋ฉ๋๋ค.YOLI ๋ ์ด๋ฐ MultiGrasp ์ ๊ธฐ๋ฐํ์ฌ ์ด๋ฏธ์ง ์ ๋ค์ค ๋ผ๋ฒจ์ ๋ค์ค ๋ฌผ์ฒด์ bounding box ์ classification probabilities ๋ฅผ ์ฐพ์๋ธ๋ค๋ ์ ์์ ๋์ฑ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ต๋๋ค.
ํดโฆ ์๋นํ ๊ธธ์์ง๋ง, ์์ฝํ์๋ฉด ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฆฌํ ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค.
1.
YOLO๋ Object Identify + Obejct Labeling ์ ๋ ๋ฒ์ ๊ณผ์ ์ ํ๋๋ก ์ค์ฌ ์๋๊ฐ ๋น ๋ฆ
๋๋ค.
2.
Locally information ์ ๋ฐํ์ผ๋ก object ๋ฅผ labeling ํ๋ ๊ฒ์ด ์๋ ๊ตฌํ๋ loss function ์ ๋ฐ๋ฅธ ๋ชจ๋ธ ํ์ต์ผ๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ๋๋ฌธ์ global contexture ๋ฅผ ๋ฐ์ํ ์ ์์ต๋๋ค.
3.
YOLO ๋ multi-label multi-object detection ์ ์ฑ๊ณต์ ์ผ๋ก ์งํํ ์ ์์ต๋๋ค.
4.
YOLO ๋ ๋์์ ํ๋ซํผ ๋ฑ์ real-time ๋งค์ฒด์์์ object detection ์์๋ ๋ฌด๋ฆฌ ์์ด ํด์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
๋ ์์ฝํ์ฌ ํ ๋ฌธ์ฅ์ผ๋ก ์ ๋ฆฌํ์๋ฉด,
YOLO ๋ ๊ธฐ์กด classifying ์ ์ฌ๊ตฌ์ฑํ ๋ฐฉ๋ฒ๋ค๊ณผ๋ ๋ฌ๋ฆฌ ํ ๋ฒ์ ๊ณผ์ ์ผ๋ก object detection ์ global texture ๋ฅผ ๋ฐ์ํ๋ฉด์ ์งํํ์ฌ ์ผ๋ฐ์ ์ธ ํ์ง์์ ์๋๊ฐ ๋น ๋ฆ๊ณผ ๋์์ ๋์์์์๋ ๋์ ์ฃผ์ฌ์จ๋ก ์ฌ์ฉํ ์ ์๋ ๊ฐ์ฒด ํ์ง ๊ธฐ์ ๋ก ์ ์ํ ์ ์๊ฒ ์ต๋๋ค.
Experiments
๋
ผ๋ฌธ์์๋ YOLO ์ ๋ํ ํ๊ฐ๋ฅผ ์ํด ์คํ์ ์งํํฉ๋๋ค.
PASCAL VOC 2007 DataSet ์ผ๋ก Real-Time Detectors, Less Than Real-Time์ ๋น๊ตํ ๊ฒ์ด ์ ํ์
๋๋ค.
๋จผ์ Less Than Real-Time ์ ๋ด
์๋ค. mAP ๊ฐ ๊ฐ์ฅ ์ข์ ๊ฒ์ Faster R-CNN ๊ณ์ด์ด์ง๋ง, ์ด ๋ค์ FPS ๊ฐ ๋๋ฌด ๋ฎ์์ Real-Time Detectors ๋ก ์ ํฉํ์ง ์์ต๋๋ค. ์ด๋ฅผ ์ ์ธํ๊ณ ๋ mAP ๊ฐ ๊ฐ์ฅ ๋์ ๊ฒ์ด YOLO ๊ณ์ด ์
๋๋ค.
๋ค์์ผ๋ก Real-Time Detectors ๋ฅผ ๋ด
์๋ค. mAP ๊ฐ ๋์ ๊ฒ, ๊ทธ๋ฆฌ๊ณ FPS ๊ฐ ๋์ ๊ฒ ๋ชจ๋ YOLO ๊ณ์ด ์์ ์ ์ ์์ต๋๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก, PASCAL VOC 2007 DataSet ์ผ๋ก Fast R-CNN ๊ณผ YOLO ์ error ๋ฅผ ๋ถ์ํ ๊ฒ์ด ์ ํ์
๋๋ค.
Correct ๋ ์ ํํ class ๋ก ์์ธกํ๊ณ IOU ๊ฐ 0.5 ๋ณด๋ค ํฐ ๊ฒฝ์ฐ์ด๊ณ ,Localization ์ ์ ํํ class ๋ก ์์ธกํ๊ณ IOU ๊ฐ 0.1๊ณผ 0.5 ์ฌ์ด์ธ ๊ฒฝ์ฐ์ด๊ณ ,Similar ๋ ์ ์ฌํ class ๋ก ์์ธกํ๊ณ IOU ๊ฐ 0.1 ๋ณด๋ค ํฐ ๊ฒฝ์ฐ์ด๊ณ ,Other ๋ ํ๋ฆฐ class ๋ก ์์ธกํ๊ณ IOU ๊ฐ 0.1 ๋ณด๋ค ํฐ ๊ฒฝ์ฐ์ด๊ณ ,Background ๋ class ์ ๊ด๊ณ ์์ด IOU ๊ฐ 0.1๋ณด๋ค ์์ ๊ฒฝ์ฐ์
๋๋ค.
YOLO ๋ Localization error ๊ฐ ํฌ์ง๋ง, Fast R-CNN ์ Background error ๊ฐ ํฝ๋๋ค. ๊ทธ๋ฆฌ๊ณ correct ๋ R-CNN ์ด ์กฐ๊ธ ๋ ์ฐ์ธํฉ๋๋ค. ์จ์ ํ ์ ๋ต๋ง ๋ฐ์ง๋ฉด R-CNN ์ด ๋์ฑ ์ข์ detector ์ด์ง๋ง, ์ ์ฒด์ ์ผ๋ก ๋ณด์์ ๋๋ YOLO ๋ฅผ ๋๊ฒ ํ๊ฐํ ์๋ ์์ต๋๋ค. ์ ์ฒด์ ์ผ๋ก accuracy ๊ฐ ๊ธฐ์กด์ ๋นํด์ ํฌ๊ฒ ๋จ์ด์ง๋ detector ๋ ์๋๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
YOLO ์ background error ๊ฐ ์๋ค๋ ์ ์์ ์ฐฉ์ํด Fast R-CNN ๊ณผ YOLO ๋ฅผ ํฉ์ณค์ ๋๋ mAP ๋ณํ๋ฅผ ์ธก์ ํฉ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ Fast R-CNN ๋ณด๋ค 3.2% ๊ฐ ์ข์ 75.0% ์ mAP ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ค๋ง, YOLO ํผ์ ๋๋ฆฌ๋ ๊ฒ๋ณด๋ค๋ ํจ์ฌ ๋๋ฆฐ๋ฐ, ๊ทธ๊ฒ๊ณผ ๊ด๊ณ ์์ด YOLO ์์ฒด๊ฐ ๊ต์ฅํ ๋นจ๋ผ์ Fast R-CNN ํผ์ ๋๋ฆฌ๋ ๊ฒ์์ ํฐ ๋ณํ๋ ์๋ค๊ณ ํฉ๋๋ค.
PASCAL VOC 2012 Dataset ์์ YOLO ๋ 57.9% ์ mAP ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ R-CNN + VGG ์ ๋น์ทํ ์์น๋ฅผ ๋ณด์์ต๋๋ค. ๊ทธ๋ฐ๋ฐ ๋น์ทํ ํ๊ท ์์น๋ฅผ ๊ฐ์ง detector ์ ๋น๊ตํ์ฌ YOLO ๋ ์์ ๋ฌผ์ฒด์์ ํ์ง์ ์ด๋ ค์์ ๊ฒช๋ ๋ชจ์ต๋ค์ ๋ณด์์ต๋๋ค. Bottle ๊ฐ์ ์นดํ
๊ณ ๋ฆฌ์ ์ ์๋ฅผ ๋ณด์๋ฉด ์ ์ ์์ต๋๋ค.๋๋ถ์ด ์ด ๊ฒฐ๊ณผ๋ฅผ ํตํด Fast R-CNN + YOLO ๋ mAP ๊ด์ ์์ ๊ฐ์ฅ ์ข์ detector ์ค ํ๋๋ก ๋ณผ ์ ์์์ต๋๋ค.
Detector ์ Generalizability ๋ฅผ ์ธก์ ํ๊ธฐ ์ํด ๋
ผ๋ฌธ์์๋ VOC 2007 Person Datasets ์ ๋ฐํ์ผ๋ก ํ์ตํ detector ์ Picasso ์ ๊ทธ๋ฆผ, ์์ ๊ทธ๋ฆผ์ ๋ฃ์ด AP ๋ฅผ ํ
์คํธํฉ๋๋ค.R-CNN ์ ๊ฒฝ์ฐ VOC 2007 Person detection ์์๋ ๋์ AP ๋ฅผ ๋ณด์์ง๋ง Picasso ์ ์์ ๊ทธ๋ฆผ์์๋ ํ์ ํ๊ฒ ๋ฎ์์ง AP ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.DPM ์ Picasso ๋ ์์ ๊ทธ๋ฆผ์์์ AP ์ ํ๊ฐ ํฌ์ง ์์์ง๋ง VOC 2007 Person ์ ๋ํ AP ๋ ๋์ ํธ์ ์๋์์ต๋๋ค.
๋๋ถ์ด, ๋
ผ๋ฌธ์์๋ YOLO ์ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง ๋ฅ๋ ฅ์ ๋ณด์ฌ ์ฃผ๊ธฐ ์ํด ์ฌ์ง์ ์ฒจ๋ถํ์ต๋๋ค.
Conclusion
์ด๊ฒ์ผ๋ก ๋
ผ๋ฌธย โYou Only Look Once: Unified, Real-Time Object Detectionโย ์ ๋ด์ฉ์ ๊ฐ๋จํ๊ฒ ์์ฝํด๋ณด์์ต๋๋ค.
๋
ผ๋ฌธ์ด ์๊ฐ๋ณด๋ค ๋ด์ฉ์ด ๊ต์ฅํ ์ฌ์์ ์ ์ฝํ๋๊ฒ ๊ธฐ์ต์ ๊ฐ์ฅ ๋จ๋ ์ ์ธ ๊ฒ ๊ฐ์ต๋๋ค. ๋๋ถ์ด ์ฝ๊ฑฐ๋ ์ ์ ๋ณธ๋ก ๋ด์ฉ์ ๋นํด์ ๊ธฐ์กด ๊ธฐ์ ๋ค๊ณผ์ ์ฐจ๋ณ์ ๋์ด์์ ํต์ฌ์ ๋ช ๊ฐ์ง๋ก ์ ํด์ ธ ์๋๋ฐ ์ค๋ช
๋ง ์ฅํฉํ ๋๋์ด๋ผ ์์ฌ์ ์ต๋๋ค.(์๋ง๋ ๋
ผ๋ฌธ ํต๊ณผ๋ฅผ ์ํด์๊ฒ ์ฃ ..?)
Object Detection ์ย ๊ณ๋ณด(?)ย ๊ฐ์ ์น๊ตฌ๊ฐ ์ ๋ฆฌ๋์ด ์์ด์ ๋ฌด์์ ์ฝ์ด๋ณผ๊น ๊ณ ๋ฏผํ๋ค๊ฐ ๋ง์ด ๋ค์ด๋ณธ ์น๊ตฌ์ธ YOLO ๋ฅผ ์ฝ์๋๋ฐ ๋๋ฆ ์ ์ฝ์๋ค๊ณ ์๊ฐ์ด ๋ค์์ต๋๋ค. ์ฌ์ค ์ ๋ yolov4 ๋ฅผ ์ด์ด๋ณด์๋๋ฐ, yolo ์๋ฆฌ์ฆ์ ์ ์๊ฐ ๋ฐ๋๊ธฐ๋ ํ๊ณ , performance ๊ฐ์ ์ ๊ทนํ์ ๋ณด์ฌ์ฃผ๋ ๋๋์ด์ด์ ์ข ๋ ์๋ก ์ ์ธ ์น๊ตฌ๋ฅผ ์ฐพ์์ ์ฝ์ผ๋ ค๊ณ ํ์์ต๋๋ค. ์์ฒญ ๋๋จํ ์น๊ตฌ๋ผ๊ณ ํ๋๋ฐ Objective Detection ์ ๋ํด์ ์กฐ๊ธ ๋ ๊ด์ฌ์ด ์๊ธฐ๋ฉด ๋ค์ ์ด์ด๋ณด๋ ค๊ณ ํฉ๋๋ค. ์ฌ๋ฌ๋ถ๋ค๋ Objective Detection ์ ๊ด์ฌ์ด ์๋ค๋ฉด ์ ๊ณ๋ณด ์ฌ์ดํธ์์ ํ๋ํ๋์ฉ ์ ๋ณตํด๋๊ฐ์๋ ๊ฒ๋ ์ข์ ๊ฒ ๊ฐ์ต๋๋ค.