๋ณธ ํฌ์คํธ๋ ์ ๊ฐ ํด๋จผ์ค์ผ์ดํ ๊ธฐ์ ๋ธ๋ก๊ทธ์ ๋จผ์ ์์ฑํ๊ณ ์ฎ๊ธด ํฌ์คํธ์
๋๋ค.
๋ณธ ํฌ์คํธ์์๋ ๋ฅ๋ฌ๋์ผ๋ก ํฌ๊ท ์ ์ ์ฑ ์งํ์ ์ง๋จํ๋ค๋ ๋ด์ฉ์ ๋
ผ๋ฌธ์ ๋ํด์ ๋ฆฌ๋ทฐํ๋ ค๊ณ ํฉ๋๋ค. ๋
ผ๋ฌธ์ ์ ๋ชฉ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค
โDeepGestalt-Identifying Rare Genetic Syndromes Using Deep Learningโ
DeepGestalt: High level flow
Objective
๋
ผ๋ฌธ์์ ๋ชฉ์ ์ผ๋ก ํ๋ ๋ฐ๋ ํ์์ ์ผ๊ตด ์ฌ์ง์ ์ด์ฉํด ๊ทธ ํ์์ ํฌ๊ท ์งํ์ ์์ธกํด๋ด๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๊ตฌํํ๋ ๊ฒ์
๋๋ค.
๋
ผ๋ฌธ์์ ์ธ์ฉํ ์๋ฃ์ ๋ฐ๋ฅด๋ฉด ๋ง์ ์ ์ ์ฑ ์งํ๋ค์ดย ์ผ๊ตด๋ก ํํ๋๋ ํํํ(facial phenotype)์ ๊ฐ์ง๊ธฐ์ ๊ฐ๋ฅํ ๋ฐฉ๋ฒ์ด๋ฉฐ, ์ผ๊ตด ์ฌ์ง์ ์ ์ ํ์๋ค์ด ์ ์ ๋ณ์ ์ง๋จํ๋๋ฐ ์ค์ ๋ก ๋์์ ์ฃผ๊ณ ์๋ ๋ฐ์ดํฐ๋ผ๊ณ ํฉ๋๋ค.
์ด๋ฌํ ๊ธฐ๋ฐ๊ณผ ๋ชฉ์ ์ฑ์ ๊ฐ์ง๊ณ ๋
ผ๋ฌธ์์ ๊ตฌ์ฒด์ ์ผ๋ก ๊ตฌํํ๊ณ ์ ํ๋ blackbox model์ ํ์์ ์ผ๊ตด ์ฌ์ง x๋ฅผ input์ผ๋ก ๋ฃ์ด similarity score(๋
ผ๋ฌธ์์๋ ์ด๋ฅผ Gestalt score๋ผ๊ณ ์ ์ํฉ๋๋ค)๊ฐ ํฌํจ๋ ์ ์ ์ฑ ์งํ์ sorted list๋ฅผ output์ผ๋ก ์ฐ์ถํ๋ ํจ์ f(x)์
๋๋ค.
Methods
Image preprocessing
๊ฐ์ฅ ์ฒซ ๋จ๊ณ๋ image preprocessing ๋จ๊ณ์
๋๋ค. Image processing ๋จ๊ณ์์ ์ค์์ํ๊ฒ ์๊ฐํ ๊ฒ์ input image ๋ค์ alignment์
๋๋ค.
๊ทธ ์ค ๋จ์ฐ ์ฒซ ๋จ๊ณ๋ย ๋ ๊ฒ์ ์ด๋ฏธ์ง๋ก๋ถํฐ ์ผ๊ตด์ ์ธ์ํด๋ด๋ ๋จ๊ณ์
๋๋ค. ํ์ค ์ธ๊ณ ์ ์กฐ์๋์ง ์์ ์ด๋ฏธ์ง๋ฅผ input ์ผ๋ก ๋ฐ์ ์ ์๊ธฐ ์ํด์ ํ์ํ ๋จ๊ณ์
๋๋ค. ๋
ผ๋ฌธ์์๋ โA convolutional neural network cascade for face detectionโ ์์ ๊ตฌํํ Deep Convolutional Neural Network(DCNN) ์ด์ด๋ถ์ธ ๋ชจ๋ธ์ ์ผ๊ตด ์ธ์์ ์ด์ฉํ์ต๋๋ค.
Test pipeline of facial detector [์ถ์ฒ: A convolutional neural network cascade for face detection]
๋ค์ ๋จ๊ณ๋ย ์ ๋ฉ๋๋ก์ธ ๊ฐ๊ฐ์ ์ด๋ฏธ์ง๋ค์ alignํ๋ ๋จ๊ณ์
๋๋ค. ์ด ๊ณผ์ ์ ์ดํ ์ฌ์ฉ๋ image combine์ ๋น๋กฏํด input image์ fomat์ ํต์ผํ์ฌ ์ข
์ ํ์ตํจ๊ณผ๋ฅผ ๊ฐ์ ธ์ค๊ธฐ ์ํ ๋จ๊ณ์
๋๋ค. ๋
ผ๋ฌธ์์๋ 130๊ฐ์ ์ผ๊ตด ์ ํน์ง์ ์ธ ์ง์ (facial landmarks)๋ฅผ ์ฐพ์๋ด์ด ์ด๋ฅผ ์ด์ฉํด alignment๋ฅผ ์งํํ๋ค๊ณ ํฉ๋๋ค. Alignment๋ฅผ ํตํ ์ฑ๋ฅ ๊ฐ์ ์ ๋
ผ๋ฌธ โLearning to Align from Scratchโ์์ ์ฐพ์๋ณผ ์ ์์ต๋๋ค.
Sample images from LFW produced by different alignment algorithms [์ถ์ฒ: Learning to Align from Scratch]
๋ง์ง๋ง ๋จ๊ณ๋ย align๋ ์ด๋ฏธ์ง๋ฅผ ๊ณ ์ ๋ ์ฌ์ด์ฆ 100 * 100์ ํํ๋ก ๋ณํํ๊ณ ํ์์กฐ(grayscale)๋ก ๋ณํํ๋ ๊ณผ์ ์
๋๋ค. ๋๋ถ์ด ์ผ๊ตด์ ํน์ ์์ญ(facial region)์ ๋ํ ์ ํ์ ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์๋ฅด๋ ๊ณผ์ ๋ ํฌํจํฉ๋๋ค. ์ด๋ฅผ ์งํํ๋ ์ด์ ๋ ๋ณธ ํฌ์คํธ์ ๋ง์ง๋ง์์ ์ค๋ช
๋๋ฆฌ๊ฒ ์ต๋๋ค. ์ด ๊ณผ์ ์ ๋ง์น๋ฉด input์ ๋ชจ๋ธ์ ๋ฃ์ ์ค๋น๊ฐ ์๋ฃ๋ ๊ฒ์
๋๋ค.
Phenotype extraction & Syndromes classification
๋
ผ๋ฌธ์์ ๊ฐ์ฅ ๋์ ์ ์ด์๋ ๋ฌธ์ ์ ์ค ํ๋๋ ํฌ๊ท ์งํ์ ๊ฐ์ง ํ์๋ค์ ๋ฐ์ดํฐ์ ์๊ฐ ํ์ต์ํค๊ธฐ์ ๋ถ์กฑํ๋ค๋ ์ ์ด์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ๋
ผ๋ฌธ์์๋ ๋ ๋จ๊ณ๋ก ํ์ต์ ์งํ์์ผฐ์ต๋๋ค.
์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ย baseline face representation์ ์ํ ํ์ต์
๋๋ค. ์ด๋ ์ด๋ฏธ์ง ์์์ ์ผ๊ตด์ ํํํ๋ ๋จ๊ณ์
๋๋ค. ์ด์ ์ image preprocessing ์์๋ ์งํํ ๋จ๊ณ์ด์ง๋ง, ์ด ๋จ๊ณ์์๋ ์งํํ๋ ๊ฒ์ ๋ค์ ๋จ๊ณ์์ ์งํํ fine-tuning์ ์ด๊ธฐ ๊ฐ(initial weight)์ ๋ชจ๋ธ์ ์ค์ ํด๋๊ธฐ ์ํจ์
๋๋ค.
๋ค์ ๋จ๊ณ๋ย genetic syndrome classification์ ์ํ ํ์ต์
๋๋ค. ์ด ๋จ๊ณ์์๋ ์ด์ ๋จ๊ณ์์ ๊ตฌํ weight๊ฐ์ ์
๋ฐ์ดํธํ์ฌ ์ผ๊ตด ์ ๋ณด ํํ์ ๊ทธ์ณค๋ ๋ชจ๋ธ์ด ์ผ๊ตด ์ ๋ณด ํํ๊ณผ ๋๋ถ์ด ๊ทธ ํํ ์ ์ ์ ์ฑ ์งํ ์ ๋ณด๋ฅผ ํ์ตํ๊ธฐ ์ํจ์
๋๋ค.
์๋๋ ๋ชจ๋ธ์ ์ํคํ
์ณ์ ๋ํ ๊ทธ๋ฆผ์
๋๋ค.
The Deep Convolutional Neural Network architecture of DeepGestalt
Choosing dataset
๋
ผ๋ฌธ์์๋ ๋ชจ๋ธ์ ํ์ต์ ํ์ํ dataset์ผ๋ก CASIA Web-Face dataset ๊ณผ Face2Gene phenotype dataset์ ์ฌ์ฉํ์ต๋๋ค.
CASIA Web-Face dataset์ baseline face representation์ ํ์ต์ํค๊ธฐ ์ํ ์ฉ๋๋ก ์ฌ์ฉ๋์๊ณ 10575๋ช
์ ์ฌ๋์ผ๋ก๋ถํฐ ์ป์ด์ง 494414 images ๋ฅผ ํฌํจํ๊ณ ์์ต๋๋ค.
Face2Gene phenotype dataset์ genetic syndrome classification์ ํ์ต์ํค๊ธฐ ์ํ ์ฉ๋๋ก ์ฌ์ฉ๋์๊ณ 2500๊ฐ์ ์งํ์ ๋ํ ์๋ง๊ฐ์ images ๋ฅผ ํฌํจํ๊ณ ์์ต๋๋ค.
Training
๋ฅ๋ฌ๋์์ weight์ ์ด๊ธฐ๊ฐ ์ค์ ์ ๊ต์ฅํ ์ค์ํ ์ผ์
๋๋ค. ์ด๊ธฐ๊ฐ ์ค์ ์ ๋ฐ๋ผ ํ์ต์ด ์ฌ๋ฐ๋ฅธ ๋ฐฉํฅ์ผ๋ก ๊ฐ ์๋ ์๊ณ , local minimum์ ๋น ์ ธ์ ํ์ต์ ์คํจํ ์๋ ์์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ์ฌ์ฉํ๋ ๊ฒ์ด weight initializer ์
๋๋ค.
์ฌ๋ฌ ๋ฒ์ ์๋ ๋์ ๋
ผ๋ฌธ์์๋ baseline face representation ์์๋ He Norma Initializer๋ฅผ, genetic syndrome classification์์๋ Xavier normal initializer๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ด๋ initializer๋ฅผ ์ ํ์ ์ผ๋ก ์ฑ์ฉํ ๊ฒ์
๋๋ค.
๋ํ, ๋
ผ๋ฌธ์์๋ augmentation ์ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ์ ๊ฐ์๋ฅผ ๋๋ฆฌ๊ณ ์ฑ๋ฅ์ ๊ฐ์ ํ์ต๋๋ค. ๋
ผ๋ฌธ์์ ์กฐ์ํ ๊ฒ์ image์ ํ์ , vertical/horizontal shift, zoom, shear transformation ์ ๋์
๋๋ค.
์ด ์ธ์๋ ๋
ผ๋ฌธ์์ ์ธ๊ธํ ๊ฒ์ learning rate, epoch, momentum ๋ฑ์ ์ ๋ณด์
๋๋ค. ์ด๋ ์ถํ์ deep learning์ ๋ํ ๊ฐ๊ด์ ๋ํด์ ์ค๋ช
ํ ๋ ๋ชจ์์ ์งํํ๊ฒ ์ต๋๋ค.
์ง๊ธ์ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด training์ ํ ๋ ๋ณธ ๋
ผ๋ฌธ์์ ์ค์์ ํ ์ ์ดย weight initialization์ธ ๊ฒ๊ณผย augmentationย ์ด๋ผ๋ ์ ๋ง ์ง๊ณ ๋์ด๊ฐ๊ฒ ์ต๋๋ค.
Evalutaition
๋
ผ๋ฌธ์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ธก์ ํ๊ธฐ ์ํด ์ฌ์ฉํ ๊ฒ์ย top-K-accuracyย ์
๋๋ค.
Top-K-accuracy๋ sorted list ํํ๋ก ๊ฐ๋ฅ์ฑ์ ์์ธกํ ๋ชจ๋ธ์์ K๋ฒ์งธ ์์ ์ค์ ๊ฐ์ด ์กด์ฌํ๋ ๊ฒฝ์ฐ๋ฅผ ๋ํ๋ด๋ ์ฒ๋์
๋๋ค.
์ฆ, top-10-accuracy ์ ๊ฒฝ์ฐ, ์ ์ฒด test ๋ฐ์ดํฐ๋ค ์ค ๊ฐ๋ฅ์ฑ์ ์์ธกํ sorted list์ 10๋ฒ์งธ ์์ ์์ ์ค์ ๊ฐ์ด ์กด์ฌํ ๊ฒฝ์ฐ์ ์๋ก ๋ณผ ์ ์์ต๋๋ค.
Experiments and Results
๋ณธ ๋
ผ๋ฌธ์์๋ ํฌ๊ฒ 3๊ฐ์ง์ ํํ๋ก ์คํ์ ์งํํ์ต๋๋ค. ๊ทธ ์ค์์ ๋
ผ๋ฌธ์์ ๊ฐ์ฅ ์ค์ํ๊ฒ ์๊ฐํ๋ multi-class Gestalt Model์ ๋ํด์๋ง ์ธ๊ธํ๋๋ก ํ๊ฒ ์ต๋๋ค.
(๋๋จธ์ง ๋ ๊ฐ๋ ๊ฐ๊ฐ ๊ตฌํํ Gestalt Model์ด binary classfication problem์๋ ์ ์ ์ฉ๋๋์ง์ genotype ์์ธก์๋ ์ ์ ์ฉ๋๋์ง์ ๋ํ ์คํ์ด์์ต๋๋ค)
Multi-class Gestalt Model ์ ๋
ผ๋ฌธ์์ ๋ชฉํ๋ก ํ๋ ๋ฐ๋ฅผ ๊ตฌํํ ๋ชจ๋ธ์
๋๋ค.ย ๋ค์ํ ์งํ์ ๊ฐ์ง ํ์๋ค์ด ์์ฌ ์๋ ์ฌ์ง ์์์ ๊ฐ๊ฐ์ ์ฌ์ง์ ๋ํด์ ์ฌ์ง ์ ์ฌ๋์ด ๊ฐ์ง๊ณ ์๋ ํฌ๊ท ์งํ์ ๊ฐ๋ฅ์ฑ์ ํํํ sorted list๋ฅผ ์ฐ์ถํ๋ ๊ฒ์ด ์ด ๋ชจ๋ธ์ ์ญํ ์ด์์ต๋๋ค.
216๊ฐ์ ์ ์ ์ฑ ํฌ๊ท์งํ์ ๊ฐ์ง 26190๊ฐ์ image๋ฅผ ํตํด ํ์ต๋๊ณ , 502๊ฐ์ ์ค์ ํ์์ image๋ฅผ ํตํด ํ
์คํธ๊ฐ ์งํ๋์์ต๋๋ค.
DeepGestalt performance and permutation test result
์ ๊ฒฐ๊ณผ๋ model์ accuracy ์ permutation test์ mean value ๋ฅผ ๋น๊ตํ ๊ฒ์
๋๋ค. ์ด ๋ permutation test ์ ๊ฒฝ์ฐ mean value๋ฅผ test set์ผ๋ก ์ฌ์ฉํ ๋ฐ์ดํฐ์ label(์ฌ๊ธฐ์๋ ํ์์ ์งํ)์ ๋ง์๋๋ก ์์ ํ ๊ทธ ์ค ๋์ผํ๊ฒ ๋ง์ ๊ฒฝ์ฐ์ ์๋ฅผ ํตํด์ ์ธก์ ํฉ๋๋ค.
๋น์ฐ์ค๋ฝ๊ฒ๋, ์๋ฌด๊ฒ๋ ํ์ง ์์ ์ฑ ์ถ์ธกํ ๊ฒ๋ณด๋ค ๋
ผ๋ฌธ์์ ์ ์ํ ๋ชจ๋ธ์ ์ด์ฉํด ํ์ตํ์ฌ ์ฐ์ถํ ๊ฒฐ๊ณผ ๊ฐ์ด ๋ ๋์ ์ ํ์ฑ์ ๊ฐ์ง๊ณ ์๋ฏธ์๋ ๊ฐ์ ๋ํ๋ด๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
Reason why the paper used cropped images and combine them
์์ ๋ง์๋๋ฆฐ ๋ด์ฉ ์ค์ ์ง๊ณ ๋์ด๊ฐ์ง ์์ ๋ถ๋ถ์ด ์์ต๋๋ค. ๋
ผ๋ฌธ์์ image์ ๊ฐ๊ฐ์ ์์ญ์ ์ ํ์ ์ผ๋ก ์๋ฅด๋ ๊ณผ์ ์ ์งํํ๋ค๊ณ ํ์์ต๋๋ค. ์ด ๋ถ๋ถ์ ๋ํด์ ๋
ผ๋ฌธ์์ ๊ฐ ์์ญ ๋ณ๋ก์ ํ์ต ๋ฐ์ดํฐ๋ก ์ถ์ธกํ accuracy ์ ์ด๋ฅผ ํฉ์น ๋ชจ๋ธ๋ก ์ถ์ธกํ accuracy๋ฅผ ๋น๊ตํ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ์ต๋๋ค.
ํ๋ฅผ ๋ณด์๋ฉด Full Face ๋ก ์ถ์ธกํ ๊ฒ๋ณด๋ค Aggregated model ๋ก ์ถ์ธกํ ๊ฒ์ด ๋ ๋์ accuracy๋ฅผ ๊ฐ์ง์ ์ ์ ์์ต๋๋ค. ์ด๊ฒ์ด ๋
ผ๋ฌธ์์ input image ๋ฅผ ๋ฃ์ ๋ ๊ตณ์ด ๊ณผ์ ์ ๋ํด๊ฐ๋ฉด์ image๋ฅผ ์๋ฅด๊ณ ๊ฐ๊ฐ์ ํ์ต์ํจ ์ด์ ์
๋๋ค.
Conclusion
์ด๊ฒ์ผ๋ก ๋
ผ๋ฌธย โDeepGestalt-Identifying Rare Genetic Syndromes Using Deep Learningโ์ ๋ด์ฉ์ ๊ฐ๋จํ๊ฒ ์์ฝํด๋ณด์์ต๋๋ค. ์ค๊ฐ์ค๊ฐ์ ์ธ๊ธํ์ง๋ ์์์ง๋ง ๋
ผ๋ฌธ์์ ๊ฐ์กฐํ ๋
ผ๋ฌธ์ ์์๋ randomํ๊ฒ sampling ๋ images ์ ๋ํด์ ๋์ ์์ค์ accuracy ๋ก ์ ์ ์ฑ ํฌ๊ท ์งํ์ ์ง๋จํด๋ผ ์ ์๋ค๋ ์ ์ด์์ต๋๋ค. ์ด๋ฌํ ํํ์ ๋ฅ๋ฌ๋์ด ๋ฏธ๋ ์ ๋ฐ ์ํ์์ ์ค์ํ ์ญํ ์ ์ฐจ์งํ ๋ ์ด ๋จธ์ง ์์ ๊ฒ ๊ฐ๋ค๊ณ ๋๊ปด์ง๋๋ค.