๋ณธ ํฌ์คํธ๋ ์ ๊ฐ ํด๋จผ์ค์ผ์ดํ ๊ธฐ์ ๋ธ๋ก๊ทธ์ ๋จผ์ ์์ฑํ๊ณ ์ฎ๊ธด ํฌ์คํธ์
๋๋ค.
๋ณธ ํฌ์คํธ์์๋ ์ด์ ํฌ์คํธ GAN์ ํ์ฉํ์ฌ image to image translation์์ ๋ฒ์ฉ์ ์ผ๋ก ์ฐ์ด๋ ํ๋ ์์ํฌ๋ฅผ ์ฒ์์ผ๋ก ์ ์ํ ๋
ผ๋ฌธ์ ๋ํด์ ๋ฆฌ๋ทฐํ๋ ค๊ณ ํฉ๋๋ค. ์ด ํฌ์คํธ๋ ์ด์ ํฌ์คํธ GAN, U-Net์ ๋ํ ์ดํด๋ฅผ ๋ฐํ์ผ๋ก ์งํํ ์์ ์ผ๋ก, ์ด์ ํฌ์คํธ์ ๋ํ ๋ด์ฉ์ย ์ด๊ณณ(GAN)๊ณผย ์ด๊ณณ(U-Net)์ ์ฐธ๊ณ ํ์๋ฉด ์ข์ต๋๋ค. ๋ฆฌ๋ทฐํ๋ ค๋ ๋
ผ๋ฌธ์ ์ ๋ชฉ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
โImage-to-Image Translation with Conditional Adversarial Networksโ
Objective
๋
ผ๋ฌธ์์ ๋ชฉ์ ์ผ๋ก ํ๊ณ ์๋ ๊ฒ์ general-purposed image to image translation framework๋ฅผ ๊ตฌํํ๋ ๊ฒ์
๋๋ค. ๋ถ์ฐ ์ค๋ช
์ ํ์๋ฉด, grayscale to color, map to aerial, sketch to photo ๋ฑ ๋ค์ํ ๋ถ์ผ์ image to image translation์์๋ ์ผ๋ฐ์ ์ผ๋ก ๋์ํ ์ ์๋ ๋ฒ์ฉ์ ์ธ framework์ ๊ตฌํ์ ๋ชฉ์ ์ผ๋ก ํ๋ ๊ฒ์
๋๋ค.
์ด๋ฌํ ๋ชฉํ๋ฅผ ์ํด ์ ํ์ฐ๊ตฌ๋ค์ ์์นํ ๊ฒฐ๊ณผ, euclidean distance์ ๋ฐ๋ผ์ ์ ์ฒด predicted image์ ground truth ์ฌ์ด์ ์ฐจ์ด๋ฅผ image๋ฅผ ์ต์ํ์ํค๊ธฐ ๋๋ฌธ์ blurryํ ์ด๋ฏธ์ง๊ฐ ๋์ค๋ CNN๋ณด๋ค๋, real๊ณผ fake๋ฅผ ๊ตฌ๋ณํ ์ ์๊ฒ๋์ด๋ผ๋ ํ์ต ๋ชฉํ๋ฅผ ๊ฐ์ง GAN์ด ์ ๋ช
ํ ์ด๋ฏธ์ง๋ฅผ ์ป์ ์ ์๋ค๋ ์ ์์ ๋
ผ๋ฌธ์์๋ GAN์ ์ ํํฉ๋๋ค.
ํ์ง๋ง, GAN์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ์ผ ๋ฟ์ด์ง, input ์ด๋ฏธ์ง์ ๋ํ ๋ด์ฉ์ ๋ฐ์ํ์ฌ ๋ณํ๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์๋ ์์๊ธฐ์, ๋
ผ๋ฌธ์์๋ ๊ธฐ์กด GAN์ input image์ dependentํ term์ ์ถ๊ฐํ conditional GAN์ ์ด์ฉํฉ๋๋ค.
๋ํ ๋
ผ๋ฌธ์์๋ ๊ธฐ์กด์ image to image translation์ ๋
ผ๋ฌธ๋ค๊ณผ ๋ค๋ฅด๊ฒ generator๋ก U-Net ๊ตฌ์กฐ, ๊ทธ๋ฆฌ๊ณ discriminator๋ก patchGAN ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ํจ๊ณผ์ ์ธ ํ์ต์ ์งํํฉ๋๋ค.
Conditional GAN(cGAN)
๊ธฐ์กด์ noise vector z๋ก๋ถํฐ output vector y๋ฅผ ์์ฑํด๋ด๋ GAN๊ณผ๋ ๋ฌ๋ฆฌ conditional GAN(์ดํ cGAN)์ ๊ฒฝ์ฐ noise vector z ๋ฟ๋ง ์๋๋ผ input vector x๋ฅผ ์ด์ฉํด output vector y๋ฅผ ์์ฑํฉ๋๋ค.
์ด ๋๋ฌธ์ cGAN์ cost function๋ GAN๊ณผ ํฌ๊ฒ ๋ค๋ฅผ ๊ฒ์ ์์ต๋๋ค. ๋ค๋ง ํน์ง์ ์ผ๋ก ๋ค๋ฅธ ๊ฒ์ discriminator๊ฐ real๊ณผ fake๋ฅผ ๊ธฐ์กด์๋ generated๋ distribution์ ๋ํ ์ ๋ณด, ํน์ ground truth(ํ์ต์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ) data image distribution์ ๋ํ ์ ๋ณด ๊ฐ๊ฐ๋ง์ผ๋ก๋ง ๊ตฌ๋ณํด ๋๋ค๋ฉด, cGAN์์๋ input image์ ๋ํ distribution ์ ๋ณด๋ discriminator๊ฐ real๊ณผ fake๋ฅผ ๊ตฌ๋ณํ๋ ๋ฐ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค.
์์ ๋ง์๋๋ฆฐ ๊ฒ๊ณผ ๊ฐ์ด discriminator์ ์ฐ์ฐ์ด ๊ธฐ์กด์ GAN๊ณผ๋ ๋ฌ๋ฆฌ ๋ ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ํ์๋ก ํจ์ ์ ์ ์์ต๋๋ค. ์์ GAN ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์์๋ ์ค๋ช
ํ์ง๋ง, discriminator๊ฐ real๋ก ๊ตฌ๋ณํ์ ๊ฒฝ์ฐ D๊ฐ์ 1, fake๋ก ๊ตฌ๋ณํ์ ๊ฒฝ์ฐ D๊ฐ์ 0์ด๋ผ ํ๋ฉด, ์ฒซ ํญ์ real๋ก, ๋์งธ ํญ์ fake๋ก ๊ตฌ๋ณํ์ฌ cost function์ด ์ต๋๊ฐ ๋๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๋ฐ๋ฉด generator๋ discriminator๊ฐ ๊ตฌ๋ณ ๋ชปํ๊ฒ ํ๋ fake๋ฅผ ์์ฑํ๋ ๊ฒ์ด ๋ชฉํ์ด๊ธฐ ๋๋ฌธ์ discriminator๊ฐ ๋์งธ ํญ์ real๋ก ๊ตฌ๋ณํ๊ธธ ์ํ๋ฉฐ, ์ด์ ๋ฐ๋ผ cost function์ด ์ต์๊ฐ ๋๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
๋
ผ๋ฌธ์์๋ unconditionalํ ๊ฒฝ์ฐ์ cost function๋ ์ ์ํ์ฌ ๋น๊ต์ ์ฉ๋๋ก ํ์ต์ ์งํํฉ๋๋ค. ์๋ ๊ทธ cost function์
๋๋ค. ์ฌ๊ธฐ์ ๋ํด ๋
ผ๋ฌธ์์๋ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์์ GAN์ L2 loss๋ฅผ ์ถ๊ฐํ์ ๋ ๋ ๋์ ํ์ต ํจ๊ณผ๋ฅผ ๋ณด์ธ ๊ฒ์ ์ฐฉ์ํ์ฌ ๊ทธ๊ฒ๊ณผ ๋น์ทํ๋ฉด์๋, blurryํ ์ด๋ฏธ์ง๋ฅผ ๋ ์์ฑํด ๋ด๋ L1 loss term์ ์ถ๊ฐํฉ๋๋ค.
์ด๋ฅผ ์ถ๊ฐํ์ฌ ์ต์ข
์ ์ผ๋ก ์ค๊ณํ generator์ objective๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
U-Net
๋
ผ๋ฌธ์์ ์ฌ์ฉํ generator์ ๊ตฌ์กฐ๋ U-Net์ ๋ฐ๋ฅด๊ณ ์์ต๋๋ค. ์ด๋ output image์ resolution์ ์ฆ๊ฐ์ํค๊ธฐ ์ํด์ high resolution์ ์ง๋ input map์ ์ผ๋ถ๋ฅผ ์๋ผ์ output decoder part์ concatenate ์ํค๋ ํํ์ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ๊ตฌํํ ์ํคํ
์ฒ์
๋๋ค. ์์ธํ ์ฌํญ์ย U-Net๊ธ์์ ํ์ธํ ์ ์์ต๋๋ค.
patchGAN
๋
ผ๋ฌธ์์ ์ฌ์ฉํ discriminator๋ patchGAN์ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. patchGAN์ ๊ธฐ์กด์ DCGAN๊ณผ๋ ๋ค๋ฅด๊ฒ ์ด๋ฏธ์ง์ patch ์กฐ๊ฐ์ ๋ณด๊ณ real/fake ์ฌ๋ถ๋ฅผ ํ๋จํฉ๋๋ค. ์ด๋ฏธ์ง์ ์์ patch์ ๋ํด์ ํ๋จํ์ฌ ๊ฐ patch ๋ณ๋ก์ real/fake ์ฌ๋ถ๋ฅผ ํ๋จํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ์ฐ์ฐํ๋ ๊ฒ๋ณด๋ค ์ฐ์ฐ์ ์๊ฐ ์ ๊ณ ๋น ๋ฆ
๋๋ค.
์ด ๋ฐฉ์์ ํตํด์ generator๋ ๊ฐ๊ฐ์ ์ด๋ฏธ์ง patch ์กฐ๊ฐ๋ค์ ์ง์์ฌ๋ถ๋ฅผ ์์ด๊ธฐ ์ํด์ ํ์ตํ๋ ๊ณผ์ ์ด ์งํ๋๊ณ , ๊ธฐ์กด์ ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ์์ด๊ธฐ ์ํด์ ํ์ตํ๋ ๋ฐฉ๋ฒ๋ณด๋ค output image๊ฐ ๋ high resolution์ ๊ฐ์ง ์ ์๊ฒ ๋ฉ๋๋ค.
Experiments-Evaluation Metrics
๋
ผ๋ฌธ์์ ๊ทธ๋ค์ ์ํคํ
์ฒ/๋ฐฉ๋ฒ๋ก ์ ํ๊ฐํ๊ธฐ ์ํด์ ์ฌ์ฉํ ๋ฐฉ๋ฒ์ ํฌ๊ฒ ๋ ๊ฐ์ง๋ก ๋๋์ด์ง๋๋ค.
์ฒซ ๋ฒ์งธ๋ก, Amazon Mechanical Turk(์ดํ AMT)๋ฅผ ์คํ์์ผ ์์ฑํ ์ด๋ฏธ์ง์ real/fake ์ฌ๋ถ๋ฅผ ํ๋จํ๋ ๊ฒ์
๋๋ค. ๋
ผ๋ฌธ์์๋ map generation, aerial photo generation, image colorization ๋ฑ์ ์ด ๋ฐฉ๋ฒ์ ํตํด์ ํ๊ฐํฉ๋๋ค.
๋ ๋ฒ์งธ๋ก, pre-trained ๋ semantic classifier๋ฅผ ์ด์ฉํด์ ์์ฑํ ์ด๋ฏธ์ง๋ก๋ถํฐ ์ ํํ object๋ฅผ ๊ตฌ๋ณํด ๋ผ ์ ์๋์ง๋ฅผ ๋ํ๋ธ FCN-score๋ฅผ ์ด์ฉํ๋ ๊ฒ์
๋๋ค.
์ฌ๊ธฐ์๋ ๋
ผ๋ฌธ์์ ํน์ง์ ์ผ๋ก ์ฌ์ฉํ ๊ตฌ์กฐ๋ ๋ฐฉ๋ฒ๋ก ์ ํ๊ฐํ๊ธฐ ์ํ ์ฒ๋์๋ ๋ ๋ฒ์งธ ๋ฐฉ๋ฒ์ ์ฃผ๋ชฉํ์ฌ ์งํํ๋ ํ๊ฐ๋ค์ ์ค๋ช
ํ๊ฒ ์ต๋๋ค.
Evaluation-cGAN Objective Function
๋
ผ๋ฌธ์์๋ ์์์ ์ค๋ช
ํ cGAN cost function ์ค๊ณ๋ฅผ ํ๊ฐํ๊ธฐ ์ํด์ FCN-score๋ฅผ ์ด์ฉํฉ๋๋ค.
FCN-scores for various cost functions
Generated output images
GAN์ด L1๊ณผ cGAN์ ๋นํด์ ์ฑ๋ฅ์ด ์ข์ง ์๋ ์ด์ ๋ GAN์ผ๋ก ์์ฑํ๋ ์ด๋ฏธ์ง๋ input image ์ ์์ฑ๋๋ output image๊ฐ์ mismatch๋ก ์ธํด์ ๋ฐ์ํ๋ penalty ํญ๋ชฉ์ loss์ ํฌํจํ๊ณ ์์ง ๋๋ฌธ์
๋๋ค.
๊ทธ ์ธ์ L1๋ง ์ฌ์ฉํ ๊ฒ์ blurryํ image๋ฅผ ๋ง๋ค๊ณ , ์ด์ ์ ์ ํ์ฐ๊ตฌ์์ ๋ฐํ์ง ๋ฐ์ฒ๋ผ cGAN๊ณผ ํจ๊ป ์ฌ์ฉํ ๋ cGAN๋ง ์ฌ์ฉํ ๋๋ณด๋ค visual artifcat๊ฐ ์ ๊ฒ ๋ํ๋จ์ ๋ณผ ์ ์์ต๋๋ค.
Evaluation-Generator(U-Net)
๋
ผ๋ฌธ์์๋ ์์์ ์ค๋ช
ํ U-Net ๊ตฌ์กฐ๋ฅผ ํ๊ฐํ๊ธฐ ์ํด์ FCN-score๋ฅผ ์ด์ฉํฉ๋๋ค.
FCN-scores for generator strucuture
Generated output images
ํ์์ ๋ณด์ด๋ ๋ฐ์ ๊ฐ์ด U-Net์ ๊ฒฝ์ฐ๊ฐ ๊ธฐ์กด์ encoder-decoder ๊ตฌ์กฐ๋ณด๋ค ๋ ๋์ FCN-score๋ฅผ ๋ณด์์ ์ ์ ์์ต๋๋ค. ์ด๋ ์์ ์ค๋ช
ํ ๊ฒ ์ฒ๋ผ skip-connection์ ํตํด encoder ๋ถ๋ถ์ high resolution์ decoder ๋ถ๋ถ์ ์ ํด์ฃผ์๊ธฐ ๋๋ฌธ์
๋๋ค.
๊ทธ๋ฆผ์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ U-Net์ ์ฌ์ฉํ ๊ฒฝ์ฐ๊ฐ, L1+cGAN์ ๋ณตํฉ์ ์ธ cost function์ ์ฌ์ฉํ ๊ฒฝ์ฐ๊ฐ ๋ ๊ณ ํด์๋์ ์ ๋ช
ํ ์ด๋ฏธ์ง๋ฅผ ์์ฑํด๋์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
Evaluation-Discriminator(patchGAN)
๋
ผ๋ฌธ์์๋ ์์์ ์ค๋ช
ํ pathGAN ๋ฐฉ๋ฒ๋ก ์ ํ๊ฐํ๊ธฐ ์ํด์ FCN-score๋ฅผ ์ด์ฉํฉ๋๋ค.
FCN-scores for discriminator patch size
Generated output images
ํ์์ ๋ณด์ด๋ ๋ฐ์ ๊ฐ์ด 70x70์ patch size๋ก ๋๋์ด ์ง์์ฌ๋ถ๋ฅผ ํ๋จํ ๊ฒฝ์ฐ๊ฐ ๊ธฐ์กด์ 1x1์ pixelGAN์ด๋ 286x286์ imageGAN ๊ตฌ์กฐ๋ณด๋ค ๋ ๋์ FCN-score๋ฅผ ๋ณด์์ ์ ์ ์์ต๋๋ค. ์ด๋ ์์ ์ค๋ช
ํ ๊ฒ ์ฒ๋ผ ์ ์ ํ size์ patch๋ก ์ด๋ฏธ์ง๋ฅผ ๋๋์ด discriminate ๊ณผ์ ์ ์งํํ ๊ฒฝ์ฐ localization๊ณผ context extraction์ ์์ด์ ๊ทน๊ฐ๋ค๋ณด๋ค ์ ๋ฆฌํ๊ธฐ ๋๋ฌธ์
๋๋ค.
๊ทธ๋ฆผ์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ 70x70์ patch size์ ์ฌ์ฉํ ๊ฒฝ์ฐ๊ฐ, L1์ด๋ ์ด๋ฏธ์ง ์ ์ฒด ํฌ๊ธฐ์ patch ๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ๋ณด๋ค ์ ์ฒด์ ์ผ๋ก๋, ์ธ๋ถ์ ์ผ๋ก๋ ์ ๋ช
ํ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๋์ ๋ณผ ์ ์์์ต๋๋ค.
Conclusion
์ด๊ฒ์ผ๋ก ๋
ผ๋ฌธย โImage-to-Image Translation with Conditional Adversarial Networksโ์ ๋ด์ฉ์ ๊ฐ๋จํ๊ฒ ์์ฝํด๋ณด์์ต๋๋ค. ์ด๋ฏธ์ง ๋ณํ์์ ์์ฃผ ๋ด์ค๋ ๋
ผ๋ฌธ์ธ๋ฐ ์ด ๊ธฐํ์ ์ฝ๊ฒ ๋์ด ์ข์๋ ๊ฒ ๊ฐ์ต๋๋ค.
์ฌ๊ธฐ์ ๋ค๋ฃจ์ง๋ ์์์ง๋ง AMT๋ฅผ ์ฌ์ฉํด ์งํํ ํ๊ฐ๋ ์์ต๋๋ค. ๋ค๋ง ์ฌ๊ธฐ์ ๋์ถ๋ ๊ฒฐ๊ณผ๋ ๋
ผ๋ฌธ์ ์ํคํ
์ฒ/๋ฐฉ๋ฒ๋ก ์ด ๋น๊ต๋์๋ค ์ค์ ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๊ฐ ์๋์์ผ๋ฉฐ, ๋
ผ๋ฌธ์ ํฐ ํ๋ฆ๊ณผ๋ ๋ค๋ฅธ ๊ฒฐ์ ์ค๋ช
ํ๊ธฐ ๋๋ฌธ์ ์ ์ธํ์ต๋๋ค. ๊ด์ฌ ์์ผ์ ๋ถ์ ํ ๋ฒ์ฏค ์ฝ์ด๋ณด์
๋ ์ข์ ๊ฒ ๊ฐ์ต๋๋ค.