๋ณธ ํฌ์คํธ๋ ์ ๊ฐ ํด๋จผ์ค์ผ์ดํ ๊ธฐ์ ๋ธ๋ก๊ทธ์ ๋จผ์ ์์ฑํ๊ณ ์ฎ๊ธด ํฌ์คํธ์
๋๋ค.
๋ณธ ํฌ์คํธ์์๋ ์ด์ ์ ํฌ์คํธํ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ธย GAN์ ์ด์ฉํด์ ํ
์คํธ๋ก๋ถํฐ ํ
์คํธ๊ฐ ๋ฌ์ฌํ๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํด๋ด๋ ๋คํธ์ํฌ๋ฅผ ์ ๋ณด์ธ ๋
ผ๋ฌธ์ ๋ํด์ ๋ฆฌ๋ทฐํ๋ ค๊ณ ํฉ๋๋ค. ๋ฆฌ๋ทฐํ๋ ค๋ ๋
ผ๋ฌธ์ ์ ๋ชฉ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
โStackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networksโ
Objective
๋
ผ๋ฌธ์ ๋ฐฐ๊ฒฝ์ text description ์ผ๋ก๋ถํฐ High-resolution photo-realistic images ๋ฅผ ์์ฑํ๋ ๊ฒ์ด ์ฝ์ง ์์๋ ๊ฒ์์ ์์ํฉ๋๋ค. ์ต์ GAN model ๋ค์ ๋จ์ํ upsampling layer ๋ฅผ ๋ถ์ด๋ ๊ฒ์ ์๋์ ๊ฐ์ด ์์์ ์ผ๋ก ํ๋จํ ์ ์๋ ์ด๋ฏธ์ง๋ค์ ์์ฑํด ๋์ต๋๋ค.
Vanilla GAN 256x256 Images
์์ ๋ ๊ทธ๋ฆผ๋ค์ ์๋ฅผ, ์ธ ๋ฒ์งธ ๊ทธ๋ฆผ์ ๊ฝ์ ๋ํ๋ธ ๊ฒ์ธ๋ฐ ์๋นํ ๋ถ์์ ํ ์ด๋ฏธ์ง๋ค์์ ํ์ธํ ์ ์์ต๋๋ค. ๋
ผ๋ฌธ์์ ์ธ์ฉํ ๋ค๋ฅธ ๋
ผ๋ฌธ์ ๋ด์ฉ์ ๋ฐ๋ฅด๋ฉด GAN์ผ๋ก ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํด๋ด๋ ๊ฒ์ ์์ฐ ์ํ์(์์ฑํด๋ด์ง ์์) ์ด๋ฏธ์ง๋ค์ด ๊ฐ์ง๋ ๋ฐ์ดํฐ์ ๋ถํฌ์ ๋คํธ์ํฌ ๋ชจ๋ธ์ด ์์ฑํด๋ธ ๋ฐ์ดํฐ์ ๋ถํฌ๊ฐ ๊ณ ํด์๋ ํฝ์
์์ญ์์ย Support๊ฐ ๊ฒน์ณ์ง์ง ์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ณด๊ณ ์์ต๋๋ค. ์ด๋ ๊ฐ ํฝ์
์ ๋ฑ์ฅํ๋ ๊ฐ๋ค์ domain์ ์ฐจ์ด๊ฐ ์๋ค๋ ๋ป์ด๊ณ ํฝ์
๊ฐ์ ์ฐจ์ด๊ฐ ์๋ค๋ ๊ฒ์ ์ด๋ฏธ์ง๊ฐ ๋น์ทํ์ง ์๋ค๋ ๊ฒ์ ์ ํฌ๋ ์ ์๊ณ ์์ต๋๋ค.
์ด๋ฌํ ๋ฐฐ๊ฒฝ ์์์ ๋ฌธ์ ์ ์ ํ๊ฐํ๊ณ ์ ๋
ผ๋ฌธ์์๋ focusing ํ๊ณ ์ํ๋ ๋ฌธ์ ์ธ โText to High-resolution Realistic Imagesโ ๋ฅผ ๋ ๊ฐ์ ๋ค๋ฃจ๊ธฐ ์ฌ์ด ๋ฌธ์ ์ธย โText to Low-resolution Imagesโย ์ย โText conditional Low-resolution Images to High-resolution Imagesโย ๋ก ๋๋๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๊ฒ ๊ฐ๊ฐ์ Stage-I GAN ๊ณผ Stage-II GAN ์ผ๋ก ๋ถ๋ฆ
๋๋ค.
๋๋ถ์ดย โText to Low-resolution Imagesโย task ๋ฅผ ์งํํ ๋ text-image pair ์ ํ์ต๋ฐ์ดํฐ์ ์๊ฐ ์ ์ด์ ์ต์ข
์ ์ผ๋ก text-conditional ํ image ๋ฅผ ์์ฑํ๋๋ฐ์ ์ด๋ ค์์ด ์์ดย Conditioning Augmentaionย ์ ํ์ฉํ์ต๋๋ค. ์ด๋ ํ์ ํ๊ฒ ์ง๋ง conditioning manifold ๋ก ์ฌ์ฉํ๊ฒ ๋ ๊ฐ์ ๋๋คํ๊ฒ ์์ ๋ณ๋์ ์ฃผ์ด Stage-I GAN ์ผ๋ก ์์ฑ๋ ์ด๋ฏธ์ง์ ๋ค์์ฑ์ ์ฃผ๋ ๋ฐฉ๋ฒ์
๋๋ค.
์ด์ , ๋คํธ์ํฌ์ flow ์ ๋ง๊ฒ Conditioning Augmentation, Stage-I GAN, Stage-II GAN ์ ์์๋ก ์ธ๋ถ์ ์ธ ๋ด์ฉ์ ์ค๋ช
๋๋ฆฌ๋ ค๊ณ ํฉ๋๋ค.
Conditioning Augmentation
Conditioning Augmentation ์ ์ ๊ทธ๋ฆผ์ ์ฐ์ธก์ ๋์ ์๋ ๊ฒ ์ฒ๋ผ ๋คํธ์ํฌ์ ์์ ๋ถ๋ถ์ ์กด์ฌํฉ๋๋ค.
๋คํธ์ํฌ์ ์์์ Text description t ๊ฐ input ์ผ๋ก ์ฃผ์ด์ง๋ ๋ฐ์์ ๋ถํฐ ์์๋ฉ๋๋ค. Input ์ผ๋ก ์ฃผ์ด์ง text description ์ย word embeddingย ์ด๋ผ๋ ๊ณผ์ ์ ๊ฑฐ์น๊ฒ ๋ฉ๋๋ค. ์ด๋ ์ฝ๊ฒ ์ค๋ช
ํ์๋ฉด ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ๋ณํํ๋ ๊ณผ์ ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค. ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก one-hot encoding ์ ๋ค ์ ์๋๋ฐ text description์ ์กด์ฌํ๋ ๋จ์ด๊ฐ ํด๋น๋๋ ์์น์ 1, ์กด์ฌํ์ง ์๋ ๋จ์ด๊ฐ ํด๋น๋๋ ์์น์ 0์ ๋ฃ์ด ๋ฒกํฐ๋ฅผ ๋ง๋ค ์ ์์ต๋๋ค. ๋
ผ๋ฌธ์์๋ย ์ด ๋
ผ๋ฌธ์์ ๊ฐ๋ฐํ word embedding ์ ์ฌ์ฉํ์ต๋๋ค
์ด๋ ๊ฒ ์ ๊ทธ๋ฆผ์ฒ๋ผ word embedding ์ํตํด vector phi๋ฅผ ๋ง๋ค ์ ์๋๋ฐ, ์ผ๋ฐ์ ์ผ๋ก phi ์ dimension ์ด ํฌ๊ธฐ ๋๋ฌธ์ input data ๋ค์ discontinuity ๊ฐ ์๋นํ ํฌ๊ฒ ๋ํ๋๊ณ ์ด๋ generator ๊ฐ ํ์ตํ๊ธฐ์ ์ ํฉํ์ง ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋
ผ๋ฌธ์์๋ phi ๋ฅผ fully connected layer ์ ํต๊ณผ์์ผ mu_0 ์ sigma_0 ๋ฅผ ๋ฝ์๋ธ ํ ์ด๋ฅผ ํ๊ท ๊ณผ ๋ถ์ฐ์ผ๋ก ํ๋ Gaussian Distribution ์์ ๊ฐ์ sampling ํ๊ฒ ๋ฉ๋๋ค. ์ด ๋, Standard Normal Distribution ์ ๋ฐ๋ฅด๋ ๊ฐ epsilon ์ ์ด์ฉํด์ ์ต์ข
์ ์ผ๋ก conditioning vector c_0 ๋ฅผ ์๋์ ๊ฐ์ด ๊ณ์ฐํจ์ผ๋ก์จ sampling ์ ์๋ฃํฉ๋๋ค.
์ฌ๊ธฐ์ sigma_0 ์ epsilon ์ฌ์ด์ ๊ธฐํธ๋ element-wise multiplication ์ด๊ณ ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ด ์ฐ์ฐ์ ์ ํฌ๊ฐ ์๊ณ ์๋ fully connected layer ๋ก ๊ตฌํ๋์ด ์๋ ๊ฒ์ผ๋ก ๋ณด์
๋ ๋ฉ๋๋ค.
์ ๋ฆฌํ์๋ฉด Conditioning Augmentation ์ conditioning vector ์ dimension์ ์กฐ์ ํ ์ ์์ผ๋ฉด์ conditioning vector์ ์ด๋ ์ ๋์ ๋๋คํ ์์ ๋ณ๋์ ๋ถ์ฌํ ์ ์๋ ๋ฐฉ๋ฒ์ธ ๊ฒ์
๋๋ค.
์ฌ๊ธฐ์ ๋ง์ง๋ง์ผ๋ก ํ ๊ฐ์ง ์ฃผ๋ชฉํ ์ ์ ํ์ต ์์ ์ฑ์ ์ํด ๋
ผ๋ฌธ์์ ํน๋ณํ loss๋ฅผ ์ถ๊ฐํ ์ ์
๋๋ค. Word embedding ์ผ๋ก ์๊ฒจ๋ vector phi ๋ก๋ถํฐ Normal Distribution ์ ๊ฐ์ ํด ์ ์ธํ mu_0 ์ sigma_0 ๋ฅผ ๋ฝ์๋ด๊ธฐ ์ํด ์ ์ ๋ fully connected layer ์ ํ์ต ์์ ์ฑ์ ์ํ term ์ด๋ผ๊ณ ๋ณด์
๋ ๋ฉ๋๋ค.
D_KL ์ GAN ์์๋ ๊ฐ๋จํ ์ค๋ช
์ ๋๋ ธ์ต๋๋ค. Kullback-Leibler Divergence ๋ก, ๊ฐ๋จํ๊ฒ๋ ๋ ํ๋ฅ ๋ถํฌ๊ฐ์ ์ฐจ์ด๋ฅผ ๋ํ๋ด๋ ์ฒ๋๋ก ๋ณด์๋ฉด ๋ฉ๋๋ค. ์ ํํ ์ค๋ช
์ ์๋ต๋์์ง๋ง ๋
ผ๋ฌธ์์๋ mu, sigma ๋ฅผ ํ์ต์ํค๋ ๊ณผ์ ์ ์์ด smoothness ๋ฅผ ๊ฐํํ๊ณ overfitting ์ ๋ง์ ์ ์๋ค๋ ์ด์ ๋ฅผ ๋ค์ด ํญ๋ชฉ์ ์ถ๊ฐํ์ต๋๋ค.
Stage-I GAN
Stage-I GAN ์ Conditioning Augmentation block ์ ํต๊ณผํ conditioning vector ๋ฅผ input ์ผ๋ก ๋ฐ์ low-resolution image ๋ฅผ ์์ฑํฉ๋๋ค. ๊ทธ ์ฒซ ์์์ Generator ์
๋๋ค. ์ผ๋ฐ conditional GAN ์ด ๊ทธ๋ ๋ฏ์ด noise vector z ๋ํ input ์ concatenate ๋์ด input ์ ํ์ฑํ ๋ชจ์ต์ ๋ณผ ์ ์์ต๋๋ค.
์ดํ upsampling block ์ด ๋ฑ์ฅํ๋๋ฐ ๋
ผ๋ฌธ์์ ์์ธํ ๊ตฌ์กฐ๋ฅผ ์ค๋ช
ํด ์ฃผ๊ณ ์์ง๋ ์์ต๋๋ค. ๊ทธ๋์ ๊ถ๊ธํด์ ๋
ผ๋ฌธ์์ ์ ์ํ ๋ ํฌ์งํ ๋ฆฌ์ ๋ฐฉ๋ฌธํด์ ์ด๋ค ๊ตฌ์กฐ์ธ์ง ํ์
ํ ์ ์์์ต๋๋ค. ๊ถ๊ธํ์ ๋ถ๋ค์ย ์ด ๊ณณ์์ ํ์ธํ์ค ์ ์๋๋ฐ ์ง๊ณ ๋์ด๊ฐ์ผ ํ ์ ์ deconvolution layer ๋ฅผ ์ฌ์ฉํด์ upsampling ์ ์งํํ๋ค ์ ๋์ธ ๊ฒ ๊ฐ์ต๋๋ค.
์ดํ ๋ฐ๋ผ์ค๋ ๊ฒ์ Discriminator ์
๋๋ค. Generator ๊ฐ ์์ฑํ fake image ์ real image ๋ฅผ input ์ผ๋ก ๋ฐ์ downsampling block ์ ๊ฑฐ์ณ dimension ์ ์ค์
๋๋ค. ์ดํ ์์ word embedding ์ผ๋ก ๋ง๋ค์ด๋ธ vector phi ๋ฅผ concatenate ํ๋ ๊ณผ์ ์ธ Spatial Replication ์ ์งํํฉ๋๋ค.
์ด๋ฌํ Spatial Replication ์ Discriminator ์ condition ์ผ๋ก ๋ค์ด๊ฐ ๊ฒ์
๋๋ค. Discriminator ์ ์ญํ ์ ๊ธฐ๋ณธ GAN ์์๋ Generator ๊ฐ ์์ฑํ ์ด๋ฏธ์ง๋ฅผ Fake ๋ก, Real world ์ด๋ฏธ์ง๋ฅผ Real ๋ก ์ ํํ ๊ตฌ๋ณํด๋ด๋ ๊ฒ์
๋๋ค. ํ์ง๋ง cGAN ์์๋ ์์ฑํ ์ด๋ฏธ์ง๊ฐ conditional ํ ์ด๋ฏธ์ง์ฌ์ผ ํ๊ธฐ ๋๋ฌธ์ ํ๊ฐ๋ฅผ ์งํํ๋ Discriminator ์ conditional ํ term ์ ๋ฃ์ด์ฃผ์ด ํ์ตํจ๊ณผ๋ฅผ ๋์์ต๋๋ค.
์ด๋ ๊ฒ Spatial Replication ์ ๋ง์น ๋ค์๋ ์ต์ข
์ ์ผ๋ก Fake(0) / Real(1) ์ ๊ตฌ๋ถํ๋ ๊ฐ์ ์ฐ์ถํ๊ธฐ ์ํ fully connected layer ๊ฐ ์ฌ์ฉ๋ฉ๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก ์์ธํ ๊ตฌ์กฐ๋ฅผ ์ค๋ช
ํ๊ณ ์์ง๋ ์๊ธฐ ๋๋ฌธ์ย ์ด ๊ณณ์์ ๊ตฌ์กฐ๋ฅผ ํ์ธํ์ค ์ ์์ต๋๋ค.
์ต์ข
์ ์ธ Stage-I GAN ์ ๋ชจ์ต์ ์์ ๊ฐ์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ Stage-I GAN ์์ ์ฌ์ฉํ Loss ๋ ์์ ๊ฐ์ต๋๋ค. ์ด์ ์ ์ ๊ฐ ํฌ์คํ
ํ๋ย GAN ๋
ผ๋ฌธ๋ฆฌ๋ทฐ๋ฅผ ๋ณด์ ๋ถ๋ค์ ๋ฐ๋ก ์ดํด๊ฐ ๋์ค ๊ฒ ๊ฐ์ต๋๋ค. ๊ฐ๋จํ๊ฒ๋ง ๋ค์ ์ค๋ช
๋๋ฆฌ๊ฒ ์ต๋๋ค.
Generator ๋ Discriminator ๋ฅผ ์์ฌ ์์ ์ด ๋ง๋ ์ด๋ฏธ์ง๋ฅผ Real ์ด๋ผ๊ณ ํ๋จํ๊ธธ ์ํฉ๋๋ค. ๋๋ฌธ์ D ๊ฐ ํ๋จํ ๊ฐ์ด 1(Real) ์ ๊ฐ๊น๊ฒ ๋์ค๊ธธ ์ํ๊ณ L_G ๊ฐ์ ์ต์ํํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํฉ๋๋ค. ๋ํ ์์ ๋ง์๋๋ ธ๋ Kullback-Leibler Divergence ๋ํ mu ์ sigma ๋ฅผ ๋ฐํ์ผ๋ก ๋ง๋ Gaussian Distribution ์ด Standard Normal Distribution ๊ณผ ๋น์ทํ ๋ถํฌ๋ฅผ ๋ณด์ด๋๋ก ํ์ต์ ํ๊ฒ ๋๋ฉด ์์ ์ฑ์ ๋ถ์ฌํ ์ ์๊ธฐ ๋๋ฌธ์ ์ด ํญ๋ชฉ์ ํฌํจํด L_G ๊ฐ์ ์ต์ํํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ์ ์ธํ ๊ฒ์
๋๋ค.
Discriminator ๋ Generator ๊ฐ ์์ฑํ ์ด๋ฏธ์ง๋ฅผ Fake(0) ๋ก, Real world ์ด๋ฏธ์ง๋ฅผ Real(1) ๋ก ์ฌ๋ฐ๋ฅด๊ฒ ๊ตฌ๋ณํ๊ธธ ์ํฉ๋๋ค. ๋๋ฌธ์ Real Image ์์ ์ฐ์ฐ์ ๊ฒฝ์ฐ์๋ 1(Real) ์ ๊ฐ๊น๊ฒ ๋์ค๊ธธ ์ํ๊ณ Fake Image ์์ ์ฐ์ฐ์ ๊ฒฝ์ฐ์๋ 0(Fake) ์ ๊ฐ๊น๊ฒ ๋์ค๊ธธ ์ํฉ๋๋ค. ์ด ๋๋ฌธ์ L_D ๋ฅผ ์ต๋ํํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ์ ์ธํ ๊ฒ์
๋๋ค.
Stage-II GAN
Stage-II GAN ์ Stage-I GAN ์ ํต๊ณผํ์ฌ ์์ฑ๋ ์ด๋ฏธ์ง์ word embedding ์ผ๋ก ์์ฑํ vector phi ๋ฅผ input ์ผ๋ก ๋ฐ์ high-resolution image ๋ฅผ ์์ฑํฉ๋๋ค. ๊ทธ ์ฒซ ์์์ Generator ์
๋๋ค. ์์ ๋ถ๋ถ์ธ Generator ๋ ์์ ๋ง์๋๋ฆฐ vector phi ์ low-resolution ์ด๋ฏธ์ง๋ฅผ input ์ผ๋ก ๋ฐ์ต๋๋ค.
Stage-I GAN ์ Generator ์ ๋ค๋ฅธ ์ ์ด ์๋ค๋ฉด noise vector z ๊ฐ ์๋๋ผ low-resolution ์ด๋ฏธ์ง s_0 ๋ฅผ input ์ผ๋ก ๋ฐ๋๋ค๋ ์ ๊ณผ, word embedding ์์ฒด๋ ๊ณต์ ํ์ง๋ง fully connected layer ์์ฒด๋ ๊ณต์ ํ์ง ์์ ๊ฐ๋ณ์ ์ผ๋ก Stage-I GAN ์์ ๊ฒฐ์ค๋ ์ ๋ณด๋ฅผ ํ์ตํ๋๋ก ํ๋ค๋ ์ ์
๋๋ค.
์ด๋ฏธ์ง๋ก๋ถํฐ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๋ด๋ Generator ๋ฅผ ๊ตฌํํ๊ธฐ ์ํด encoder โ decoder ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๊ณ , ๋ง์ฐฌ๊ฐ์ง๋ก Spatial Repliacation ์ ๋์์ต๋๋ค. ๋๋ถ์ด ์ด๋ฏธ์ง์ ํ
์คํธ์์ ๊ด๊ณ๋ฅผ ํ์ตํ๊ธฐ ์ํ layer ๊ฐ ํ์ํ๋๋ฐ ๊ธธ์ด์ง ๋คํธ์ํฌ ๊ตฌ์กฐ์์ ํจ๊ณผ์ ์ผ๋ก Gradient ๋ฅผ ์ ๋ฌํ๊ธฐ ์ํ Residual blocks ์ผ๋ก ์ด๋ฅผ ์ํํ์ต๋๋ค.
์ด๋ฅผ ํตํด์ ๊ณ ํด์๋ fake image ๋ฅผ ์์ฑํด๋
๋๋ค.
์ดํ ๋ฐ๋ผ์ค๋ ๊ฒ์ Discriminator ์
๋๋ค. ์ด ๋ถ๋ถ์ Stage-I GAN ๊ณผ ๋์ผํ ๊ตฌ์กฐ์ด๊ธฐ ๋๋ฌธ์ ์์ธํ ์ค๋ช
์ ์๋ตํ๋๋ก ํ๊ฒ ์ต๋๋ค.
์ต์ข
์ ์ธ Stage-II GAN ์ ๋ชจ์ต์ ์์ ๊ฐ์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ Stage-II GAN ์์ ์ฌ์ฉํ Loss ๋ ์์ ๊ฐ์ต๋๋ค. Stage-I GAN ๊ณผ ๊ต์ฅํ ๋น์ทํ์ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ํน๋ณํ ๋ค๋ฅธ ์ ์ L_D ์์ ์ฌ์ฉํ Real Image ๊ฐ ๊ณ ํ์๋ ์ด๋ฏธ์ง๋ก ๋ฐ๋์๋ค๋ ์ , ๊ทธ๋ฆฌ๊ณ Generator ๊ฐ input ์ผ๋ก ๋ฐ๋ ๊ฒ์ด noise vector ๊ฐ ์๋๋ผ low-resolution image ๋ผ๋ ์ ์
๋๋ค.
Validation
๋
ผ๋ฌธ์์ ์ ์ํ ๋คํธ์ํฌ๋ฅผ ํ๊ฐํ๊ธฐ ์ํด์ ์ฌ์ฉํ validation metric ์ Inception Score(IS) ๊ณผ ์ก์์ผ๋ก ๋ณด์ด๋ image quality / text-conditionality์
๋๋ค. ๋ํ Baseline ์ผ๋ก๋ GAN-INT-CLS, GAWWN ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
Inception Score ์ ๋ํด์ ๊ฐ๋จํ ์ค๋ช
์ ๋๋ฆฌ์๋ฉด, Real ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋์ง์ ๋ค์์ฑ ์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋์ง์ ๋ํ ๊ธฐ์ค์ ์ ์ํ๋ ์ฒ๋์
๋๋ค. ์ด๋ฅผ ๊ฐ๊ฐ Fidelity ์ Diversity ๋ผ ํ๋๋ฐ ์ด ๋ชจ๋ ๋์ ๊ฐ์ ๊ฐ์ง๋ ๋คํธ์ํฌ์ ๋์ ๊ฐ์ ๋งค๊ฒจ์ค๋๋ค.
๊ทธ๋ผ ์ง๊ธ๋ถํฐ ๋
ผ๋ฌธ์์ ์ ์ํ validation ์ ์ดํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
GAN-INT-CLS ๊ฐ ์์ฑํด๋ธ 64x64 image ๋ค์ ์ผ๋ฐ์ ์ธ ๋ชจ์๋ง์ ์์ฑํ ์ ์์๊ณ ์๋๊ฐ ์๋ ๋ถ๋ถ๋ค์ด๋ ์ค๋๋ ฅ ์๋ ๋ํ
์ผ์ด ๋ถ์กฑํ์ต๋๋ค. ์ด ๋๋ฌธ์ ์ค์ ์ฌ์ง์ฒ๋ผ ๋ณด์ธ๋ค๊ฑฐ๋ ๊ณ ํด์๋๋ก ๋ณด์ฌ์ง์ง ์์์ต๋๋ค.
GAWWN ์ด ์์ฑํด๋ธ 128x128 image ๋ค์ GAN-INT-CLS ๊ฐ ์์ฑํด๋ธ ๊ทธ๊ฒ๋ณด๋ค ๊ณ ํด์๋์ฒ๋ผ ๋ณด์์ต๋๋ค. ํ์ง๋ง ์ด ์ด๋ฏธ์ง๋ค์ text description ์ผ๋ก๋ง ์์ฑ๋ ์ด๋ฏธ์ง๊ฐ ์๋๋ผ๋ ์ ์ด ๋
ผ๋ฌธ์ StackGAN ์ ๋นํด์ ์์ฌ์ด ์ ์
๋๋ค.
์ ๊ทธ๋ฆผ์ StackGAN ์์๋ ์กด์ฌํ๋ ๋ GAN ์์ ์์ฑํ๋ ์ด๋ฏธ์ง๋ค์ ํํํ ๊ฒ์
๋๋ค. Stage-I GAN ์์๋ text description ์ด ๋ฌ์ฌํ๋ rough ํ ๋ชจ์๊ณผ ์๊ฐ๋ค์ ํํํ ์ ์์์ต๋๋ค. ํ์ง๋ง ๋๋ถ๋ถ์ด blurry ํ๊ณ , detail ์ด ๋ถ์กฑํ์ต๋๋ค. ์ด๋ฌํ ๋ถ์กฑํจ์ Stage-II GAN ์์ ๋ณด์ํด ์ฃผ์์ต๋๋ค.
์๋ก์จ ์ ๊ทธ๋ฆผ์ 5๋ฒ ์งธ ์ด์ ๊ทธ๋ฆผ๋ค์ ๋ณด๋ฉด reddish brown crown ์ธ๋ฐ ํ๋์ ์๊ฐ์ crown ์ ๊ฐ์ง๊ณ ์๋ ๋ถ๋ถ์ Stage-II GAN ์์ ๋ณด์ํด ์ฃผ์์ต๋๋ค. ๋ํ 7๋ฒ ์งธ ์ด์ฒ๋ผ ๋ฌผ์ฒด๋ฅผ ํน์ ์ง์ ์ ์๋ Stage-I GAN ์ ๊ฒฐ๊ณผ์๋ Stage-II GAN ์ด ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์์ฑํด ๋ผ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
์ ๊ทธ๋ฆผ์ ๋ GAN ๋ชจ๋ ์๋ํ๋ ๊ธฐ๋ฅ์ ์ ํํ ํด๋ด๊ณ ์์์ ๋ณด์ฌ์ฃผ๋ ๊ทธ๋ฆผ์ด์์ต๋๋ค.
๋ค์์ผ๋ก ์งํํ๋ ๊ฒ์ diversity ๋ฅผ ๋์ผ๋ก ๋ณด์ฌ ์ฃผ๊ณ ์์ต๋๋ค. ๋จ์ํ training example ์ ์ ์ฅํ๊ณ ๋์์ฃผ๋ ๊ฒ์ด ์๋๋ผ ๊ทธ๊ฒ๊ณผ ๋น์ทํ ํ๋ฅ ๋ถ๋
ธ๋ฅผ ํ์ตํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๋ ๊ทธ๋ฆผ์
๋๋ค. ์ข์ธก์ ๊ทธ๋ฆผ์ด text description ์ผ๋ก ์์ฑ๋ ์ด๋ฏธ์ง์ด๊ณ ์ฐ์ธก์ ๊ทธ๋ฆผ์ด training set ์ค nearest neighbors ๋ฅผ ๋ชจ์๋ ๊ฒ์
๋๋ค. ์ด๋ค์ด ๋น์ทํจ๊ณผ ๋์์ ๋ค๋ฅด๋ค๋ ์ฌ์ค์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.
Inception Score ๋ฅผ ํตํ ๋น๊ต๋ ์ ํ์ ๊ฐ์ด ์ ์ํด ์ฃผ์์ต๋๋ค. ๋ค์ํ ๋ฐ์ดํฐ ์
์ ์ด์ฉํด ํ์ต์ ์งํํ ๊ฒฐ๊ณผ ๋
ผ๋ฌธ์ StackGAN ์ด ๊ฐ์ฅ ๋์ ์์น๋ฅผ ๋ณด์๋ค๋ ๊ฒ์ ์ ์ํ์ต๋๋ค.
๋ค์์ผ๋ก ๋
ผ๋ฌธ์์๋ Conditioning Augmentation ์ ๊ธฐ๋ฅ์ ๋ํ ๊ฒ์ฆ์ ์งํํฉ๋๋ค. CA ๊ฐ ์กด์ฌํ๋ Stage-I GAN ๊ณผ ๊ทธ๋ ์ง ์์ Stage-I GAN ์ ๊ฒฐ๊ณผ๋ ๋ค์์ฑ์์ ํฐ ์ฐจ์ด๋ฅผ ๋ณด์ด๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ CA ๋ฅผ ํฌํจํ Stage-I GAN ๋ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋์ ๋์ StackGAN ๋ณด๋ค realistic ํ์ง๋ ๋ชปํ์ต๋๋ค.
๋ค์์ผ๋ก ์์ ์ ์ํ Conditining Augmentation ๊ณผ text embedding vector ๋ฅผ Stage-I GAN ์์๋ง ๋ฃ๋ ๊ฒฝ์ฐ(Text once), Stage-II GAN ์๋ ๋ฃ๋ ๊ฒฝ์ฐ(Text twice) ๋ฑ์ ๋ํ qualitative validation ์ ์งํํ์ต๋๋ค.
๊ทธ ๊ฒฐ๊ณผ ์์ ํ ์ฒ๋ผ CA ๋ฅผ ์งํํ ์๋ก, Text twice ๋ฅผ ์งํํ ์๋ก ๋์ Inception Score ๋ฅผ ๊ฐ์ง์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๊ฐ์ธ์ ์ผ๋ก๋ ์ด ๋ถ๋ถ์ด ์กฐ๊ธ ์ ๊ธฐํ์ต๋๋ค. ๋
ผ๋ฌธ์์๋ ๊ทธ๋ค์ StackGAN ์ด smooth ํ latent data manifold ๋ฅผ ํ์ตํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ธฐ ์ํด์ ๋ ๊ฐ์ ๋ฌธ์ฅ์ด ๋ง๋ค์ด ๋ด๋ word embedding vector phi ๋ฅผ interpolate ํ ์ดํ ๋ฃ์ด ์ค ๊ฒฝ์ฐ์ ๋์ค๋ ์ด๋ฏธ์ง ๋ํ interploate ๋ ๋ฏํ๊ฒ ๋์ด์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์๋ก ๋ค๋ฅธ text ๊ฐ ์ฌ์ค์ ์์ ํ ๋ ๋จ์ด์ง ๊ฒ์ด ์๋๋ผ ์์ฐ์ค๋ฝ๊ฒ ์ด์ด์ง ์ ์๋ data ์์ญ์ ๊ฐ์ง๊ณ ์๋๋ก ํ์ตํ ์ ์๋ค๋ ๊ฒ์
๋๋ค.
Supplementary Materials
์ด๊ฒ์ผ๋ก ๋
ผ๋ฌธ์ ๋ํ ๋ฆฌ๋ทฐ๋ ๋๋ฌ์ต๋๋ค. ์ฌ๊ธฐ์๋ ์ถ๊ฐ์ ์ผ๋ก text-image ๋ฐ์ดํฐ๊ฐ ๊ถ๊ธํ์ ๋ถ๋ค์ ์ํด ๋
ผ๋ฌธ์ ์ฒจ๋ถ๋ ์ฌ์ง์ ๋ณด์ฌ๋๋ฆฝ๋๋ค.
Conclusion
์ด๊ฒ์ผ๋ก ๋
ผ๋ฌธย โStackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networksโ์ ๋ด์ฉ์ ๊ฐ๋จํ๊ฒ ์์ฝํด๋ณด์์ต๋๋ค.
์ฒ์ ์ ํด๋ณด๋ ์ข
๋ฅ์ ์ฃผ์ ์ฌ์ ์ ์ ํ๊ฒ ์ฝ์ ์ ์์์ง๋ง, ๋
ผ๋ฌธ ๋ด์์ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ์์ธํ ์ค๋ช
ํด์ฃผ์ง ์์์ ์์ฌ์ ์ต๋๋ค. ํนํ ๋
ผ๋ฌธ์์ ์ ์ํ๋ ์ด๋ฏธ์ง๋ค์ ๋ณด๋ ์ฌ๋ฏธ๊ฐ ์ปธ์ต๋๋ค.
๊ฐ์ธ์ ์ผ๋ก๋ GAN ์ ๋ ํฐ ํฅ๋ฏธ๋ฅผ ๋๋ผ๊ฒ ํด์ฃผ๋ ๋
ผ๋ฌธ์ด์๋ค๊ณ ์๊ฐ์ด ๋ญ๋๋ค. ์ฌ๋ฌ๋ถ๋ค๋ GAN ์ ๊ด์ฌ์ด ์์ผ์๋ค๋ฉด ๊ผญ ํ ๋ฒ ์ฝ์ด๋ณด์๋ฉด ์ข์ ๊ฒ ๊ฐ์ต๋๋ค.