๋ณธ ํฌ์คํธ๋ ์ ๊ฐ ํด๋จผ์ค์ผ์ดํ ๊ธฐ์ ๋ธ๋ก๊ทธ์ ๋จผ์ ์์ฑํ๊ณ ์ฎ๊ธด ํฌ์คํธ์
๋๋ค.
๋ณธ ํฌ์คํธ์์๋ biomedical segmentation ๋ถ์ผ์์ ์ธ์ฉ ์ 16000+์ ์ก๋ฐํ๋ ๋
ผ๋ฌธ์ ๋ํด์ ๋ฆฌ๋ทฐํ๋ ค๊ณ ํฉ๋๋ค. ๋
ผ๋ฌธ์ ์ ๋ชฉ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
โU-Net: Convolutional Networks For Biomedical Image Segmentationโ
Network Architecture of U-Net
Objective
๋
ผ๋ฌธ์์ ๋ชฉ์ ์ผ๋ก ํ๋ ๋ฐ๋ biomedical image segmentation์
๋๋ค. ์์ธํ ์ค๋ช
ํ์๋ฉด, ์ ์ ํ๋ฏธ๊ฒฝ ๋ฑ์ผ๋ก ๊ด์ฐฐํ ์ด๋ฏธ์ง์์ ํน์ ์ธํฌ(ex. ์ ๊ฒฝ์ธํฌ, ์์ธํฌ)๋ฅผ ๋ฐฐ๊ฒฝ์ผ๋ก๋ถํฐ ๋ถ๋ฅํ๋ ์์
์
๋๋ค. ๋ณธ๋ segmentation์ด๋ผ ํ๋ฉด object detection์ ํฌํจํ๋ ๊ฐ๋
์ผ๋กย ๋ค์ํ ์ข
๋ฅ์ ๊ฐ์ฒด๋ค์ ๋ถ๋ฅํด๋ด๊ณ ์ฐพ์๋ด๋ ๊ฒ์ด์ง๋ง, ๋
ผ๋ฌธ์์ ์ด์ ์ ๋ง์ถ๊ณ ์ ํ๋ ๋ฐ๋ ์ด๋ฏธ์ง ์์์ ๋ค์ํ ์ธํฌ๋ฅผ ๋ถ๋ฅํด ๋ด๋ ๊ฒ์ด ์๋ ๋จ์ํย ํ ์ข
๋ฅ์ ๊ฐ์ฒด๋ค์ ๋ฐฐ๊ฒฝ๊ณผ ์์ ํ ๋ถ๋ฆฌํ๋ ๊ฒ์
๋๋ค.
๊ตฌ์กฐ์ ๊ด์ ์ ๋ชฉ์ ์ U-Net architecture ์ ๋ง์ง๋ง layer์ output์ผ๋ก ์ฐ์ถ๋๋ย segmenation map์ ํ์ต์ ํตํด ์ป์ด๋ธ๋ค๊ณ ๋ณด์๋ฉด ๋ฉ๋๋ค.
Comparison with Prior Study
๋
ผ๋ฌธ์์ ์ฃผ๋ก ๋น๊ต์ ๋ชฉ์ ์ผ๋ก ๊บผ๋ด๋ ๋
ผ๋ฌธ์ด Ciresan et al.(์ดํ [1])์
๋๋ค. [1]์ architecture๋ EM segmentation challenge at ISBI 2012์์ ์ฐ์น์ ์ฐจ์งํ์๋งํผ ์ฑ๊ณต์ ์ด์์ง๋ง, ํฌ๊ฒ ๋ ๊ฐ์ง์ ๋ฌธ์ ์ ์ด ์กด์ฌํ์ต๋๋ค.
์ฒซ ๋ฒ์งธ๋ localization(์ด๋ฏธ์ง์ ์ธ๋ถ ํน์ฑ ๋ฐ์)์ ์ํด์ image๋ฅผ patch๋จ์๋ก ๋ถ๋ฆฌํ์ฌ window-slide ํํ๋ก ํ์ต์์ผ์ ๋ฐ์ดํฐ์ ์ค๋ณต์ด ๋งค์ฐ ๋ง์ผ๋ฉฐ, ํ์ต ์๊ฐ์ด ๊ธธ์๋ค๋ ์ ์
๋๋ค.
Window-slide
Window-slide๋ ์ ๊ทธ๋ฆผ์ฒ๋ผ image๋ฅผ patch๋ก ๋๋์ด ํ์ต์ํฌ ๋ ๊ณตํต๋ ๋ถ๋ถ์ด ๊ต์ฅํ ๋ง๊ณ , ์ด์ ๋ฐ๋ผ patch ๊ฐ์๋ ๋ง์์ง๋๋ค. ํจ๊ณผ์ ์ธ localization์ ์ํด์๋ ์ข์ ๋ฐฉ๋ฒ์ผ ์ ์์ผ๋, ํ์ต ์๋ ์ธก๋ฉด์์ ์ข์ ๋ฐฉ๋ฒ์ด ์๋๋๋ค.
๋ ๋ฒ์งธ๋ localization๊ณผ context๊ฐ์ trade-off๊ฐ ์กด์ฌํ์ฌ ๋ ํน์ฑ์ ๋ชจ๋ ์ฑ๊ธฐ๊ธฐ ์ด๋ ค์ ๋ค๋ ์ ์
๋๋ค.
Patch size๊ฐ ํฌ๋ฉด feature data๊ฐ context(์ด๋ฏธ์ง์ ๊ฐ๋ต์ ์ธ ํจํด ๋ฐ์)์ ๋ํ ๋ด์ฉ์ ํฌํจํ๊ธฐ ์ฉ์ดํ์ง๋ง localization์ ๋ํ ๋ด์ฉ์ ํฌํจํ๊ธฐ๋ ์ด๋ ต์ต๋๋ค. ๋ฐ๋ฉด์, patch size๊ฐ ์์ผ๋ฉด localization์ ๋ํ ๋ด์ฉ์ ํฌํจํ๊ธฐ ์ฉ์ดํ์ง๋ง context์ ๋ํ ๋ด์ฉ์ ํฌํจํ๊ธฐ ์ด๋ ต์ต๋๋ค.
Methods
์์ ์ ์ํ ์ ํ์ฐ๊ตฌ์ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด์, ๋
ผ๋ฌธ์์๋ ํฌ๊ฒ ๋ ๊ฐ์ง์ ๊ฐ์ ๋ฐฉ์๊ณผ, ๋ชฉ์ ์ ํจ๊ณผ์ ์ผ๋ก ๋ฌ์ฑํ๊ธฐ ์ํ ์ค๊ณ๋ฅผ ์งํํฉ๋๋ค.
์ฒซ ๋ฒ์งธ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด์ ๋
ผ๋ฌธ์์๋ Overlap-Tile Strategy๋ฅผ ์ฌ์ฉํฉ๋๋ค.
Overlap-Tile Strategy
Overlap-Tile Strategy๋ ์ ๊ทธ๋ฆผ์ฒ๋ผ ํ๋์ ๋ฒ์์ input image patch๋ฅผ ๋ฃ์์ ๋ ๋
ธ๋์ ๋ฒ์์ segmented image๊ฐ ๋์จ๊ฒ ๋๋ ์ํฉ์์, output segmented image๊ฐ ๊ฒน์น๋ ๋ฒ์ ์์ด ๋์ค๋๋ก input image patch์ ์ค์ ๋ฒ์๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์
๋๋ค. ์ฐ์ธก์ ๋ ๋
ธ๋์ ๋ฒ์๊ฐ ๋ฑ์ฅํ๋ output segmented image์ผ ๋ ์ค์ ํด์ผ ํ ๋ input image patch์ ๋ฒ์๋ ์ฐ์ธก์ ๋ ํ๋์ ๋ฒ์์ ๊ฐ์ต๋๋ค. Overlap์ด๋ผ๋ ๋จ์ด๋ padding์ด ์กด์ฌํ์ง ์๋ ๋
ผ๋ฌธ์ architecture ํน์ฑ์ input์ ๋นํด output์ size๊ฐ ์ค์ด๋ค๊ธฐ ๋๋ฌธ์ ๋ํ๋๋ input ์ค์ ์ ๊ฒน์น๋ ํน์ฑ์ ์ผ์ปซ๋ ๋ง์
๋๋ค.
์ด์ ๊ฐ์ด patch size๋ฅผ ์ค์ ํ์ฌ ๊ณผ๋ํ๊ฒ ๋ง์ patch ๊ฐ์๋ฅผ ์ค์ด๋ ์ ๋ต์ ์ฌ์ฉํ์ต๋๋ค. ์ฌ๊ธฐ์ ๋๋ถ์ด ์ต์ข
์ ์ผ๋ก ๋น ๋ถ๋ถ์ด ๋์ด์ง๋ ๊ฐ์ฅ์๋ฆฌ ๋ถ๋ถ์ mirroring extrapolation(๊ฐ์ฅ์๋ฆฌ๋ฅผ ๊ฑฐ์ธ ๋์นญ)์ ์ด์ฉํด์ ์ฑ์ฐ๊ฒ ๋ฉ๋๋ค.
U-Net Architecture๋ ๋ฒ์งธ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด์ ๋
ผ๋ฌธ์์๋ U-Net Architecture๋ฅผ ๊ตฌํํ์ต๋๋ค. U-Net Architecture๊ฐ ๊ธฐ์กด๊ณผ ๊ฐ์ฅ ๋ค๋ฅธ ํน์ดํ ์ ์ Contracting Path, Exansive Path, ๊ทธ๋ฆฌ๊ณ Contracting Path๋ก๋ถํฐ Expansive Path๋ก ์ฃผ์ด์ง๋ Skip Connection์ด ์กด์ฌํ๋ค๋ ์ ์
๋๋ค.
Detail U-Net Architecture
Contracting Path๋ ์ผ๋ฐ์ ์ธ deep learning architecture์์ ๋ณด์ด๋ ๋ฐ์ ๊ฐ์ด image๋ก๋ถํฐ feature๋ฅผ extractingํ๋ ๋ถ๋ถ์
๋๋ค. Expansive Path๋ segmentation map(๊ฐ pixel์ ๋ํ binary classification map)์ ๋ค์ ๋ง๋ค์ด๋ด๊ธฐ ์ํด์ ๋ค์ upsampling ํ๋ ๊ณผ์ ์
๋๋ค.
์ฌ๊ธฐ๊น์ง๋ deep learning์ ๊ธฐ๋ณธ์ ์ธ ์ค๊ณ์ธ feature extraction๊ณผ ๋ชฉ์ ์ฑ์ ๋ง๊ฒ upsamplingํ๋ ๊ณผ์ ์ผ๋ก ๋ณผ ์ ์์ง๋ง, U-Net์์๋ ํน๋ณํ๊ฒ ์์ patch size์์๋ feature๊ฐ context์ ๋ํ ์ ๋ณด๋ฅผ ํฌํจํ ์ ์๊ฒ ํ๊ธฐ ์ํด์ Skip Connection์ด๋ผ๋ ๊ฒ์ ์ถ๊ฐํฉ๋๋ค.
Contracting Path์ ์กด์ฌํ๋ ๊ฐ layer๋จ๊ณ์ ์กด์ฌํ๋ ์ผ๋ถ feature๋ฅผ ์๋ผ์ Expansive Path์ feature์ concatenateํด์ฃผ์ด ๊ฒฐ๊ณผ์ ์ผ๋ก upsampling ๋จ๊ณ์์ ๋์ด๋ channel ์๊ฐ context์ ๋ํ ์ ๋ณด๋ฅผ ๊ฐ์ง ์ ์๊ฒ ์ค๊ณ๋ฅผ ์งํํ ๊ฒ์
๋๋ค.
์ด๋ ๊ฒ ์ ๋ฐ์ ์ผ๋ก U ํํ๋ฅผ ๊ทธ๋ฆฌ๋ architecture๋ฅผ ๊ตฌํํ์ฌ U-Net์ด๋ผ๋ ์ด๋ฆ์ ๊ฐ์ง๊ฒ ๋ฉ๋๋ค.
Touching Object Classification๋
ผ๋ฌธ์์ ์ง๋ฉดํ๋ ๋ฌธ์ ์ค ํ๋๋ ๊ฒน์ณ์ ธ ์๋ ๊ฐ์ฒด๋ค์ ํจ๊ณผ์ ์ธ ๋ถ๋ฅ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋
ผ๋ฌธ์์๋ ํ์ต์ ์ํ Cross Entropy๋ฅผ ์ ์ํ ๋ ๊ฐ์ฅ์๋ฆฌ์ ๊ฐ๊น์ด pixel์ ๋์ฑ ๊ฐ์ค์น๋ฅผ ๋์ด ํ์ต์ ์งํ์์ผฐ์ต๋๋ค. ์ด์ ๋ํ ์์ธํ ์ค๋ช
์ ๋ค์์ ์ด์ด์ ์งํํ๋๋ก ํ๊ฒ ์ต๋๋ค.
Touching Object Classification
Training
๋
ผ๋ฌธ์์ weight ํ์ต์ ์ํ ๊ธฐ์ค์ด ๋๋ energy function์ pixel-wise soft-max function๊ณผ cross-entropy loss function์ผ๋ก ๊ณ์ฐํฉ๋๋ค.
๋จผ์ ย pixel-wise soft max function์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
K๋ ์ ์ฒด label์ ์, k๋ ๊ทธ ์ค ํน์ label์ ์ง์ ํ๋ ๋ณ์์ด๋ฉฐ, ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ง์ง๋ง output channel์ index๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค. a_k(X)๋ X์ ์์น(pixel x,y)์ ์๋ activation์ ๊ฐ์
๋๋ค.
์ด soft max function์ ์ค๊ณ์์ ๊ธฐ๋ํ๋ ๊ฒ์ ํน์ pixel์ ์์น X์ ๋ํด ์ฌ๋ฐ๋ฅธ k๋ก ํ์ต๋์์ ๋ p_k(X)๊ฐ 1์ ๊ฐ๊น์ด ๊ฐ์ ์๋ ดํ๊ณ , ๋ค๋ฅธ ๊ฒฝ์ฐ์ 0์ ๊ฐ๊น์ด ๊ฐ์ผ๋ก ์๋ ดํ๋ ๊ฒ์
๋๋ค.
๋ค์์ผ๋กย cross-entropy loss function์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
w(X)ํญ์ ๊ฐ์ค์น์ ๋ํ ํญ๋ชฉ์ด๋ฉฐ l(X)๋ ์์น X์ ๋ํ ground truth label์
๋๋ค. ์ ์ฒด function์ ํํ๋ ํํ ์๊ณ ์๋ cross-entropy์ ํํ์ ๋งค์ฐ ์ ์ฌํ๋ฉฐ ๋ค๋ฅธ ์ ์ด ์๋ค๋ฉด ๊ฐ์ค์น์ ๋ํ ํญ๋ชฉ์
๋๋ค. ๊ฐ ์์น์ ๋ํ ground truth channel์ soft max function์ logarithm์ ํฉ์ฐํ ํํ๋ก ๋ณผ ์ ์์ผ๋ฉฐ, soft max function ๊ฒฐ๊ณผ๊ฐ ์ ๋๋ก ์์ธก๋ ์๋ก ์๋์ง๊ฐ ์ปค์ง๋ ํํ์์ ํ์ธํ ์ ์์ต๋๋ค.
๋๋ถ์ด ์์ ์๋ตํย ๊ฐ์ค์น์ ๋ํ ์ค๋ช
์ ๊ฐ๋จํ ๋๋ฆฌ์๋ฉด, ๋ค์๊ณผ ๊ฐ์ ์์์ผ๋ก ์ ์ํ์ต๋๋ค.
w_c(X)๋ ๊ฐ training data ๋ณ๋ก class frequency(labeling๋ pixel์ ๋น์จ๋ค)์ด ๋ค๋ฅธ ๊ฒ์ ์กฐ์ ํด ์ฃผ๋ weight map์
๋๋ค. d_1(X)๋ ๊ฐ์ฅ ๊ฐ๊น์ด cell๊ณผ border๊น์ง์ ๊ฑฐ๋ฆฌ์ด๊ณ d_2(X)๋ ๋ ๋ฒ์งธ๋ก ๊ฐ๊น์ด cell๊ณผ border๊น์ง์ ๊ฑฐ๋ฆฌ์
๋๋ค. ์ฌ๊ธฐ์ ์ฃผ๋ชฉํ ์ ์ border๊น์ง์ ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ๊น์ด ์์น์ ์๋ pixel๋ค์ด ๊ธฐ์ฌํ๋ ์๋์ง์ ๋ ๊ฐ์ค์น๊ฐ ๋๋ค๋ ์ ์
๋๋ค. ๋
ผ๋ฌธ์์๋ ์ด ๋ฐฉ๋ฒ์ ํตํด์ ์ธ์ ํ ๊ฐ์ฒด๋ค์ ๊ฒฝ๊ณ๋ฅผ ํ์คํ ๊ตฌ๋ณํ๊ธฐ ์ํ ๊ณผ์ ์๋ touching object classification ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค๊ณ ํ์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก, ๋
ผ๋ฌธ์์๋ ์ด์ ์ ๋ง์ถ์๋ ๋ฌธ์ ์ ํน์ฑ์ ํ์ต์ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ๊ตฌํ ์ ์์๊ธฐ ๋๋ฌธ์ย data augmentation์ ์งํํ์ต๋๋ค. ๊ทธ ๋ฐฉ๋ฒ์ผ๋ก elastic deformation์ ์ฌ์ฉํ๋๋ฐ ๊ฐ pixel์ gaussian distribution์ ๊ฐ์ง๋ random displacement vector๋ก์ ๋ณํ์ ์ด์ฉํด์ ๋ฐ์ดํฐ ์๋ฅผ ์ธ์์ ์ผ๋ก ๋๋ ธ๋ค๋ ์ ๋๋ง ์ธ๊ธํ๊ณ ๋์ด๊ฐ๋๋ก ํ๊ฒ ์ต๋๋ค.
Experiments & Results
๋
ผ๋ฌธ์์ ์ ์ํ ์คํ๊ณผ ๊ทธ ๊ฒฐ๊ณผ๋ ๋
ผ๋ฌธ ์ฐ๊ตฌ์ง๋ค์ด ์ถ์ ํ๋ EM segmentation challenge์ ISBI cell tracking challenge์ ๊ฒฐ๊ณผ์์ต๋๋ค.
Ranking on the EM segmentation challenge 2015, sorted by Warping Error
Warping error์ ๊ด์ ์์ ๋
ผ๋ฌธ์์ ์ ์ํ U-Net์ด ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ topological ๊ด์ ์์์ equality๋ฅผ ๋ฐ์ง error์ด๋ฉฐ rand error๋ณด๋ค ๊ฒฝ๊ณ์ shifting์ ๋ํด์ ๋ฏผ๊ฐํ error์
๋๋ค. ๋ง์ง๋ง์ผ๋ก Pixel Error๋ ๊ฐ์ฅ ์ผ๋ฐ์ ์ผ๋ก ์๊ฐํ ์ ์๋, pixel-wise๋ก ์ ๋๋ก segmentation์ด ์ด๋ฃจ์ด์ก๋์ง๋ฅผ ํ๋จํ๋ error์
๋๋ค. ์์ธํ error์ ๋ํ ์ค๋ช
์ย ์ด๊ณณ์ ์ฐธ๊ณ ํ์๋ฉด ์ข์ ๊ฒ ๊ฐ์ต๋๋ค.
๋๋ถ์ด ์์น๋ก ๋ ์ ๊ณตํ ๊ฒ์ด IOU(Intersection Over Union)์
๋๋ค. ์ด๋ ground truth์ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํจ์ ์์ด ๊ต์ฐจ์์ญ์ ํฉ์์ญ์ผ๋ก ๋๋ ๊ฐ์
๋๋ค. ์ฆ, ์ผ๋ง๋ ์ค์ ์ ๋์ผํ๊ฒ ๊ฒน์ณ์ ธ ์๋๋๋ฅผ ์ธก์ ํ๋ ์ฒ๋๋ก ๋ณด์๋ฉด ๋ฉ๋๋ค.
Segmentation results(IOU) on the ISBI cell tracking challenge 2015
์ ๊ฒฐ๊ณผ์ฒ๋ผ ๊ฐ cell๋ณ๋ก ๋ณธ ๋
ผ๋ฌธ์ด ๊ตฌํํ architecture๊ฐ ๊ฐ์ฅ ๋์ IOU ์์น๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์๋ ๊ทธ๋ฆผ์ ๊ฐ๊ฐ์ cell์ ์ค์ ๋ก trackingํ ๋ชจ์ต์
๋๋ค.
Results on ISBI cell tracking challenge 2015
Conclusion
์ด๊ฒ์ผ๋ก ๋
ผ๋ฌธย โU-Net: Convolutional Networks For Biomedical Image Segmentationโ์ ๋ด์ฉ์ ๊ฐ๋จํ๊ฒ ์์ฝํด๋ณด์์ต๋๋ค. ์ค์ ๋ก ์ด ๋
ผ๋ฌธ์ ๋
ผ๋ฌธ์ ๊ฒฐ๋ก ๋ถ๋ถ์์ U-Net ์ด ๋ค์ํ biomedical segmentation application์ ์ ์ฉ๋ ์ ์์ ๊ฒ์ด๋ผ๊ณ ์ธ๊ธํ ๊ฒ์ ๊ธฐ๋๋ผ๋ ํ๋ ๋ฏํ ๋์ ์ธ์ฉ์น๋ฅผ ์ ๋ณด์์ต๋๋ค.
๊ฐ์ธ์ ์ผ๋ก ๋ฅ๋ฌ๋์ด biomedical ๋ถ์ผ์์ ํ์ฌ ์งํ ์ค์ธ ๊ธฐ์ฌ๋ณด๋ค ์์ผ๋ก ๋ ๋ง์ ๊ฒ๋ค์ ํ ์ ์์ ๊ฒ ๊ฐ์์ ๋๋ ์ ์์๋ ๋
ผ๋ฌธ์ด ์๋์๋ ์ถ์ต๋๋ค.