๋ณธ ํฌ์คํธ๋ ์ ๊ฐ ํด๋จผ์ค์ผ์ดํ ๊ธฐ์ ๋ธ๋ก๊ทธ์ ๋จผ์ ์์ฑํ๊ณ ์ฎ๊ธด ํฌ์คํธ์
๋๋ค.
์ด๋ฒ ํฌ์คํธ์์๋ Machine Learning์ ์ฌ์ฉ๋๋ ๋ค์ํ optimizer๊ฐ ๋ฐฐ๊ฒฝ์ผ๋ก ํ๋ gradient descent algorithms์ ๋ํด์ ์ ๋ฆฌํ ๋
ผ๋ฌธ์ ๋ํด์ ๋ฆฌ๋ทฐํ๋ ค๊ณ ํฉ๋๋ค. ๋ฆฌ๋ทฐํ๋ ค๋ ๋
ผ๋ฌธ์ ์ ๋ชฉ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
โAn overview of gradient descent optimization algorithmsโ
๋
ผ๋ฌธ์ ๋ชฉ์ ์ ๋
์๋ค์๊ฒ ๋ค์ํ Gradient Descent Algorithm์ ๋ํ ์ง๊ด์ ๊ฐ์ง ์ ์๊ฒ ํ๋ ๊ฒ์
๋๋ค. ๋
ผ๋ฌธ์ ๋ํ ๋ด์ฉ์ ์ง์ ๋ณด์๊ณ ์ถ์ผ์ ๋ถ์ย ์ด๊ณณ์ ์ฐธ๊ณ ํ์๋ฉด ์ข์ต๋๋ค.
๊ฐ๊ฐ์ Gradient Descent Algorithm์ ์ค๋ช
ํ๊ธฐ ์ ์ ์ ๊ทธ๋ฆผ์ ๊ด๊ณ๋ก ๊ฐ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ด ํ์ํ๊ฒ ๋์๋ค ์ ๋๋ฅผ ๊ฐ๋ณ๊ฒ ๋ณด๊ณ ๋์ด๊ฐ์๋ฉด ์ข์ ๊ฒ ๊ฐ์ต๋๋ค. ์ฌ๊ธฐ์ ๊ฒ์์ ํ์ดํ์ ๊ฒฝ์ฐ DataSet Size์ ๊ด๋ จํ ๋ณํ์ด๋ฉฐ ๋ถ์์ ํ์ดํ์ ๊ฒฝ์ฐ Step Size์ ๊ด๋ จํ ๋ณํ์ด๊ณ ํธ๋ฅธ์ ํ์ดํ์ ๊ฒฝ์ฐ Step Direction์ ๊ด๋ จํ ๋ณํ๋ก ๋ณด์๋ฉด ๋ฉ๋๋ค.์์ธํ ์ค๋ช
์ ์ง๊ธ๋ถํฐ ์์ํ๊ฒ ์ต๋๋ค.
BGD (Batch Gradient Descent)
Batch Gradient Descent๋ ์ ํฌ๊ฐ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ผ๋ก ์๊ณ ์๋ Gradient Descent ์
๋๋ค. ํน์ step์์ ํน์ parameter theta๊ฐ ๋ณธ์ธ์ ๋ํ objective function J์ ๋ฐฉํฅ ๋ฏธ๋ถ์ฑ๋ถ๋งํผ ๋ณํํ๋ ํํ๋ฅผย Gradient Descent๋ผ๊ณ ํํํ๋ค๋ ๊ฒ์ ์ ํฌ๋ ๋๋ฌด๋ ์ ์๊ณ ์์ต๋๋ค. ์ด ๋ objective function J๊ฐย ์ ์ฒด ๋ฐ์ดํฐ์
์ ๋ํ cost function์ ํฉ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ ๊ฒฝ์ฐ๋ฅผย Batch Gradient Descentย ๋ผ๊ณ ๋ถ๋ฆ
๋๋ค. ์ด algorithm์์ ์ง๊ณ ๋์ด๊ฐ ์ ์ด ์๋ค๋ฉด ์ ์ฒด ๋ฐ์ดํฐ์
์ ๋ํ objective function์ ์ฌ์ฉํ๋ค๋ ์ ์
๋๋ค.
์ ์ฒด ๋ฐ์ดํฐ์
...?? Batchโฆ??
๋ค๋ง, โBatchโ๋ผ๋ ์ฉ์ด ๋๋ฌธ์ ์ ๋ํ ๊ทธ๋ฌ๊ณ , ๋ง์ ๋ถ๋ค์ด ์ฒ์์ ํผ๋์ ๊ฒช๊ณ ๋ ํฉ๋๋ค. ํํ Batch๋ ํ์ต ์ฉ์ด๋ก ์ ์ฒด dataset์ ๋๋ ๋ฐ์ดํฐ ์
์ ํ ๋จ์๋ฅผ ์๊ฐํ๊ธฐ ์ฝ๊ธฐ ๋๋ฌธ์
๋๋ค. ํ์ง๋ง, Batch ์์ฒด๋ ์ ์ฒด ๋ฐ์ดํฐ ์
์ ์๋ฏธํ๋ฉฐ, ์ค์ ๋ก ์ ํฌ๊ฐ Batch๋ก ๋ง์ด ์๊ฐํ๋ ๊ฒ์ mini-batch๋ก ๋ณด์๋ ๊ฒ์ด ๋ง์ต๋๋ค.
SGD (Stochastic Gradient Descent)
BGD๋ Machine Learning์ ๊ทผ๋ณธ algorithm์ด ๋๊ธฐ์๋ ์ถฉ๋ถํ์ต๋๋ค. ํ์ง๋ง, parameter๋ฅผ ํ ๋ฒ updateํ๊ธฐ ์ํด์๋ ์ ์ฒด ๋ฐ์ดํฐ์
์ ๋์ objective function์ ๊ณ์ฐํด์ผ ํ๊ณ ย ํ์ต ์๋๊ฐ ๋๋ฆฌ๋ค๋ ๋จ์ ์ด ์์์ต๋๋ค.
์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด ๋ฑ์ฅํ ๊ฒ์ด Stochastic Gradient Descent์
๋๋ค.
BGD์์ ์ฐจ์ด์ ์ objective function J์ ํํ์
๋๋ค. BGD๊ฐ ์ ์ฒด ๋ฐ์ดํฐ์
์ ๋ํ cost function์ ํฉ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์์๋ค๋ฉด SGD๋ ํ๋์ ๋ฐ์ดํฐ๋ก๋ง ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ํ๋์ ์
๋ฐ์ดํธ๋ฅผ ์ํ ๊ณ์ฐ๊ณผ์ ์ด ์ค๋ ๊ฑธ๋ฆฌ์ง ์๊ณ ย ๋น ๋ฅด๊ฒย ์งํ๋ ์ ์์ต๋๋ค.๋ถ๊ฐ์ ์ผ๋ก, SGD์์๋ ํ๋์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ parameter์ fluctuation์ด ํฐ ํธ์ด๋ฉฐ ์ด ๋๋ฌธ์ ๊ธฐ์กด BGD์์ ์์ฃผ ๋ฐ์ํ๋ย local minimum์ ๋น ์ ธ์ ๋์ค์ง ๋ชปํ๋ ํ์์ด SGD์์๋ ์ ๋ํ๋์ง ์๋๋ค๋ ๊ฒ๋ ์ฅ์ ์ด ๋ ์ ์์ต๋๋ค.
Mini-Batch Gradient Descent
SGD๋ ๊ธฐ์กด BGD์ ๋๋ฆฐ ํ์ต์๋๋ฅผ ํด๊ฒฐํด์ฃผ๊ธฐ์๋ ์ ํฉํ algorithm์ด์์ผ๋, update๋ง๋ค์ ํฐ fluctuation์ด algorithm์ย convergence๋ฅผ ๋ฐฉํดํ๋ ๊ฒฝ์ฐ๊ฐ ๋ํ๋๋ค๋ ๋จ์ ์ด ์์์ต๋๋ค.
์ ํฌ๊ฐ ๋ง์ด ๊ฒช๋ ๋ ํผํ ๋ฆฌ์ด์ง๋ง, ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์์ ์ด๋ค ์ค๊ณ์ ์๊ทน๋จ์ด ๊ฐ์ง๋ ํฐ ๋จ์ ๋ค์ ์ ์ ํ ๋ณด์ํ๊ธฐ ์ํด์ ๋ฐ์ฉ ๊ฐ์ ธ๋ค๊ฐ ์๋ ๊ฒ์ด ์ข์ ํจ์จ์ ๋ณด์ด๊ณค ํฉ๋๋ค.
Mini-Batch Gradient Descent๊ฐ ๊ทธ ์์ ์ค ํ๋๋ผ๊ณ ๋ณด์๋ฉด ๋ฉ๋๋ค. ์ ์ฒด๋, ํ๋๋ ์๋ย ์ ๋นํ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์
์ ์ฌ์ฉํฉ๋๋ค.
์์ ์์์ objective function J์ ์ ์๋ฅผ ์ํดย n๊ฐ์ ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ ๊ฒฝ์ฐ์
๋๋ค. ์ ์ฒด๋ฅผ ๋ค ์ด์ฉํ์ง ์์์ BGD๋ณด๋ค ์๋์ ์ผ๋ก ๋น ๋ฅด๊ณ , ์ด๋์ ๋์ ์ง๋จ์ ๋ง๋ค์ด ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ SGD๋ณด๋ค ์๋ ด์ฑ์ด ์ข์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ์ด๋ฌํ ์๋๋ฅผ ํตํด์ย ๋น ๋ฅด๋ฉด์๋ ์ ์๋ ด๋๋ย gradient descent algorithm์ ๋ง๋ค์ด๋
๋๋ค.
Momentum
์ง๊ธ๋ถํฐ๋ ์ด์ง ๊ฒฐ์ด ๋ค๋ฅธ ์ด์ผ๊ธฐ๊ฐ ๋ค์ด๊ฐ๋๋ค. ์์ ์ค๋ช
๋๋ฆฐ ์ธ ๊ฐ์ง์ algorithm๋ค์ objective function J๊ฐ ์ ์๋๋ ๋ฐ์ดํฐ์
์ ๋ฒ์์ ํ์ ๋ ์ด์ผ๊ธฐ์์ต๋๋ค.
๊ธฐ์กด SGD์ ๋ฌธ์ ์ ์ค ํ๋๋ก fluctuation์ด ํฌ๋ค๋ ๊ฒ์ ์ธ๊ธํ๋ ์ ์ด ์์ต๋๋ค. ์์๋ ์๋ ด ์์ฒด๋ฅผ ๋ฐฉํดํ ์ ์๋ค๊ณ ๋ง ์ธ๊ธ๋๋ ธ๋๋ฐ, ์ถ๊ฐ์ ์ผ๋ก local minima์ ๊ฐ๊น์ธ ์๋ก ๊ฒฝ์ฌ๊ฐ ๊ธํ gradient descent๋ฅผ ์ฐ์ถํด๋ผ ๊ฐ๋ฅ์ฑ์ด ํฌ๋ฉฐย ์๋ ด ์๋๋ ๋๋ฆฌ๊ฒ ํ๋ ๋ฌธ์ ์ ์ด ์์ต๋๋ค.
์ด๋ ๊ฒ local minima์์ ๊ธํ๊ฒ ๋ณํ๋ gradient๋ฅผ ์ ์ดํด์ฃผ๊ธฐ ์ํด ๋ฑ์ฅํ ๊ฐ๋
์ดย Momentum์
๋๋ค. ๋จ์ด์์ ์ ์ถํ์ ๋ถ๋ ์๊ฒ ์ง๋ง gradient์ ๊ด์ฑ์ ์ฑ์ง์ ๋ํด์ฃผ๋ algorithm์
๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ ๋ฐฉ๋ฒ์ผ๋กย ํ์ฌ์ gradient๋ฅผ ์ฐ์ถํ๊ธฐ ์ํด ๊ณผ๊ฑฐ์ gradient๋ฅผ ์ฐธ๊ณ ํ์ฌ ๋ฐ์ํ๊ฒ ๋ฉ๋๋ค.
์ ๊ฐ ๋์ชฝ์ผ๋ก 100m/s ์ ์๋ ฅ์ผ๋ก ๋ฌ๋ฆฌ๊ณ ์๋๋ฐ ๊ฐ์๊ธฐ ๋ค์ ๋ช
๋ น์ผ๋ก ์์ชฝ์ผ๋ก 100m/s ๋ก ๋ฌ๋ฆฌ๋ ค๊ณ ํ๋ฉด ๋ฐ๋ก ๋ฐ๊พธ๊ธฐ๋ ์ฝ์ง ์์ต๋๋ค.์ด๋ฌํ ์ ์ ๋ฐ์ํ์ฌ ์ ๊ฐ ๋์ชฝ์ผ๋ก 100m/s๋ก ๋ฌ๋ฆฌ๊ณ ์์๋ค๋ ์ฌ์ค์ ๋ค์ ๋ช
๋ น์ ์ฐ์ถํ ๋ย ๋ฐ์ํ์ฌ ์์ชฝ์ผ๋ก 20m/s ์ ๋๋ก๋ง ๋ฌ๋ฆฌ๋ผ๋ ๊ฒ์ผ๋ก ์ํํ๋ค๊ณ ์๊ฐํ์๋ฉด ๋ฉ๋๋ค.
๋ฌผ๋ก โฆ ๊ณผ๊ฑฐ์ gradient๊ฐ ํ์ฌ์ gradient๋ณด๋ค ์ํฅ์ ๋ผ์น๋ ์ ๋๊ฐ ์ปค์ง๋ฉด ์๋๊ฒ ์ฃ ??
์ด ๋๋ฌธ์ momentum term์ธ gamma<1๋ฅผ ์ค์ ํ์ฌ ๋ฐ์ํฉ๋๋ค. ์ด๋ ๊ฒ ์ค์ ํ๊ฒ ๋๋ฉด ๋ ๋จผ ๊ณผ๊ฑฐ์ ์์๋ gradient๊ฐ ํ์ฌ gradient์ ๋ฏธ์น๋ ์ํฅ์ ์ ์ด์ง๊ฒ ๋ฉ๋๋ค. ์ด๋ฐ ํํ๋กย ์ด์ ํ์ต์ ๋ฐฉํฅ์ฑ์ ์ด๋์ ๋ ์ ์งํ์ฌ ํ์ต์ ์๋๋ฅผ ๋น ๋ฅด๊ฒ ํ ์ ์์์ต๋๋ค.
Nesterov Accelerated Gradient (NAG)
Momentum์์ ๋น ๋ฅธ ํ์ต์ ์ํด ์ด์ gradient์ ๋ฐฉํฅ์ฑ์ ์ ์งํ๋ค๋ ์์ด๋์ด๋ฅผ ์ ์ํ์์ต๋๋ค.
๊ทธ๋ฐ๋ฐ, ๊ณผ๊ฑฐ์ gradient์ ๋ฐฉํฅ์ฑ์ ์๊ณ ๋ฐ์ํ๋ ๊ฒ ๋ฟ๋ง์ด ์๋๋ผย ์์ ์ด ํ์ฌ ์์ํ ์์ ์ gradient๋ฅผ ์ด์ฉํด ์ด๋๋์์ ๋์ ์์น์์์ gradient๋ ์ ์ ์๋ค๋ฉด, ๋์ฑ ๋น ๋ฅธ ํ์ต์ด ๊ฐ๋ฅํ์ง ์์๊น๋ผ๋ ์์ด๋์ด๊ฐ ๋์์ต๋๋ค.
์ ๊ฐ ๋์ชฝ์ผ๋ก 100m/s ์ ์๋ ฅ์ผ๋ก ๋ฌ๋ฆฌ๊ณ ์๋๋ฐ ๊ฐ์๊ธฐ ๋ค์ ๋ช
๋ น์ผ๋ก ์์ชฝ์ผ๋ก 100m/s ๋ก ๋ฌ๋ฆฌ๋ ค๊ณ ํ๋ฉด ๋ฐ๋ก ๋ฐ๊พธ๊ธฐ๋ ์ฝ์ง ์์ต๋๋ค.์ด๋ฌํ ์ ์ ๋ฐ์ํ์ฌ ์ ๊ฐ ๋์ชฝ์ผ๋ก 100m/s๋ก ๋ฌ๋ฆฌ๊ณ ์์๋ค๋ ์ฌ์ค์ ๋ค์ ๋ช
๋ น์ ์ฐ์ถํ ๋ย ๋ฐ์ํ์ฌ ์์ชฝ์ผ๋ก 20m/s ์ ๋๋ก๋ง ๋ฌ๋ฆฌ๋ผ๋ ๊ฒ์ผ๋ก ์ํํ ์๊ฐ์
๋๋ค.์ด๋ ๊ฒ ์ํํ์ฌ ๋ฌ๋ฆด ๊ฒ์ ๊ฐ์ ํ๊ณ ์ด๋ ๊ฒ ์ผ์ ์๊ฐ ๋ฌ๋ ธ์ ๋ ์๊ฒ ๋ ์ ์์น์์ ๋ฐ๊ฒฌํ ๋ช
๋ น์ด ๋ถ์ชฝ์ผ๋ก 15m/s๋ก ๋ฌ๋ฆฌ๋ ๊ฒ์ด๋ผ๋ ๊ฒ์ ์ ๋ย ์์ธกํ ์ ์์ต๋๋ค.์ด๋ฌํ ์์ธก์ ํ์ฌ ์ ํ๋จ์ ์ด๋์ ๋ย ๋ฐ์ํ์ฌ ์ต์ข
์ ์ผ๋ก ๋ถ์์ชฝ์ผ๋ก 25m/s ์ ๋๋ก ๋ฌ๋ฆฌ๋ ๊ฒ์ผ๋ก ์ ๋ช
๋ น์ ์ํํ๋ ๊ฒ์ผ๋ก ๋ณ๊ฒฝํ๋ค๊ณ ์๊ฐํ์๋ฉด ๋ฉ๋๋ค.
Momentum๊ณผ์ ์ฐจ์ด์ ์ objective function J์์ ํ์ฌ์ paramter theta๊ฐ ์๋, ๊ณผ๊ฑฐ์ gradient์ momentum term gamma๋ก๋ง ๊ณ์ฐํ ๋ณ๊ฒฝ๋ parameter๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ์ฐ์ ํ๋ค๋ ์ ์
๋๋ค.
์์์ ๋ณผ ์ ์๋ฏ์ด ํ์ฌ์ gradient๋ ์ฐ์ถํ๊ธฐ ์ ์ด๊ธฐ ๋๋ฌธ์ ๊ณผ๊ฑฐ์ gradient๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ๋ฏธ๋์ parameter๋ฅผ ๋ฏธ๋ฆฌ ์์ธกํ๊ณ ๊ทธ objective function์ ๊ณ์ฐํ ํ theta๋ก์ ๋ฐฉํฅ ๋ฏธ๋ถ์ ์ต์ข
์ ์ผ๋ก ๊ณ์ฐํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ฏธ๋์ gradient๋ฅผ ๋ฏธ๋ฆฌ ์์ธกํ ์ ์๊ณ ,ย ๋ฏธ๋ ํ์ต์ ๋ฐฉํฅ์ฑ์ ์ด๋์ ๋ ๊ฐ์ํ๊ณ ๋ฐ์ํ์ฌ ํ์ต์ ์๋๋ฅผ ๋น ๋ฅด๊ฒ ํ ์ ์์์ต๋๋ค.
Adaptive Gradient (Adagrad)
์ง๊ธ๋ถํฐ๋ ๋ ๊ฒฐ์ด ๋ค๋ฅธ ์ด์ผ๊ธฐ๊ฐ ๋ค์ด๊ฐ๋๋ค. ์์ ์ค๋ช
๋๋ฆฐ Momentum๊ณผ NAG์ ๊ฒฝ์ฐ์๋ ํ์ต์ ๋ฐฉํฅ์ฑ์ ์กฐ์ ํ์ฌ ๋น ๋ฅธ ํ์ต์ด ๊ฐ๋ฅํ๋๋ก ์ค๊ณ๋ฅผ ์งํํ์ต๋๋ค.
๊ธฐ์กด SGD๋ฅผ ํฌํจํ์ฌ ์์ ์ค๋ช
๋๋ฆฐ algorithms๋ค์ paramter-independent learning rate๋ฅผ ๊ฐ์ง๊ณ ์์์ต๋๋ค. ํ์ง๋ง ์ด๋ฌํ ์ค๊ณ๋ ๊ทธ๋ ๊ฒ ์ ๋์ ์ด์ง ๋ชปํฉ๋๋ค. Parameter๋ง๋ค update๋ ์ ๋๊ฐ ๋ฌ๋ผ์ผ ํ ๊ฒฝ์ฐ๋ ์๊ธฐ ๋๋ฌธ์
๋๋ค.
๋ํ์ ์ธ ์์๊ฐ sparseํ ํน์ฑ์ ๊ฐ์ง data๊ฐ ์กด์ฌํ๋ ๊ฒฝ์ฐ์
๋๋ค.์ด ๊ฒฝ์ฐ, zero๊ฐ์ ๊ฐ์ง ๋ฐ์ดํฐ๊ฐ ๋ง์ด ๋ฑ์ฅํ๊ฒ ๋๊ณ objective function์ ๋ฌผ๋ก gradient์ parameter๊ฐ ์ํฅ์ ๋ฏธ์น๋ ์ ๋๊ฐ ์ ์ด์ง๊ฒ ๋ฉ๋๋ค.์ด๋ฐ ๊ณผ์ ์ด ๋งค์ฐ ์ค๋ ์ง์๋๋ค๋ฉด, ๋ค๋ฅธ parameter๋ค์ ๊ฐ๊ฐ์ converge์ ๊ฐ๊น์์ ธ์ learning rate๋ฅผ ์ค์ด๊ณ ์ ํ๋๋ฐ sparse ํ ๋ฐ์ดํฐ๊ฐ ๋ํ๋๋ parameter์ ๊ฒฝ์ฐ์๋ ์๋ ด์ ์ผ๋ก๋ถํฐ์ ๊ฑฐ๋ฆฌ๊ฐ ์์ง ๋จผ ์ํ์ธ ์ํฉ์ด ๋ํ๋ ์ ์์ต๋๋ค.
๊ทธ๋ ๊ธฐ์, Apadtive Gradient์์๋ ์ง๊ธ๊น์ง parameter๊ฐ update๋ ์ด๋ ฅ์ ๊ฐ์ง๊ณ learning rate๋ฅผ ๊ฒฐ์ ํ๋๋ก ์ค๊ณํฉ๋๋ค.
์์ ์์์ G_t์ ๊ฒฝ์ฐ paramter theta_i๊ฐ t๋ฒ์ update ๋์ ๊ฒช์๋ gradient์ square sum์ ๋๊ฐ์ ์ฑ๋ถ์ผ๋ก ๊ฐ์ง ํญ๋ชฉ์
๋๋ค. ์ฆ ์ ๊ฒฝ์ฐ์๋ theta_i๊ฐ ๊ฒช์๋ gradient์ square sum์ root์ฑ๋ถ์ด ๋ถ๋ชจ๋ก ๊ฐ ์๋ ์ํฉ์ธ ๊ฒ์
๋๋ค. Epsilon์ ๊ฒฝ์ฐ ์ฒ์์ ๋ถ๋ชจ๊ฐ 0์ด ๋๋ ๊ฒ์ ๋ง์์ฃผ๋ ํญ๋ชฉ์
๋๋ค.
์ด๋ ๊ฒ ์ค๊ณ๋ฅผ ํด์ Adagrad์์ ํ ์ ์์๋ ๊ฒ์ย paramter-dependent learning rate design์ด์์ต๋๋ค. Update๊ฐ ๋ง์ด ์ด๋ฃจ์ด์ง parameter์ ๋ํด์ ์๋ ด์ ๊ณผ ๊ฐ๊น๋ค๊ณ ํ๋จํ์ฌ learning rate๋ฅผ ์ค์ผ ์ ์์๊ณ , update๊ฐ ์ ๊ฒ ์ด๋ฃจ์ด์ง parameter์ ๋ํด์ ์๋ ด์ ๊ณผ ๋ฉ๋ค๊ณ ํ๋จํ์ฌ learning rate๋ฅผ ๋๋ฆด ์ ์์์ต๋๋ค. ๋๋ฌธ์ย ๊ฐ์ update ํ์๋ก ์ด๋ paramter๋ ํ์ต์ด ์๋ ด์ ์ ๊ฐ๊น๊ฒ ์งํ๋๊ณ ์ด๋ paramter๋ ํ์ต์ด ๊ฑฐ์ ๋์ง ์๋ ๊ฒฝ์ฐ๋ฅผ ํธ๋ค๋งํ ์ ์์์ต๋๋ค.
RMSProp
Adagrad๋ parameter-dependent learning rate๋ฅผ ์ค๊ณํ๋๋ฐ ์์ด์ ์ข์ ํจ์จ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํ์ง๋ง, ์ด์ ๊น์ง์ update๋ฅผ ๋ชจ๋ accumulateํ๋ค๋ ์ ์์ ์์์ ๊ณผ ์๋ ด์ ๊น์ง์ย ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ๋ฉด ์๋ ด ์๋๊ฐ ๊ธ๊ฒฉํ๊ฒ ๋๋ ค์ง๋ค๋ ๋จ์ ์ด ์์์ต๋๋ค.
Geoff Hinton์ ๊ทธ์ Coursera ๊ฐ์์์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก ํฌ๊ฒ ๋ ๊ฐ์ง๋ฅผ ์ ์ฉํฉ๋๋ค.์ฒซ ๋ฒ์งธ๋ก, ๋ชจ๋ gradient๊ฐ ์๋ย w๊ฐ์ gradient๋ง ์ด์ฉํด๋ณด์๋ ์์ด๋์ด๋ฅผ ๋
๋๋ค. ์ด๋ฅผ ํตํด์ ๊ธฐ์กด์ Adagrad์์์ ๋ถ๋ชจ์ ๋ํ๋๋ ํญ๋ชฉ์ ์ ์ฒด์ ์ผ๋ก ์ค์ด๊ฒ ๋ฉ๋๋ค.๋ ๋ฒ์งธ๋ก, ๊ทธ๋ฅ square sum์ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผย exponential decaying average๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ํ๊ท ์ ๋ด๋ ๋ฐฉ์ ์ค ํ๋๋ก, ๊ฐ๊น์ด ๋ฐ์ดํฐ์ ๊ฐ์ค์น๋ฅผ ๋ ๋๋ ํํ์
๋๋ค.
์ด ์์ sigma sum์ผ๋ก ํผ์ณ๋ณด์ ๋ถ๋ค์ ์์๊ฒ ์ง๋ง, ์ square sum์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋๋ฐ t๊ฐ ์์ ์๋ก ๊ฐ์ค์น๋ ์์์ง๋ ๊ฒ์ ๋ณด์ค ์ ์์ต๋๋ค.
์ด๋ฅผ ์ด์ฉํด ๊ธฐ์กด์ Adagrad์์ G_t,ii๊ฐ ๋ค์ด๊ฐ๋ ๋ถ๋ถ์ย exponential decaying average๋ฅผ ๋ฃ์ด์ค ํํ๋ก ์ค๊ณ๋ฅผ ํ๋๋ฐ, ์ด๋ฌํ ์ค๊ณ๋ฅผ ํตํด์ ์ ์ฒด์ ์ผ๋ก G_t,ii๊ฐ ๊ฐ์ก๋ ํฐ scale์ ์ค์ด๊ณ ย gradient๊ฐ ์ฌ๋ผ์ง๋ ํ์์ ๊ฐ์ ํ ์ ์์์ต๋๋ค. ์๋๋ ์ฐธ๊ณ ๋ก ์์ ์์ ๋ํ ๋ค๋ฅธ ํํ์
๋๋ค.
์ฌ๊ธฐ์ RMS๋ Root Mean Square์ด๊ธฐ๋ ํ์ง๋ง ์ฌ๊ธฐ์์ mean์ดย exponential decaying average์์ ๊ธฐ์ตํด์ผ ํฉ๋๋ค.
Adaptive Delta (Adadelta)
Adadelta๋ RMSProp์ ๋น์ทํ๋ฉด์ ์๋ก์ด ๊ธฐ๋ฅ์ ์ถ๊ฐํฉ๋๋ค.
๋ฐ๋กย โ๋จ์์ ๋ํ ์์ "์
๋๋ค.
์ด์ ์ ์๊ฐํ Adagrad์ RMSProp algorithms ๋ค์ ๋ณํ๋์ ๋จ์๊ฐ ์์์ต๋๋ค. Gradient์ ๋ํ ๊ฐ์ค์น๋ฅผ ์ฐ์ถํ ๋ gradient๋ฅผ ์ด์ฉํด์ ์ ์๋ฅผ ํ๊ธฐ ๋๋ฌธ์
๋๋ค.
Adadelta algorithm ์์๋ ๋ณํ๋์ด delta theta์ ๋จ์์ ๋์ผํด์ผ ํ๋ค๊ณ ์ฃผ์ฅํ๊ณ , ์ด์ ๋ํ ๋ณด์ ์ผ๋ก ๊ธฐ์กด์ ์์ ์๋ค์์ eta๋ก ์ฌ์ฉํ๋ ํญ๋ชฉ๋ค์ ์๋ก์ด ํญ๋ชฉ์ผ๋ก ๋์ฒดํฉ๋๋ค.
๋จผ์ newtonโs method๋ฅผ second order๋ก ์ ์ฉ์๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ ์์ ์ป์ ์ ์์ต๋๋ค.
์ด๋ฅผ ์ฝ๊ฐ ๋ณํํ๋ฉด ๋ค์๊ณผ ๊ฐ์ ์์ ์ป์ ์ ์๊ณ ,
๋ถ์์ ์๋ ํญ์ ๋ณํ๋์ ๋์ ๊ณฑํด์ง g term๊ณผ ์ผ์นํ๋ ํํ์
๋๋ค.
๊ทธ๋ ๋ค๋ฉด, ๋ถ์๋ฅผ ์ ์ธํ ๋๋จธ์ง ํญ๋ชฉ๋ค์ ์์ ๊ฐ์ค์น์ ๋จ์๊ฐ ๋ง๋๋ก ์์ ์ ํด์ฃผ์ด์ผ ํ๋๋ฐ,
๋ถ์๋ฅผ ์ ์ธํ ๋๋จธ์ง ํญ๋ชฉ๋ค์ ์์ ๋ ๋ฒ์งธ๋ก ์ธ๊ธํ ์์์ ์์ ๊ฐ์ด ๋ณํํ์ฌ ์ ๋ํด๋ผ ์ ์๊ณ , ์ ํญ๋ชฉ์ ์ฐํญ์ ๋ถ๋ชจ๋ ํ์ฌ RMSProp์ ๊ฐ์ค์น์ ๋ถ๋ชจ์ ๋จ์๊ฐ ๊ฐ๊ธฐ ๋๋ฌธ์, ๋ถ์์ธ eta๋ฅผ delta theta์ ๋จ์๋ฅผ ๋ง์ถฐ์ฃผ๋ฉด ๋ฉ๋๋ค.
์ด๋ฅผ ์ํด์ Adadelta์์๋ delta theta์ ๋ํ (๋ณํ๋์ ๋ํ)ย exponential decaying average๋ฅผ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ๊ตฌํ์ฌ ๋ถ๋ชจ์ ๋ฃ๋ ํํ๋ก ๋จ์๋ฅผ ๋ง์ถฐ์ค๋๋ค.
ํ์ง๋ง, delta theta_t์ ๋ํ ํญ๋ชฉ์ ํ์ฌ ์ฐ์ถํด์ผํ๋ ๊ฐ์ด๊ธฐ ๋๋ฌธ์ t-1๊น์ง์ average๋ง์ ์ด์ฉํ ๊ฐ์ผ๋ก ๋์ฒดํ์ฌ ๊ตฌํด์ค๋๋ค.
์ฌ์ค ์ด๋ ๊ฒ ๋จ์๋ฅผ ๋ง์ถฐ์ฃผ๋ ํ์๊ฐ ์ค์ง์ ์ผ๋ก ์ด๋ ํ ์ด๋์ ๊ฐ์ ธ์ค๋์ง์ ๋ํด์ ์ค๋ช
์ด ๋ถ์กฑํ๊ธด ํฉ๋๋ค. Adadelta ๋
ผ๋ฌธ์์๋
โHessain Matrix provides additional curvature information useful for optimization, computing accurate second order information is often expensiveโ
์ ๊ฐ์ ํํ๋ก ๊ทธ๋ค์ ์ฅ๋จ์ ์ ํํํด์ฃผ๊ณ ์์ต๋๋ค. ์ด ์ ๋๋ก ๊ฐ๋จํ๊ฒ๋ง ์ง๊ณ ๋์ด๊ฐ๋๋ก ํ๊ฒ ์ต๋๋ค.
Adaptive Momentum(Adam)
๋ค์์ผ๋ก ์๊ฐ๋๋ฆด algorithm์ Adaptive Momentum์
๋๋ค.
์์ ํ๋ ํํ์ ์ ์ ๋ค์ ๋น๋ ค์ ์ฐ์๋ฉด,
์ ํฌ๊ฐ ๋ง์ด ๊ฒช๋ ๋ ํผํ ๋ฆฌ์ด์ง๋ง, ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์์ ์ด๋ค ์ค๊ณ์ ์๊ทน๋จ์ด ๊ฐ์ง๋ ํฐ ๋จ์ ๋ค์ ์ ์ ํ ๋ณด์ํ๊ธฐ ์ํด์ ๋ฐ์ฉ ๊ฐ์ ธ๋ค๊ฐ ์๋ ๊ฒ์ด ์ข์ ํจ์จ์ ๋ณด์ด๊ณค ํฉ๋๋ค.
์ด๋ฐ ๋ง์์ ๋๋ฆฐ ์ ์ด ์์ต๋๋ค.์ด์๋ ๋น์ทํ๊ฒ ์ ํฌ๊ฐ ๋ง์ด ๊ฒช๋ ๋ ํผํ ๋ฆฌ์ด์ง๋ง, ์๋ก ๋ค๋ฅธ ๋ ๊ฐ์ง ๊ฐ์ ๋ฐฉํฅ์ ๊ฐ์ ธ์ ํ ๊ณณ์ ๊ทธ ๋์ ๋ชจ์ ๋ชจ๋ ์ ์ฉํ๋ ๊ฒ์ด ์ข์ ํจ์จ์ ๋ณด์ด๊ณค ํฉ๋๋ค.
RMSProp๊ณผ Momentum์ ํฉ์์ Adam์ผ๋ก ์๊ฐ๋๋ฆด ์ ์์ต๋๋ค.
RMSProp์์๋ square gredients ๋ค์ exponential decaying average๋ฅผ ๊ตฌํด์ ์ ์ฒด์ ์ธ learning rate๊ฐ ์์ฒญ ์์์ง๋ ํ์์ ํธ๋ค๋ง ํ์์ต๋๋ค.Momentum์์๋ ๊ณผ๊ฑฐ์ gradient๋ฅผ ํ์ฌ gradient๋ฅผ ์ฐ์ถํ๋๋ฐ ๋ฐ์ํ์์ต๋๋ค.
์ด ๋์ ๋ชจ๋ ์ ์ฉํ๊ธฐ ์ํด adam์์๋ first momentum๊ณผ second momentum์ ๋ชจ๋ ์ ์ํ์ฌ learning rate์ gradient ๋ถ๋ถ์ ์์ ํด์ค๋๋ค.
์์ ๊ฐ์ด first momentum m_t์ second momentum ๋ฅผ ์ ์ํ๊ณ ์ฌ์ฉํ๋ ค๊ณ ๋ณด์๋๋, ๊ฐ์ค์น์ธ , ๊ฐ 1์ ๊ฐ๊น๊ณ , ๊ฐ 0์ ๊ฐ๊น์ฐ๋ฉด ์ด๊ธฐ ๋ณํ๋์ด 0์ ๊ฐ๊น์์ ํ์ต์ด ๋๋ฆฌ๋ค๋ ์ ์ด ์์์ต๋๋ค.
๋๋ฌธ์ ๋
ผ๋ฌธ์์๋ ์๋์ ๊ฐ์ bias-corrected version์ ์ ์ํ์ต๋๋ค.
๋ถ์์ ํญ๋ชฉ์ด 0์ ๊ฐ๊น์ธ๋ ๊ฐ์ค์น ํญ๋ชฉ์ ํฌํจํ ๋ถ๋ชจ๋ 0์ ๊ฐ๊น์์ ธ ํญ๋ชฉ์ด ์์์ง๋ ํ์์ ๋ฐฉ์งํด ์ฃผ์์ต๋๋ค.
์ดํ ์์ ์ค๋ช
๋๋ ธ๋ RMSProp์ฒ๋ผ second momentum ํญ๋ชฉ์ ๋ถ๋ชจ์ ๋ฃจํธ์ ํจ๊ป, Momentum์ฒ๋ผ first momentum ํญ๋ชฉ์ gradient ๋ถ๋ถ์ ๋ฃ์ด ์ต์ข
์ ์ผ๋ก ์์ ์ค๊ณํฉ๋๋ค. Momentum์ ์ฅ์ ์ธ ์ด์ ํ์ต์ ๋ฐฉํฅ์ฑ์ ์ ์งํ ์ ์๊ณ , RMSProp์ ์ฅ์ ์ธ paramter-dependent learning rate ์ gradient vanishing ์์ด ์ฌ์ฉํ ์ ์์ด์ย ํ์ต์ ๋งค์ฐ ๋น ๋ฅด๊ฒ ์งํํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ๋ฐ๋ผ์ optimizer/gradient descent algorithm์ ๋ํด์ ์ ๋ชจ๋ฅด๊ฒ ์ผ๋ฉด Adam์ ์ฐ๋ ๊ฒฝ์ฐ๊ฐ ๊ต์ฅํ ๋ง์ ๊ฒ์
๋๋ค.
Adamax
Adamax๋ Adam ๋
ผ๋ฌธ์ extension์ ์ ํ์๋ gradient descent algorithm์ผ๋ก ์ฃผ์ ๋ณ๊ฒฝ์ ์ Adam์ second momentum term์ L2 norm์ ์ผ๋ฐ์ ์ธ Lp norm์ผ๋ก ํ์ฅํ ๊ฒ์
๋๋ค.
์ ๊ณฑ์ average์ ๋ฃจํธ์์ p์ ๊ณฑ์ average์ p์ ๊ณฑ๊ทผ์ผ๋ก ๋ณ๊ฒฝํ๋ ๊ฒ์
๋๋ค.์ง์์ ์ผ๋ก ์ธ๊ธ๋๋ฆฌ์ง๋ง average์ ๋ํ ์ ์๋ ๋์ ๋ฐ๋ผ ๋ค๋ฅผ ์ ์์ต๋๋ค.
์ด ๋ Lp norm์ p๊ฐ ์ปค์ง์๋ก ๋ถ์์ ํด์ง๊ธฐ ๋ง๋ จ์ด๋ผ์ L1 norm ๊ณผ L2 norm์ด ์ผ๋ฐ์ ์ผ๋ก ์ฐ์ด๊ณ ์์๋๋ฐ, Adam ๋
ผ๋ฌธ์์๋ p๊ฐ ๋ฌดํ์ ๊ฐ๊น์์ง๋ ๊ฒฝ์ฐ์ ํํด์ ์์ ์ฑ, ์๋ ด์ฑ์ ๋ณด์ฅํ ์ ์๋ค๊ณ ์ ์ํฉ๋๋ค.
์๋ Adam์ second momentum์ Lp norm์ ์ ์ฉํ ์์
๋๋ค.
์๋ Lp norm์ ์๋ ด์ฑ์ ์ฆ๋ช
ํ ๊ฒ์
๋๋ค.
์ฒซ ๋ฒ์งธ์ค์์ ๋ ๋ฒ์งธ์ค๋ก ๋์ด๊ฐ๋ ๊ฒ์ ๊ฐ๋จํ ๊ณผ์ ์ด๋ ์ค๋ช
์ ์๋ตํ๊ณ , ๋ ๋ฒ์งธ์ค์์ ์ธ ๋ฒ์งธ์ค๋ก ๋์ด๊ฐ ๋๋ ์์ ํญ๋ชฉ์ด p๋ฅผ ๋ฌดํ๋๋ก ๋ณด๋์ ๋ 1๋ก ์๋ ดํ๊ธฐ ๋๋ฌธ์ ์ ์ธํ๊ณ ๋จ์ ๊ฒ์ p์น์ผ๋ก ๋ฌถ์ ๊ฒ์
๋๋ค.์ธ ๋ฒ์งธ์ค์์ ๋ค ๋ฒ์งธ์ค๋ก ๋์ด๊ฐ ๋๋ maximum norm์ ๊ฒฝ์ฐ๋ก, ๊ดํธ ๋ด๋ถ์ ์๋ ํญ๋ชฉ๋ค ์ค maximum ๊ฐ์ g_max๋ผ ํ๋ฉด g_max๋ก ๋ชจ๋ ํญ๋ชฉ์ ๋ฐ๊พผ ๊ฒ๋ณด๋ค๋ ์๊ณ , g_max๋ฅผ ํ๋๋ง ๋ ๊ฒ๋ณด๋ค๋ ํฌ๊ธฐ ๋๋ฌธ์ ์ด ๋ ์ฌ์ด์ ๊ฐ์ด ์กด์ฌํด์ผ ํ๋ฉฐ ์ด๋ ๊ทนํ์ ๋ณด๋์ ๋๋ ์์ธ๊ฐ ์๋๋ฐ, ๋ ๊ฐ ๋ชจ๋ ๊ทนํ์ผ๋ก ๋ณด๋์ ๋ g_max ์ด๋ฏ๋ก ๊ฐ์ด g_max๋ก ์๋ ดํ๋ค๋ ๊ฒ์ ์ฆ๋ช
ํ ์ ์์ต๋๋ค.
์์ ์์ ๋ณธ ๋
ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ด ๋ณํํด ํํํฉ๋๋ค. Beta_2*v_t-1 ํญ๋ชฉ์ด ์์ max๋ด๋ถ์ g_t๋ฅผ ์ ์ธํ ๋๋จธ์ง ํญ๋ชฉ๋ค์ ํฌํจํ๋ค๊ณ ๋ณด์๋ฉด ๋ฉ๋๋ค. (์ ๊ฐ๋ฅผ ํ๊ธฐ ์ ์ ๋ฒ์ ์ผ๋ก ๋ณด์๋ฉด ๋ฉ๋๋ค.)
๋ฐ๋ norm ์ ๊ธฐ์กด norm์ ์๋ฆฌ๋ก ๋์ฒดํด์ฃผ๋ฉด ์์ ๊ฐ์ ์์ด ๋ฉ๋๋ค. Adam๊ณผ ๋ค๋ฅธ ์ ์ด ์๋ค๋ฉด ์ด๋ ๊ฒ ๋ฐ๊ฟ์ค์ผ๋ก์จ max operation๋ง์ผ๋ก u_t๋ฅผ ์ ์ํ๊ธฐ ๋๋ฌธ์ ๊ฐ์ค์น์ธ beta_1, beta_2๊ฐ 1์ ๊ฐ๊น๊ณ m_0, v_0์ด 0์ ๊ฐ๊น์๋ย bias-correction ์์ด gradient๊ฐ ์ด๊ธฐ์ ์ ์ง๋ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
Nesterov Accelerated Adaptive Momentum (NAdam)
Adam์์ Momentum๊ณผ RMSProp์ ์์ด ์ด์ ํ์ต์ ๋ฐฉํฅ์ฑ์ ์ ์งํ ์ ์๊ณ , paramter-dependent learning rate ์ gradient vanishing ์์ด ์ฌ์ฉํ ์ ์๋ค๊ณ ๋ง์๋๋ฆฐ ์ ์ด ์์ต๋๋ค.
๊ทธ๋ฐ๋ฐ, ์ ํฌ๊ฐ ๋ฐฉํฅ์ฑ์ ๋ํ ๊ณ ๋ ค๋ฅผ ํ๋ฉด์ ๊ณผ๊ฑฐ์ ํ์ฌ, ๊ทธ๋ฆฌ๊ณ ๋ฏธ๋์ ๋ฐฉํฅ์ฑ๊น์ง ๊ณ ๋ ค๋ฅผ ํ์๋๋ฐ Adam์๋ ๊ทธ๊ฒ๊น์ง ๊ณ ๋ ค๊ฐ ๋์ด ์์ง๋ ์์ต๋๋ค. ๋ฏธ๋ ํ์ต์ ๋ฐฉํฅ์ฑ์ ๋ฏธ๋ฆฌ ๊ณ ๋ คํ๋ ์ค๊ณ๋ ์งํ๋์ด ์์ง ์์ ๊ฒ์
๋๋ค.
์ด์ฏค๋๋ฉด ๋์น์ฑ์
จ์ ์๋ ์์ผ์
จ๊ฒ ์ง๋ง NAG์ Adam์ ์์ ์ค๊ณ, NAdam์ ๋ํด์ ์๊ฐ๋๋ฆฌ๋ ค๊ณ ํฉ๋๋ค.
๋จผ์ Momentum์ ๋ค์ ์๊ธฐํด ๋ด
์๋ค.
์์ ์์ ์์ ๋ณด์ ์ ์ด ์์ผ์ค ๊ฒ๋๋ค. ์ด๋ฅผ ์ด์ฉํด,
์์ ๊ฐ์ ์์ผ๋ก ์ต์ข
์ ์ผ๋ก ๋ง๋ฌด๋ฆฌ ํ์์ต๋๋ค.
๋ค์์ผ๋ก NAG๋ฅผ ๋ค์ ์๊ธฐํด ๋ด
์๋ค.
์ฌ๊ธฐ์ NAdam์ ๊ณผ๊ฑฐ์ momentum์ ๋์ ์์ผ์จ ์ด ๋ฐฉ์์ ์ ์งํ ์ฑ m_t๋ก ์์ฑํ NAG์ ๋ง์ง๋ง ์์ m_(t+1)์ ์ฌ์ฉํ ํจ๊ณผ๋ฅผ ๋ด๊ธฐ ์ํด์ ๋ค์๊ณผ ๊ฐ์ด ๋ณํํฉ๋๋ค.
์ฌ๊ธฐ์๋ m_t์ m_(t+1)๋ก ๋ณ๊ฒฝํ๋ ํจ๊ณผ๋ฅผ ๋๋ค๋ ์ฌ์ค์ ์ฃผ๋ชฉํด ์ฃผ์๋ฉด ์ข์ต๋๋ค. (eta*g_t+1 ํญ๋ชฉ์ ๋ง๋ค ์ ์๊ธฐ์ eta*g_t๋ก ๋ ๊ฒ์
๋๋ค.)
๋ค์์ผ๋ก Adam์ ๋ค์ ์๊ธฐํด ๋ด
์๋ค.
์์ ์๋ค์ ์ด์ฉํด ์ต์ข
์ ์ผ๋ก ์์ ์ ๊ฐํด๋ณด๋ฉด,
์์ ๊ฐ๊ณ ๋ค์ bias-correction ์์ ์ด์ฉํด ์์ ๋ฐ๊ฟ๋ณด๋ฉด,
์์ ๊ฐ์ต๋๋ค. ์ดํ m_(t-1)์ m_t๋ก ๋ฐ๊พธ์ด์ฃผ์ด ์๊น ๋ง์๋๋ฆฐ ๋ฏธ๋์ momentum์ ๋ํ ํจ๊ณผ๋ฅผ ๋ฐ์ํด์ฃผ๋ฉด,
์ต์ข
์ ์ผ๋ก ์์ ๊ฐ์ ์์ผ๋ก ์ ๋ฆฌํด๋ณผ ์ ์์ต๋๋ค.Nadam์ Adam์ ์กด์ฌํ์ง ์์๋ย ๋ฏธ๋์ ํ์ต ๋ฐฉํฅ์ฑ์ ๋ฏธ๋ฆฌ ์์ธกํ์ฌ ๊ณ ๋ คํ๊ณ ๋ฐ์ํ ์ ์๋ค๋ ์ฅ์ ์ด ์กด์ฌํฉ๋๋ค.
Conclusion
๊ธ๋ ๊ธธ๊ณ , ๋ด์ฉ๋ ๋ง์ ์ ๋ฆฌ๊ฐ ์๋์ค ๋ถ๋ค์ ์ํด ์ ๊ฐ ๋ช ๊ฐ์ง ์ค์ ์ฌํญ๋ค์ ์ ๋ฆฌํด๋๋ฆฌ๊ฒ ์ต๋๋ค.
๊ฐ์ฅ ๋จผ์ , BGD, SGD, Mini-Batch GD์ ๋ํด์ ์ดํด๋ณด์์์ต๋๋ค. ์ด๋ค์ objective function์ด ์ ์๋๋ ๋ฐ์ดํฐ์
์ ๋ฒ์์ ๋ฐ๋ผ์ ํํ๊ฐ ๋ฌ๋์๊ณ , ํ์ต ์๋์ SGD์ ํ์ต์ ์ ํ์ฑ BGD(local minima์ ๋น ์ง์ง ์๋ ๋ฑ)์ trade-off๋ก ์ต์ข
์ ์ผ๋ก Mini-Batch GD๋ฅผ ์๊ฐ๋๋ ธ์ต๋๋ค.
๋ค์์ผ๋ก ํ์ต์ ๋ฐฉํฅ์ฑ์ ์กฐ์ ํ ์ ์๋ Momentum, Nesterov Accelerated Gradient์ ๋ํด์ ์ดํด๋ณด์์์ต๋๋ค. ์ด๋ค์ ๊ฐ๊ฐ ๊ณผ๊ฑฐ์ gradient๋ฅผ ์ด์ฉ, ๋ฏธ๋์ gradient๋ฅผ ์์ธกํ์ฌ ํ์ฌ์ gradient ์ฐ์ถ์ ๋ฐ์ํ๋ ํํ์์ต๋๋ค. ์ด๋ฅผ ๋ฐํ์ผ๋ก ํ์ต์ ์๋๋ฅผ ๋น ๋ฅด๊ฒ ํ ์ ์๋ ๋ฐฉ๋ฒ์ ๊ฒฐ์ด ๋์ด๋ฌ์์ต๋๋ค.
๋ค์์ผ๋ก ํ์ต์ ์คํ
์ฌ์ด์ฆ๋ฅผ ์กฐ์ ํ ์ ์๋ Adagrad, RMSProp, Adadelta์ ๋ํด์ ์ดํด๋ณด์์์ต๋๋ค. ์ด๋ค์ ๊ธฐ๋ณธ์ ์ผ๋ก parameter-dependent learning rate๋ฅผ ์ค์ ํ ์ ์๋๋ก ํ๋ ๋ฐฉ๋ฒ๋ค์ด๋ฉฐ, RMSProp์์๋ gradient vanishing ๋ฌธ์ ๋ฅผ, Adadelta์์๋ unit์ ๋ํ ๋ณด์ ์ ์งํํ์ฌ ๊ฐ๊ฐ ํ์ต์ ๊ฐ์ ์ ์งํํ์์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก ํ์ต์ ๋ฐฉํฅ์ฑ๊ณผ ํ์ต์ ์คํ
์ฌ์ด์ฆ๋ฅผ ๋ชจ๋ ์กฐ์ ํ ์ ์์๋ ํํ์ธ Adam, Adamax, Nadam์ ๋ํด์ ์ดํด๋ณด์์์ต๋๋ค. ์ด๋ค์ Momentum๊ณผ RMSProp์ ํฉ์ณค๋ Adam์์ ํ์ต์ ๋ฐฉํฅ์ฑ๊ณผ ์คํ
์ฌ์ด์ฆ๋ฅผ ๋ชจ๋ ๊ณ ๋ คํ ๊ฒ์ ๋ฐํ์ผ๋ก ๊ฐ์ ์ฌํญ์ ๋ง๋ค์ด๋ธ ๊ฒ๋ค์
๋๋ค. Adam์์ second momentum์ L_infinity norm์ผ๋ก ๋ณ๊ฒฝํ Adamax์์๋ bias-correction์์ด ํ์ต์ ์งํํ ์ ์์ผ๋ฉฐ Adam์ NAG๋ฅผ ํฉ์ณค๋ Nadam์ผ๋ก ๋ฏธ๋์ ํ์ต ๋ฐฉํฅ์ฑ๋ ์ถ๊ฐ๋ก ๊ณ ๋ คํ ์ ์์์ต๋๋ค.
์ด ๊ธ์ ์ฝ์ผ์ ์ฌ๋ฌ๋ถ๋ค, ์ด ๊ธ์ ์ฒ์์ผ๋ก ๋์๊ฐ ์ธ๋ค์ผ ์ฌ์ง์ ๋ค์ ํ ๋ฒ ๋์๋ณด์๊ณ ์ฐจ๊ทผ์ฐจ๊ทผ ์ ๋ฆฌํด๋ณด์๋ฉด ๋์์ด ๋ง์ด ๋์ค ๊ฒ ๊ฐ์ต๋๋ค.