ML/NLP
ํธ๋์คํฌ๋จธ (Attention is all you need)
1. ๊ฐ์ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ๋ฐ์ ์ํจ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ์๊ฐ RNN์ ์ฌ์ฉํ์ง ์์ ๋
์ผ์ด, ํ๋์ค์ด๋ก ๋ฒ์ญํ๋ ํญ๋ชฉ์์ ํ์ต์๋, ์ฑ๋ฅ ๋ฐ์ด๋จ ์ ๋ ๋น ๋ฅด๊ฒ ํ์ต? RNN์ ์ฌ์ฉํ์ง ์์์ ๋ณ๋ ฌํ(Parallelization) → ์ผ์ ์ต๋ํ ํ ๋ฐฉ์ ์ฒ๋ฆฌ RNN์ด ์์ฐจ์ ์ผ๋ก ์ฒซ๋ฒ์งธ ์
๋ ฅ๋ ๋จ์ด๋ถํฐ, ๋ง์ง๋ง ๋จ์ด๊น์ง ๊ณ์ฐํ์ฌ์ ์
๋ ฅ๋ ๋จ์ด๋ค์ ์ธ์ฝ๋ฉํ๋ ๋ฐ๋ฉด, transformer๋ ํ๋ฐฉ์ ์ด๊ณผ์ ์ ์ฒ๋ฆฌ ์ดํ
์
๋ฉ์ปค๋์ฆ ๊ณ ์ ๋ ํฌ๊ธฐ์ context vector ๋ฅผ ์ฌ์ฉํ์ง ์๋๋ก ๊ธฐ์กด์ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ๋ฐ์ ์ํด ํ์ง๋ง ์ฌ์ ํ rnn cell์ ์์ฐจ์ ์ผ๋ก ๊ณ์ฐํด์ ๋๋ฆผ 2. Transformer RNN์ ๋์ ํ ๋น ๋ฅด๊ณ ์ฑ๋ฅ์ข์ ๋ฐฉ๋ฒ์ ๊ณ ๋ฏผ Attention ๋ง์ผ๋ก๋ ์
๋ ฅ๋ฐ์ดํฐ์์์ ์ค์ํ ์ ๋ณด๋ค์ ์ฐพ..