๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

ML/NLP

ํŠธ๋žœ์Šคํฌ๋จธ (Attention is all you need)

1. ๊ฐœ์š”

  • ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ๋ฐœ์ „์‹œํ‚จ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ ์†Œ๊ฐœ
  • RNN์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์Œ
  • ๋…์ผ์–ด, ํ”„๋ž‘์Šค์–ด๋กœ ๋ฒˆ์—ญํ•˜๋Š” ํ•ญ๋ชฉ์—์„œ ํ•™์Šต์†๋„, ์„ฑ๋Šฅ ๋›ฐ์–ด๋‚จ
  • ์™œ ๋” ๋น ๋ฅด๊ฒŒ ํ•™์Šต?
    • RNN์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•„์„œ
    • ๋ณ‘๋ ฌํ™”(Parallelization) → ์ผ์„ ์ตœ๋Œ€ํ•œ ํ•œ ๋ฐฉ์— ์ฒ˜๋ฆฌ
    • RNN์ด ์ˆœ์ฐจ์ ์œผ๋กœ ์ฒซ๋ฒˆ์งธ ์ž…๋ ฅ๋œ ๋‹จ์–ด๋ถ€ํ„ฐ, ๋งˆ์ง€๋ง‰ ๋‹จ์–ด๊นŒ์ง€ ๊ณ„์‚ฐํ•˜์—ฌ์„œ ์ž…๋ ฅ๋œ ๋‹จ์–ด๋“ค์„ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๋ฐ˜๋ฉด, transformer๋Š” ํ•œ๋ฐฉ์— ์ด๊ณผ์ •์„ ์ฒ˜๋ฆฌ
  • ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜
    • ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ context vector ๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋„๋ก ๊ธฐ์กด์˜ ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ๋ฐœ์ „์‹œํ‚ด
    • ํ•˜์ง€๋งŒ ์—ฌ์ „ํžˆ rnn cell์„ ์ˆœ์ฐจ์ ์œผ๋กœ ๊ณ„์‚ฐํ•ด์„œ ๋Š๋ฆผ

2. Transformer

  • RNN์„ ๋Œ€์‹ ํ•  ๋น ๋ฅด๊ณ  ์„ฑ๋Šฅ์ข‹์€ ๋ฐฉ๋ฒ•์„ ๊ณ ๋ฏผ
  • Attention ๋งŒ์œผ๋กœ๋„ ์ž…๋ ฅ๋ฐ์ดํ„ฐ์—์„œ์˜ ์ค‘์š”ํ•œ ์ •๋ณด๋“ค์„ ์ฐพ์•„๋‚ด์„œ ๋‹จ์–ด๋ฅผ ์ธ์ฝ”๋”ฉํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ ์ƒ๊ฐํ•˜๊ฒŒ ๋จ ⇒ ์„ฑ๊ณต ⇒ Attention is all you need!
  • RNN์˜ ์ˆœ์ฐจ์ ์ธ ๊ณ„์‚ฐ์„ transformer์—์„œ๋Š” ๋‹จ์ˆœํžˆ ํ•œ ๋ฒˆ์˜ ํ–‰๋ ฌ๊ณฑ์œผ๋กœ ๊ณ„์‚ฐ
  • ํ•œ ๋ฒˆ์˜ ์—ฐ์‚ฐ์œผ๋กœ ๋ชจ๋“  ์ค‘์š”์ •๋ณด๋ฅผ ๊ฐ ๋‹จ์–ด์— ์ธ์ฝ”๋”ฉํ•˜๊ฒŒ ๋จ
  • ๋””์ฝ”๋”์˜ ๋ฒˆ์—ญ๊ณผ์ •์€ ๊ธฐ์กด์˜ ์ธ์ฝ”๋” ๋””์ฝ”๋”์™€ ๋™์ผํ•˜๊ฒŒ ๋ถ€ํ„ฐ ๊นŒ์ง€ ๋ฒˆ์—ญ์„ ํ•˜๊ฒŒ ๋จ
  • transformer๋Š” ํ™•์‹คํžˆ ๊ธฐ์กด์˜ ์ธ์ฝ”๋”-๋””์ฝ”๋”์˜ format์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.
    • <start> ๋กœ ์‹œ์ž‘ํ•ด์„œ <end>๋กœ ๋๋‚จ
  • ๊ธฐ์กด ์ธ์ฝ”๋”-๋””์ฝ”๋”์˜ ์ฃผ์š” format์„ ๊ฐ„์งํ•˜๋˜, RNN์„ ์—†์• ์„œ ํ•™์Šต์‹œ๊ฐ„์„ ๋‹จ์ถ•ํ–ˆ๊ณ , attention ๋ฟ๋งŒ์•„๋‹ˆ๋ผ ๋‹ค๋ฅธ ๊ธฐ๋Šฅ๋„ ์ œ๊ณตํ•˜์—ฌ์„œ ์„ฑ๋Šฅ์„ ์˜ฌ๋ ธ๋‹ค.

1) Positional encoding

  • ๊ทธ๋™์•ˆ RNN์„ ์‚ฌ์šฉํ–ˆ๋˜ ์ด์œ : ์ž์—ฐ์–ด์ฒ˜๋ฆฌ์—์„œ ๋‹จ์–ด์˜ ์œ„์น˜์™€ ์ˆœ์„œ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•œ๋ฐ, RNN์ด ๊ทธ ์—ญํ• ์„ ์ž˜ ํ•ด์ฃผ์—ˆ๊ธฐ ๋•Œ๋ฌธ
  • RNN์ด ์—†๋Š” transformer๋Š” ์–ด๋–ป๊ฒŒ ๋‹จ์–ด์˜ ์œ„์น˜ ๋ฐ ์ˆœ์„œ์ •๋ณด๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์„๊นŒ?
    • positional encoding
  • positional encoding ? ์ธ์ฝ”๋” ๋ฐ ๋””์ฝ”๋”์˜ ์ž…๋ ฅ๊ฐ’๋งˆ๋‹ค ์ƒ๋Œ€์ ์ธ ์œ„์น˜์ •๋ณด๋ฅผ ๋”ํ•ด์ฃผ๋Š” ๊ธฐ์ˆ 
    • sin, cos ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•จ
      • ์žฅ์ 1 : ํ•ญ์ƒ -1 ~1 ์‚ฌ์ด์˜ ๊ฐ’์ด ๋‚˜์˜ด
      • ์žฅ์ 2: ํ•™์Šต ๋ฐ์ดํ„ฐ ์ค‘ ๊ฐ€์žฅ ๊ธด ๋ฌธ์žฅ๋ณด๋‹ค๋„ ๋” ๊ธด ๋ฌธ์žฅ์ด ์‹ค์ œ ์šดํ–‰ ์ค‘์— ๋“ค์–ด์™€๋„ ์—๋Ÿฌ์—†์ด ์ƒ๋Œ€์ ์ธ ์ธ์ฝ”๋”ฉ๊ฐ’์„ ์ค„ ์ˆ˜ ์žˆ์Œ

2) Self Attention

  • Self Attention ? ์ธ์ฝ”๋”์—์„œ ์ด๋ฃจ์–ด์ง„ ์–ดํ…์…˜ ์—ฐ์‚ฐ
  • ๊ฐ ๋‹จ์–ด์˜ ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ์— positional encoding์„ ๋”ํ•ด ์ค€ ํ›„์— Self Attention ์—ฐ์‚ฐ ์ˆ˜ํ–‰
  • ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ์€ ๋ฒกํ„ฐ, ํ•œ ๋ฌธ์žฅ์€ ํ–‰๋ ฌ
  • query, key, value ๋งŒ ์žˆ์œผ๋ฉด self attention ์ˆ˜ํ–‰ ๊ฐ€๋Šฅ
    • query: ํ•œ๋ฌธ์žฅ์— ๋Œ€ํ•œ ํ–‰๋ ฌ * Wq weight matrix
    • key: ํ•œ๋ฌธ์žฅ์— ๋Œ€ํ•œ ํ–‰๋ ฌ * Wk weight matrix
    • value: ํ•œ๋ฌธ์žฅ์— ๋Œ€ํ•œ ํ–‰๋ ฌ * Wv weight matrix

  • query, key, value : ๋ฒกํ„ฐ์˜ ํ˜•ํƒœ
    • query: ํ˜„์žฌ์˜ ๋‹จ์–ด
    • ์–ด๋–ค ๋‹จ์–ด์™€์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๊ตฌํ•  ๋•Œ, ํ˜„์žฌ๋‹จ์–ด์˜ query๋ฅผ ์–ด๋–ค ๋‹จ์–ด์˜ key ๊ฐ’์— ๊ณฑํ•ด์คŒ
    • query* key = attention score
      • query, key๋Š” ๋ฒกํ„ฐ์ž„์œผ๋กœ ๋‘˜์„ dot productํ•˜๋ฉด ๊ฒฐ๊ณผ๋Š” ์ˆซ์ž๋กœ ๋‚˜์˜ด
      • ์ด ์ˆซ์ž๊ฐ€ ๋†’์„ ์ˆ˜๋ก ๋‹จ์–ด์™€ ์—ฐ๊ด€์„ฑ์ด ๋†’๋‹ค
  • Softmax
    • Attention score ๊ฐ’์„ 0~1 ์‚ฌ์ด์˜ ํ™•๋ฅ ๊ฐ’์œผ๋กœ ๋‚˜ํƒ€๋ƒ„
    • ๋…ผ๋ฌธ์—์„œ๋Š” softmax๋ฅผ ์ ์šฉํ•˜๊ธฐ ์ „์— score๋ฅผ key vector์˜ ์ฐจ์› ์ˆ˜์˜ ๋ฃจํŠธ ๊ฐ’์œผ๋กœ ๋‚˜๋ˆ ์คŒ
      • key ๋ฒกํ„ฐ์˜ ์ฐจ์›์ด ๋Š˜์–ด๋‚ ์ˆ˜๋ก dot product ์‹œ ๊ฐ’์ด ์ฆ๋Œ€๋˜๋Š” ๋ฌธ์ œ๋ฅผ ๋ณด์™„
    • softmax์˜ ๊ฒฐ๊ณผ๊ฐ’์€ key ๊ฐ’์— ํ•ด๋‹นํ•˜๋Š” ๋‹จ์–ด๊ฐ€ ํ˜„์žฌ ๋‹จ์–ด์™€ ์–ด๋Š์ •๋„ ์—ฐ๊ด€์„ฑ์ด ์žˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ„
      • ๋‹จ์–ด I ๋Š” ์ž๊ธฐ์ž์‹ ๊ณผ 92%, study๋Š” 5%, at๊ณผ๋Š” 2%, school๊ณผ๋Š” 1% ์—ฐ๊ด€์„ฑ์ด ์žˆ์Œ
  • Softmax * value
    • ๊ฒฐ๊ณผ ๊ฐ’์„ ๋ณด๋ฉด, ์—ฐ๊ด€์„ฑ์ด ๋งŽ์€ ๊ฒฐ๊ณผ๋Š” ๋šœ๋ ทํ•ด์ง€๊ณ , ์•„๋‹Œ ๊ฒฐ๊ณผ๋Š” ํฌ๋ฏธํ•ด์ง
  • $\Sigma$ Softmax * Value
    • ์ตœ์ข…์ ์œผ๋กœ ์–ดํ…์…˜์ด ์ ์šฉ๋˜์–ด ํฌ๋ฏธํ•ด์ง„ value๋“ค์„ ๋ชจ๋‘ ๋”ํ•ด์คŒ
    • ์ตœ์ข…๋ฒกํ„ฐ๋Š” ๋‹จ์ˆœํžˆ ๋‹จ์–ด I ๊ฐ€ ์•„๋‹Œ, ๋ฌธ์žฅ ์†์—์„œ์˜ ๋‹จ์–ด I๊ฐ€ ์ง€๋‹Œ, ์ „์ฒด์ ์ธ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„ ๋ฒกํ„ฐ๋ผ๊ณ  ๊ฐ„์ฃผํ•  ์ˆ˜ ์žˆ์Œ
    • ์ด๊ฑธ ๊ฐ ๋‹จ์–ด์— ๋Œ€ํ•ด ๋ฐ˜๋ณต

3) Multi Head Attention

  • transformer๋Š” ๋ณ‘๋ ฌ์ฒ˜๋ฆฌ๋ฅผ ํ™œ์šฉ
  • attention layer ๋ฅผ ๋ณ‘๋ ฌ๋กœ ๋™์‹œ์— ์ˆ˜ํ–‰
  • ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๋œ attention layer๋ฅผ multi head attention ์ด๋ผ๊ณ  ๋ถ€๋ฆ„
  • ๊ธฐ๊ณ„๋ฒˆ์—ญ์— ํฐ ๋„์›€์„ ์คŒ
  • ๋‘ ๊ฐœ์˜ ๋‹ค๋ฅธ ๋ณ‘๋ ฌํ™” ๋œ ์–ดํ…์…˜์€ ์„œ๋กœ ๋‹ค๋ฅด์ง€๋งŒ itํ•˜๊ณ  ์—ฐ๊ด€์„ฑ์ด ๋†’์€ ๋‹จ์–ด์— ํฌ์ปค์Šค๋ฅผ ํ•˜๊ณ  ์žˆ์Œ์„ ๋ณผ ์ˆ˜ ์žˆ์Œ
    • ์ฒซ๋ฒˆ์งธ attention์€ animal์— ํฌ์ปค์Šค๋ฅผ ๋งž์ท„๊ณ 
    • ๋‘๋ฒˆ์งธ attention์€ street์— ํฌ์ปค์Šค๋ฅผ ๋งž์ท„์Œ
  • ์‚ฌ๋žŒ์˜ ๋ฌธ์žฅ์€ ๋ชจํ˜ธํ•  ๋•Œ๊ฐ€ ์ƒ๋‹นํžˆ ๋งŽ๊ณ  ํ•œ๊ฐœ์˜ ์–ดํ…์…˜ ์ •๋ณด๋กœ ์ด ๋ชจํ˜ธํ•œ ์ •๋ณด๋ฅผ ์ถฉ๋ถ„ํžˆ ์ธ์ฝ”๋”ฉํ•˜๊ธฐ์— ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์— multi head attention ์„ ์‚ฌ์šฉํ•ด์„œ ๋˜๋„๋ก ์—ฐ๊ด€๋œ ์ •๋ณด๋ฅผ ๋‹ค๋ฅธ ๊ด€์ ์—์„œ ์ˆ˜์ง‘ํ•ด์„œ ์ด ์ ์„ ๋ณด์™„ ํ•  ์ˆ˜ ์žˆ์Œ

4) ์ธ์ฝ”๋” layer ๊ตฌ์กฐ

  • ๋‹จ์–ด๋ฅผ ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ
  • ํฌ์ง€์…”๋„ ์ธ์ฝ”๋”ฉ
  • ๋ฉ€ํ‹ฐํ—ค๋“œ ์–ดํ…์…˜์— ์ž…๋ ฅ
  • ๋ฉ€ํ‹ฐํ—ค๋“œ ์–ดํ…์…˜์— ์˜ํ•ด ์ถœ๋ ฅ๋œ ์—ฌ๋Ÿฌ๊ฐœ์˜ ๊ฒฐ๊ณผ๊ฐ’๋“ค์€ ๋ชจ๋‘ ์ด์–ด๋ถ™์—ฌ์„œ ๋˜๋‹ค๋ฅธ ํ–‰๋ ฌ๊ณผ ๊ณฑํ•ด์„œ ๊ฒฐ๊ตญ ์ตœ์ดˆ ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ๊ณผ ๋™์ผํ•œ ์ฐจ์›์„ ๊ฐ€์ง„ ๋ฒกํ„ฐ๋กœ ์ถœ๋ ฅ์ด ๋จ
  • ๊ฐ๊ฐ์˜ ๋ฒกํ„ฐ๋Š” ๋”ฐ๋กœ๋”ฐ๋กœ FC layer๋กœ ๋“ค์–ด๊ฐ€์„œ ์ž…๋ ฅ๊ณผ ๋™์ผํ•œ ์‚ฌ์ด์ฆˆ์˜ ๋ฒกํ„ฐ๋กœ๋ถ€ํ„ฐ ๋‹ค์‹œ ์ถœ๋ ฅ์ด ๋จ
  • ์ค‘์š”ํ•œ ์ : ์ถœ๋ ฅ ๋ฒกํ„ฐ์˜ ์ฐจ์›์˜ ํฌ๊ธฐ๊ฐ€ ์ž…๋ ฅ๋ฒกํ„ฐ์™€ ๋™์ผํ•˜๋‹ค
  • ๋”ฅ๋Ÿฌ๋‹์„ ํ•˜๋‹ค๋ณด๋ฉด ์—ญ์ „ํŒŒ์— ์˜ํ•ด์„œ ํฌ์ง€์…”๋„ ์ธ์ฝ”๋”ฉ์ด ๋งŽ์ด ์†์‹ค ๋  ์ˆ˜ ์žˆ์Œ, ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด residual connection์„ ํ†ตํ•ด์„œ ์ž…๋ ฅ๋œ ๊ฐ’์„ ๋‹ค์‹œ ํ•œ ๋ฒˆ ๋”ํ•ด์ฃผ๋Š” ๊ณผ์ •๋„ ์กด์žฌ( retain the position realated information)
  • reidual connection ๋’ค์—๋Š” layer normalization์„ ์‚ฌ์šฉํ•ด์„œ ํ•™์Šต์˜ ํšจ์œจ์„ ์ฆ์ง„์‹œํ‚ด
  • ์ธ์ฝ”๋”์˜ ์ž…๋ ฅ๋ฒกํ„ฐ์™€ ์ถœ๋ ฅ ๋ฒกํ„ฐ์˜ ์‚ฌ์ด์ฆˆ๊ฐ€ ๋™์ผ
    • ์ธ์ฝ”๋” layer ๋ฅผ ์—ฌ๋Ÿฌ๊ฐœ ๋ถ™์—ฌ ์‚ฌ์šฉ ๊ฐ€๋Šฅ
    • transformer๋Š” ์ธ์ฝ”๋” layer๋ฅผ 6๊ฐœ ๋ถ™์ธ ๊ตฌ์กฐ
  • ๊ฐ๊ฐ์˜ encoder layer๋Š” ์„œ๋กœ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณต์œ ํ•˜์ง€ ์•Š๊ณ , ๋”ฐ๋กœ ํ•™์Šต์‹œํ‚ด

5) ๋””์ฝ”๋” layer ๊ตฌ์กฐ

  • ์ธ์ฝ”๋”์™€ ์œ ์‚ฌ
  • 6๊ฐœ์˜ ๋™์ผํ•œ layer
  • ์ธ์ฝ”๋”์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ตœ์ดˆ๋‹จ์–ด๋ถ€ํ„ฐ ๋๋‹จ์–ด๊นŒ์ง€ ์ˆœ์ฐจ์ ์œผ๋กœ ๋‹จ์–ด๋ฅผ ์ถœ๋ ฅ
  • attention ๋ณ‘๋ ฌ์ฒ˜๋ฆฌ๋ฅผ ํ™œ์šฉ
  • ๋””์ฝ”๋”์—์„œ ํ˜„์žฌ๊นŒ์ง€ ์ถœ๋ ฅ๋œ ๊ฐ’๋“ค์— attention์„ ์ ์šฉํ•˜๊ณ  ์ธ์ฝ”๋” ์ตœ์ข… ์ถœ๋ ฅ ๊ฐ’์—๋„ attention์ด ์ ์šฉ์ด ๋จ

6) ์ธ์ฝ”๋”, ๋””์ฝ”๋” layer ๋น„๊ต

  • ์ธ์ฝ”๋” layer : multihead attention → feed forward layer → residual connection
  • ๋””์ฝ”๋” layer : masked multihead attention → multihead attention → feed forward layer → Linear layer → Softmax layer → label smoothing

1) masked mutihead attention

  • ์ฒซ๋ฒˆ์งธ multi head attention layer๋Š” masked mutihead๋ผ๊ณ  ๋ถˆ๋ฆผ
  • ๋””์ฝ”๋” layer์—์„œ ์ง€๊ธˆ๊นŒ์ง€ ์ถœ๋ ฅ๋œ ๊ฐ’๋“ค์—๋งŒ attention์„ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ ๋ถ™์—ฌ์ง„ ์ด๋ฆ„
  • ์•„์ง ์ถœ๋ ฅ๋˜์ง€ ์•Š์€ ๋ฏธ๋ž˜์˜ ๋‹จ์–ด์— ์–ดํ…์…˜์„ ์ ์šฉํ•˜๋ฉด ์•ˆ๋˜๊ธฐ ๋•Œ๋ฌธ

2) Muti head attention

  • ์ธ์ฝ”๋”์ฒ˜๋Ÿผ ํ‚ค, ์ฟผ๋ฆฌ, ๋ฒจ๋ฅ˜๋กœ ์—ฐ์‚ฐ
  • ์ธ์ฝ”๋”์™€ ์ฐจ์ด์ ์€ ๋””์ฝ”๋”์˜ ๋ฉ€ํ‹ฐํ—ค๋“œ์–ดํ…์…˜์€ ํ˜„์žฌ ๋””์ฝ”๋”์˜ ์ž…๋ ฅ๊ฐ’์„ ์ฟผ๋ฆฌ๋กœ ์‚ฌ์šฉํ•˜๊ณ  ์ธ์ฝ”๋”์˜ ์ตœ์ข… ์ถœ๋ ฅ๊ฐ’์„ key,value๋กœ ์‚ฌ์šฉ
  • ๋””์ฝ”๋”์˜ ํ˜„์žฌ ์ƒํƒœ๋ฅผ ์ฟผ๋ฆฌ๋กœ ์ธ์ฝ”๋”์— ์งˆ๋ฌธํ•˜๋Š” ๊ฒƒ์ด๊ณ , ์ธ์ฝ”๋“œ์˜ ์ถœ๋ ฅ ๊ฐ’์—์„œ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ key์™€ value๋กœ ํš๋“ํ•ด์„œ ๋””์ฝ”๋”์˜ ๋‹ค์Œ ๋‹จ์–ด์— ๊ฐ€์žฅ ์ ํ•ฉํ•œ ๋‹จ์–ด๋ฅผ ์ถœ๋ ฅํ•˜๋Š” ๊ณผ์ •

3) ์ธ์ฝ”๋”์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ feed forward layer๋ฅผ ํ†ตํ•ด ์ตœ์ข…๊ฐ’์€ ๋ฒกํ„ฐ๋กœ ์ถœ๋ ฅํ•˜๊ฒŒ ๋˜์–ด์žˆ์Œ

4) Linear layer, Softmax layer

  • ์‹ค์ œ ๋‹จ์–ด๋กœ ์ถœ๋ ฅํ•˜๊ธฐ ์œ„ํ•ด์„œ ์กด์žฌ
  • linear layer: softmax ์˜ ์ž…๋ ฅ๊ฐ’์œผ๋กœ ๋“ค์–ด๊ฐˆ ๋กœ์ง์„ ์ƒ์„ฑ
  • softmax: ๋ชจ๋ธ์ด ์•Œ๊ณ ์žˆ๋Š” ๋ชจ๋“  ๋‹จ์–ด๋“ค์— ๋Œ€ํ•œ ํ™•๋ฅ  ๊ฐ’์„ ์ถœ๋ ฅ, ๊ฐ€์žฅ ๋†’์€ ํ™•๋ฅ  ๊ฐ’์ด ๋‹ค์Œ ๋‹จ์–ด๊ฐ€ ๋จ

5) Label Smoothing

  • ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์ตœ์ข… ๋‹จ๊ณ„์—์„œ label smoothing ์ด๋ผ๋Š” ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•ด์„œ ๋ชจ๋ธ์˜ ํผํฌ๋จผ์Šค๋ฅผ ๋‹ค์‹œ ํ•œ ๋ฒˆ ํ•œ ๋‹จ๊ณ„ ์—…๊ทธ๋ ˆ์ด๋“œ ์‹œํ‚ด
  • ๋ณดํ†ต ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ์†Œํ”„ํŠธ๋งฅ์Šค๋กœ ํ•™์Šตํ•  ๊ฒฝ์šฐ์—๋Š” ๋ ˆ์ด๋ธ”์„ ์›ํ•ซ์ธ์ฝ”๋”ฉ์œผ๋กœ ์ „ํ™˜ํ•จ
    • ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์›ํ•ซ์ธ์ฝ”๋”ฉ์ด ์•„๋‹Œ 1์—๋Š” ๊ฐ€๊น์ง€๋งŒ 1์ด ์•„๋‹Œ ๊ฐ’, 0์—๋Š” ๊ฐ€๊น์ง€๋งŒ 0์ด ์•„๋‹Œ ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ ⇒ label smoothing
  • 0 ๋˜๋Š” 1 ์ด ์•„๋‹Œ, ์ •๋‹ต์€ 0์— ๊ฐ€๊นŒ์šด ๊ฐ’, ์˜ค๋‹ต์€ 0์— ๊ฐ€๊นŒ์šด ๊ฐ’์œผ๋กœ ์ด๋ ‡๊ฒŒ ์‚ด์ง์‚ด์ง ๋ณ€ํ™”๋ฅผ ์ฃผ๋Š” ๊ธฐ์ˆ 
  • ๋ชจ๋ธํ•™์Šต์‹œ์— ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์น˜์ค‘ํ•˜์—ฌ ํ•™์Šตํ•˜์ง€ ๋ชปํ•œํ•˜๋„๋ก ๋ณด์™„ํ•˜๋Š” ๊ธฐ์ˆ 
  • ์–ด๋–ป๊ฒŒ ํ•™์Šต์— ๋„์›€?
    • label์ด noisyํ•œ ๊ฒฝ์šฐ, ์ฆ‰, ๊ฐ™์€ ์ž…๋ ฅ ๊ฐ’์ธ๋ฐ ๋‹ค๋ฅธ ์ถœ๋ ฅ ๊ฐ’๋“ค์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๋งŽ์„ ๊ฒฝ์šฐ, ๋ ˆ์ด๋ธ” ์Šค๋ฌด๋”ฉ์€ ํฐ ๋„์›€์ด ๋จ
    • ํ•™์Šต์ด๋ž€ ์†Œํ”„ํŠธ๋งฅ์Šค์˜ ์ถœ๋ ฅ ๊ฐ’๊ณผ ๋ฒกํ„ฐ๋กœ ์ „ํ™˜๋œ ๋ ˆ์ด๋ธ”์˜ ์ฐจ์ด๋ฅผ ์ค„์ด๋Š” ๊ฒƒ์ธ๋ฐ, ๊ฐ™์€ ๋ฐ์ดํ„ฐ์˜ ์„œ๋กœ ์ƒ์ดํ•œ ์ •๋‹ต๋“ค์ด ์›ํ•ซ์ธ์ฝ”๋”ฉ์œผ๋กœ ์กด์žฌํ•œ๋‹ค๋ฉด, ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ํฌ๊ฒŒ ์ปค์กŒ๋‹ค๊ฐ€, ์ž‘์•„์กŒ๋‹ค๊ฐ€ ๋ฐ˜๋ณตํ•˜๊ณ , ํ•™์Šต์ด ์›ํ™œํ•˜์ง€ ์•Š์Œ
      • thank you - ๊ณ ๋งˆ์›Œ
      • thank you - ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
      • ๋‘˜ ๋‹ค ์ž˜๋ชป๋œ๊ฒŒ ์•„๋‹Œ๋ฐ, ์›ํ•ซ์ธ์ฝ”๋”ฉ ์ ์šฉ์‹œ, ๊ณ ๋งˆ์›Œ, ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค๋Š” ์™„์ „ํžˆ ๋‹ค๋ฅธ ๋‘ ๋ฒกํ„ฐ๊ฐ€ ๋˜๊ณ , thank you์— ๋Œ€ํ•œ ํ•™์Šต์ด ์›ํ™œ์ด ์ง„ํ–‰๋˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Œ
      • ๋ ˆ์ด๋ธ” ์Šค๋ฌด๋”ฉ์„ ์“ฐ๋ฉด ๊ณ ๋งˆ์›Œ์™€ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค๋Š” ์ข€ ๋” ๊ฐ€๊นŒ์›Œ์ง„ ๋ฒกํ„ฐ๊ฐ€ ๋˜๊ณ , softmax์ถœ๋ ฅ๊ฐ’๊ณผ label์˜ ์ฐจ์ด๋„ ์ค„์–ด๋“ค์–ด์„œ ํšจ์œจ์ ์ธ ํ•™์Šต์„ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ๊ฒŒ๋จ

References

https://www.youtube.com/watch?v=mxGCEWOxfe8

https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

https://jalammar.github.io/illustrated-transformer/

https://medium.com/@adityathiruvengadam/transformer-architecture-attention-is-all-you-need-aeccd9f50d09

'ML > NLP' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

์‹œํ€€์Šค ํˆฌ ์‹œํ€€์Šค + ์–ดํ…์…˜ ๋ชจ๋ธ  (0) 2022.01.06
Attention Mechanism์ด๋ž€?  (0) 2021.12.26