๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

ML/ML

์ •๋ณด์ด๋ก  ํ†บ์•„๋ณด๊ธฐ

1. ์ •๋ณด์ด๋ก ์ด๋ž€?

  • ์ถ”์ƒ์ ์ธ '์ •๋ณด'๋ผ๋Š” ๊ฐœ๋…์„ ์ •๋Ÿ‰ํ™”ํ•˜๊ณ  ์ •๋ณด์˜ ์ €์žฅ๊ณผ ํ†ต์‹ ์„ ์—ฐ๊ตฌํ•˜๋Š” ๋ถ„์•ผ

 

2. ์‚ฌ๊ฑด x ์˜ ์ •๋ณด๋Ÿ‰

  • ์‚ฌ๊ฑด์ด ์ผ์–ด๋‚  ํ™•๋ฅ  P(x) ์— ์˜ํ•ด ๊ฒฐ์ •

 

3. Entropy

  • ์—”ํŠธ๋กœํ”ผ๋Š” ํŠน์ • ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” ์‚ฌ๊ฑด๋“ค์˜ ์ •๋ณด๋Ÿ‰์˜ ๊ธฐ๋Œ“๊ฐ’์ด๋‹ค.
  • ์ด์‚ฐํ™•๋ฅ ๋ณ€์ˆ˜ X๊ฐ€ x1โ€‹,x2โ€‹,…,xnโ€‹ ์ค‘ ํ•˜๋‚˜์˜ ๊ฐ’์„ ๊ฐ€์ง„๋‹ค๊ณ  ๊ฐ€์ •
  • ๊ธฐ๋Œ€๊ฐ’์ˆ˜์‹ ๋ถ€๋ถ„์— ํ™•๋ฅ  ๋Œ€์‹  ์ •๋ณด๋Ÿ‰์„ ๋„ฃ์Œ

 

์˜ˆ์ œ 1 : ๊ณต์„ ๊บผ๋‚ผ ๋•Œ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๊ณ„์‚ฐํ•ด๋ณด์ž

  • ์—”ํŠธ๋กœํ”ผ = ๋ฌด์งˆ์„œ = ๋ถˆํ™•์‹ค์„ฑ
  • ๊ณต์˜ ์ข…๋ฅ˜๊ฐ€ ๋‹ค์–‘ํ•  ๋•Œ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋” ๋†’๋‹ค

 

์˜ˆ์ œ 2: ๊ณต ์ƒ‰๊น”์„ ๋‘ ๊ฐ€์ง€๋กœ ๊ณ ์ •, ์ƒ‰ ๋น„์œจ์„ ๋‹ค๋ฅด๊ฒŒ ํ–ˆ์„ ๋•Œ ์—”ํŠธ๋กœํ”ผ๋Š”?

  • ํ™•๋ฅ ๋ณ€์ˆ˜๊ฐ€ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ๊ฐ€์ง“์ˆ˜๊ฐ€ ๊ฐ™์„ ๋–„, ์‚ฌ๊ฑด์˜ ํ™•๋ฅ ์ด ๊ท ๋“ฑํ• ์ˆ˜๋ก ์—”ํŠธ๋กœํ”ผ ๊ฐ’์€ ์ฆ๊ฐ€ํ•œ๋‹ค.
    • ๋™์ „์ด ์•ž๋ฉด ๋‚˜์˜ฌ ํ™•๋ฅ  50%, ๋’ท๋ฉด ๋‚˜์˜ฌ ํ™•๋ฅ  50% ์ผ ๋•Œ๊ฐ€ ์•ž๋ฉด์ด ๋‚˜์˜ฌ ํ™•๋ฅ ์ด 90%์ธ ๋™์ „์„ ๋˜์งˆ ๋•Œ๋ณด๋‹ค ๊ฒฐ๊ณผ๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์— ์—”ํŠธ๋กœํ”ผ(๋ถˆํ™•์‹ค์„ฑ)๊ฐ€ ํฌ๋‹ค.
    • ๋”ฐ๋ผ์„œ ๊ท ๋“ฑ๋ถ„ํฌ์ผ ๋•Œ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ์ตœ๋Œ€์ด๋‹ค.

 

3.2 ์—ฐ์† ํ™•๋ฅ  ๋ณ€์ˆ˜(Continuous Random Variables) ์ธ ๊ฒฝ์šฐ

  • ํ™•๋ฅ  ๋ณ€์ˆ˜ X์˜ ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜๊ฐ€ p(x)์ผ ๋•Œ ์—”ํŠธ๋กœํ”ผ

 

 

4. ์ฟจ๋ฐฑ-๋ผ์ด๋ธ”๋Ÿฌ ๋ฐœ์‚ฐ(Kullback-Leibler divergence, KL divergence)

 

4.1 ๋จธ์‹ ๋Ÿฌ๋‹์˜ ๋ชฉํ‘œ

  • ์ƒˆ๋กœ์šด ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด์™€๋„ ์˜ˆ์ธก์ด ์ž˜๋˜๋„๋ก
  • ๋ชจ๋ธ์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋ฐ์ดํ„ฐ์˜ ์‹ค์ œ ํ™•๋ฅ  ๋ถ„ํฌ์— ๊ฐ€๊น๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ

 

4.2 ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ ์ข…๋ฅ˜

  • ๊ฒฐ์ •๋ชจ๋ธ (discriminative model):
    1. ๋ฐ์ดํ„ฐ์˜ ์‹ค์ œ ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋งํ•˜์ง€ X, ๊ฒฐ์ •๊ฒฝ๊ณ„๋ฅผ ํ•™์Šต
    2. ๊ฒฐ๊ณผ๊ฐ’์ด<0 -> class1, ๊ฒฐ๊ณผ๊ฐ’์ด>0 -> class2
  • ์ƒ์„ฑ๋ชจ๋ธ(generative model) :
    1. ๋ฐ์ดํ„ฐ์™€ ๋ชจ๋ธ๋กœ๋ถ€ํ„ฐ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋Š” ์—ฌ๋Ÿฌ ํ™•๋ฅ  ๋ถ„ํฌ์™€ ๋ฒ ์ด์ฆˆ ์ด๋ก ์„ ์ด์šฉํ•ด์„œ ๋ฐ์ดํ„ฐ์˜ ์‹ค์ œ ๋ถ„ํฌ๋ฅผ ๊ฐ„์ ‘์ ์œผ๋กœ ๋ชจ๋ธ๋ง
    2. ์ƒ์„ฑ๋ชจ๋ธ์„ ํ•™์Šตํ•  ๋•Œ๋Š” ๋‘ ํ™•๋ฅ  ๋ถ„ํฌ์˜ ์ฐจ์ด๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€ํ‘œ ํ•„์š” => ์ฟจ๋ฐฑ-๋ผ์ด๋ธ”๋Ÿฌ ๋ฐœ์‚ฐ(Kullback-Leibler divergence)4.3 ์ฟจ๋ฐฑ ๋ผ์ด๋ธ”๋Ÿฌ ์—ฐ์‚ฐ
  • P(x) : ๋ฐ์ดํ„ฐ๊ฐ€ ๋”ฐ๋ฅด๋Š” ์‹ค์ œ ํ™•๋ฅ  ๋ถ„ํฌ
  • Q(x) : ๋ชจ๋ธ์ด ๋‚˜ํƒ€๋‚ด๋Š” ํ™•๋ฅ  ๋ถ„ํฌ
  • P(x)๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๊ณ„์‚ฐ๋œ Q(x)์˜ ํ‰๊ท  ์ •๋ณด๋Ÿ‰ - P(x)๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๊ณ„์‚ฐ๋œ ํ‰๊ท  ์ •๋ณด๋Ÿ‰
  • ์—ฐ์†ํ™•๋ฅ  ๋ณ€์ˆ˜์˜ ๊ฒฝ์šฐ

 

4.3 KL divergence์˜ ํŠน์„ฑ

 

 

5. Cross Entorpy

  • P(x)๋Š” ๋ฐ์ดํ„ฐ์˜ ์‹ค์ œ ๋ถ„ํฌ์ด๋ฏ€๋กœ, ์šฐ๋ฆฌ๊ฐ€ ๋ฐ”๊ฟ€ ์ˆ˜ ์—†๋Š” ๊ณ ์ •๋œ ๊ฐ’์ž…๋‹ˆ๋‹ค.
  • ๋”ฐ๋ผ์„œ ๋ฐ”๊ฟ€ ์ˆ˜ ์žˆ๋Š” ๋ถ€๋ถ„์€ Q(x)Q(x)์— ๊ด€ํ•œ ์‹์ด๊ธฐ ๋•Œ๋ฌธ์— KL divergence๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฌธ์ œ๋Š” ๋นจ๊ฐ„์ƒ‰ ๋ถ€๋ถ„์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

 

5.1 ์—”ํŠธ๋กœํ”ผ์™€ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ, KL divergence ์‚ฌ์ด์˜ ๊ด€๊ณ„์‹

  • ์ •๋‹ต์…‹์˜ ํ™•๋ฅ ๋ถ„ํฌ P์™€ ์šฐ๋ฆฌ ๋ชจ๋ธ์˜ ์ถ”๋ก  ๊ฒฐ๊ณผ์˜ ํ™•๋ฅ ๋ถ„ํฌ Q ์˜ ์ฐจ์ด์ธ KL divergence๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ(์šฐ๋ฆฌ ๋ชจ๋ธ์˜ ์ถ”๋ก  ๊ฒฐ๊ณผ๊ฐ€ ์ •๋‹ต์…‹๊ณผ ์ตœ๋Œ€ํ•œ ์œ ์‚ฌํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒƒ)์€ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ(Cross Entropy)๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ์ด ์ˆ˜ํ•™์ ์œผ๋กœ ๊ฐ™๋‹ค.

 

5.2 Cross Entorpy Loss

  • ์†์‹คํ•จ์ˆ˜ : ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ๋ชจ๋ธ์ด ๋‚˜ํƒ€๋‚ด๋Š” ํ™•๋ฅ  ๋ถ„ํฌ์™€ ๋ฐ์ดํ„ฐ๊ฐ€ ๋”ฐ๋ฅด๋Š” ์‹ค์ œ ํ™•๋ฅ  ๋ถ„ํฌ ์‚ฌ์ด์˜ ์ฐจ์ด๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ•จ์ˆ˜
  • ๋ชจ๋ธ์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๊ธฐ ๋•Œ๋ฌธ์— ์†์‹ค ํ•จ์ˆ˜ ์—ญ์‹œ ํŒŒ๋ผ๋ฏธํ„ฐ์— ์˜ํ•ด ๊ฒฐ์ •
  • ์ตœ์†Œ์ œ๊ณฑ๋ฒ•์˜ ํ•จ์ˆ˜๋„ ์†์‹ค ํ•จ์ˆ˜
  • ๋ฐ์ดํ„ฐ๊ฐ€ ์ด์‚ฐ์ ์ธ ๊ฐ’์„ ๊ฐ€์ง€๋Š” ๋ถ„๋ฅ˜(classification) ๋ฌธ์ œ์—์„œ๋Š” ๋ชจ๋ธ์˜ ์ถœ๋ ฅ ๊ฒฐ๊ณผ๊ฐ€ ๋กœ์ง€์Šคํ‹ฑ ํ•จ์ˆ˜(logistic function)
  • ์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜(softmax function) : ๋ถ„๋ฅ˜ ํด๋ž˜์Šค๊ฐ€ 2๊ฐœ์ธ ๋กœ์ง€์Šคํ‹ฑ ํ•จ์ˆ˜๋ฅผ ํด๋ž˜์Šค๊ฐ€ nn๊ฐœ์ผ ๋•Œ๋กœ ํ™•์žฅํ•œ ๊ฒƒ
  • cross entropy์˜ ์‹

  • ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ ๋ฐ์ดํ„ฐ์˜ ๋ผ๋ฒจ์€ one-hot encoding์„ ํ†ตํ•ด ํ‘œํ˜„
  • ํด๋ž˜์Šค์˜ ์ข…๋ฅ˜๊ฐ€ NN๊ฐ€์ง€์ด๊ณ  ํŠน์ • ๋ฐ์ดํ„ฐ๊ฐ€ nn๋ฒˆ์งธ ํด๋ž˜์Šค์— ์†ํ•  ๋•Œ, nn๋ฒˆ์งธ ์›์†Œ๋งŒ 1์ด๊ณ  ๋‚˜๋จธ์ง€๋Š” 0์œผ๋กœ ์ฑ„์šด NN์ฐจ์› ๋ฒกํ„ฐ
  • 3๊ฐœ์˜ ํด๋ž˜์Šค c_1,c_2,c_3c ๊ฐ€ ์กด์žฌํ•˜๋Š” ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ ์–ด๋–ค ๋ฐ์ดํ„ฐ์˜ ์ถœ๋ ฅ๊ฐ’์ด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค๊ณ  ๊ฐ€์ •

  • ๋ฐ์ดํ„ฐ๊ฐ€ ์‹ค์ œ๋กœ 2๋ฒˆ ํด๋ž˜์Šค์— ์†ํ•  ๊ฒฝ์šฐ, ๋ฐ์ดํ„ฐ์˜ ์‹ค์ œ ํ™•๋ฅ  ๋ถ„ํฌ๋Š” one-hot encoding๊ณผ ๊ฐ™์€ [0,1,0][0,1,0]
  • cross entropy๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด P(x)P(x)์™€ Q(x)Q(x)์˜ ์ฐจ์ด๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ„์‚ฐ ๊ฐ€๋Šฅ
  • ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ๋Š” ๋ฐ์ดํ„ฐ์˜ ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ์œ„์™€ ๊ฐ™์ด one-hot vector๋กœ ํ‘œํ˜„๋˜๊ธฐ ๋•Œ๋ฌธ์—, P(x)P(x)์™€ Q(x)Q(x)์˜ ์ฐจ์ด๋ฅผ cross entropy๋กœ ๊ณ„์‚ฐํ•  ๊ฒฝ์šฐ ๊ณ„์‚ฐ์ด ๊ฐ„๋‹จํ•ด์ง„๋‹ค

6. Decision Tree์™€ Entropy

  • ์˜์‚ฌ๊ฒฐ์ • ํŠธ๋ฆฌ๋Š” ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋ฐ์ดํ„ฐ์—์„œ ์–ด๋–ค ๊ธฐ์ค€์œผ๋กœ ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ๋‚˜๋ˆด์„ ๋•Œ ๋‚˜๋ˆ„๊ธฐ ์ „๋ณด๋‹ค ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๊ฐ์†Œํ•˜๋Š”์ง€๋ฅผ ๋”ฐ์ ธ์„œ, 
  • ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๊ฐ์†Œํ•˜๋ฉด ๊ทธ ๋งŒํผ ์ •๋ณด ์ด๋“(Information Gain, IG)์„ ์–ป๋Š”๋‹ค๊ณ  ๋ณธ๋‹ค.