๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

ML/ML

๋ผ์˜(Lasso) ๋ž€?

์‚ฌ์ „ ์ง€์‹

 

1.๋‹จ์ˆœ ์„ ํ˜•ํšŒ๊ท€
๋‹จ ํ•˜๋‚˜์˜ ํŠน์„ฑ(feature)์„ ๊ฐ€์ง€๊ณ  ๋ผ๋ฒจ๊ฐ’(label) ๋˜๋Š” ํƒ€๊นƒ(target)์„ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•œ ํšŒ๊ท€ ๋ชจ๋ธ์„ ์ฐพ๋Š” ๊ฒƒ

= scattor plot์—์„œ ํŠน์„ฑ x ์™€ ๋ผ๋ฒจ๊ฐ’ y ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” '์„ '์„ ์ฐพ๋Š” ๊ฒƒ

= ์ตœ๋Œ€ํ•œ ํŠน์„ฑ๊ณผ ๋ผ๋ฒจ๊ฐ’์˜ ๊ด€๊ณ„๋ฅผ ๊ฐ€์žฅ ์ž˜ ์„ค๋ช…ํ•ด์ค„ ์ˆ˜ ์žˆ๋Š” ์ผ์ฐจํ•จ์ˆ˜์‹์„ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ

= ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ๊ฐ’์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ๊ทธ์— ํ•ด๋‹นํ•˜๋Š” ๋ผ๋ฒจ๊ฐ’์„ ์˜ˆ์ธกํ•ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

 

y = w[0] * x[0] + b

 

y : ์˜ˆ์ธก๊ฐ’

x[0] : ํŠน์„ฑ

w[0] : ๊ฐ€์ค‘์น˜(weight) ๋˜๋Š” ๊ณ„์ˆ˜(coefficient) (์ผ์ฐจํ•จ์ˆ˜์—์„œ ๊ธฐ์šธ๊ธฐ)

b : ํŽธํ–ฅ(offset) (์ผ์ฐจํ•จ์ˆ˜์—์„œ y์ ˆํŽธ)

 

์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ƒ˜ํ”Œ๋“ค์˜ ํŠน์„ฑ๊ฐ’๋“ค๊ณผ ๋ผ๋ฒจ๊ฐ’๋“ค์„ ์ด์šฉํ•ด์„œ ๊ฐ€์žฅ ์ ํ•ฉํ•œ w[0] ์™€ b๋ฅผ ์ฐพ์•„์•ผ ํ•จ.

-> ์–ด๋–ป๊ฒŒ? ๊ฒฝ์‚ฌ๊ฐ์†Œ๋ฒ•(๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•)

 

ํ•˜์ง€๋งŒ ํ•˜๋‚˜์˜ ํŠน์„ฑ์œผ๋กœ ์ข‹์€ ์˜ˆ์ธก๋Šฅ๋ ฅ์„ ๋ณด์ด๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ธฐ ์‰ฝ์ง€ ์•Š๋‹ค.

->๊ทธ๋ž˜์„œ -> ๋‹ค์ค‘์„ ํ˜•ํšŒ๊ท€

 

 

2. ๋‹ค์ค‘์„ ํ˜•ํšŒ๊ท€

ํ•˜๋‚˜์˜ ํŠน์„ฑ์ด ์•„๋‹Œ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ํŠน์„ฑ์„ ํ™œ์šฉํ•ด์„œ ํšŒ๊ท€๋ชจ๋ธ์„ ๋งŒ๋“ ๋‹ค.

 

y = w[0]*x[0] + w[1]*x[1] + ... + w[p]*x[p] + b

 

ํŠน์„ฑ์˜ ๊ฐœ์ˆ˜ : p+1๊ฐœ

ํ•„์š”ํ•œ ๊ฐ€์ค‘์น˜์˜ ๊ฐœ์ˆ˜ : p+1 ๊ฐœ

 

:p+1๊ฐœ์˜ ํŠน์„ฑ(x[0], x[1], ...,x[p]) ์™€ ๋ผ๋ฒจ๊ฐ’(y)์— ์‚ฌ์•„์˜ ๊ด€๊ณ„๋ฅผ ์ž˜ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š”

w[0],w[1],...,w[p] ์™€ b๋ฅผ ์ฐพ์•„์•ผํ•œ๋‹ค.

-> ์ด๊ฑธ ์ฐพ์œผ๋ฉด ๋ผ๋ฒจ๊ฐ’์ด ์—†๋Š” ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์˜ ์˜ˆ์ธก๊ฐ’์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

ํŠน์„ฑ์ด ํ•˜๋‚˜์˜€์„ ๋•Œ๋Š” ์„ ํ˜• ๋ชจ๋ธ์ด ์ง์„ ์ด ๋˜์—ˆ์ง€๋งŒ, ํŠน์„ฑ์ด ๋‘๊ฐœ๋ฉด ํ‰๋ฉด, ๋” ๋†’์€ ์ฐจ์›์—์„œ๋Š” ์ดˆํ‰๋ฉด(hyperplane)์ด ๋˜๋Š” ํŠน์ง•์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. 

 

3. ํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ (mean squared error, MSE)

๋‹จ์ˆœ ์„ ํ˜•ํšŒ๊ท€์™€ ๋‹ค์ค‘์„ ํ˜•ํšŒ๊ท€์—์„œ ์ ์ ˆํ•œ ๊ฐ€์ค‘์น˜์™€ ํŽธํ–ฅ์„ ์ฐพ์•„๋‚ด๋Š” ๋ฐฉ๋ฒ•

 

์„ ํ˜•ํšŒ๊ท€๋Š” ๋ผ๋ฒจ๊ฐ’๊ณผ ์˜ˆ์ธก๊ฐ’ ์‚ฌ์ด์˜ ํ‰๊ท ์ œ๊ณฑ ์˜ค์ฐจ(MSE) ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ w์™€ b๋ฅผ ์ฐพ๋Š”๋‹ค.

:๋ผ๋ฒจ๊ฐ’(์ •๋‹ต), ์˜ˆ์ธก๊ฐ’์˜ ์ฐจ์ด๊ฐ€ ์ž‘์œผ๋ฉด ์ž‘์„ ์ˆ˜๋ก ์„ฑ๋Šฅ์ด ์ข‹์€ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ!

 

 

ํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ ๊ณต์‹

๋ฌธ์ œ : ๋‹ค์ค‘ ์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ์€ ๊ณผ๋Œ€์ ํ•ฉ(overfitting) ๋  ๋•Œ๊ฐ€ ์ข…์ข… ์žˆ๋‹ค (๊ณผํ•˜๊ฒŒ ํ•™์Šตํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ๋–จ์–ด์ง„๋‹ค.)

->  ๋ฆฟ์ง€(Ridge)์™€ ๋ผ์˜(Lasso) ์ œ์•ˆ

 

 

๋ผ์˜ (Lasso) ๋ž€?

์„ ํ˜• ํšŒ๊ท€์—์„œ ์ ์ ˆํ•œ ๊ฐ€์ค‘์น˜์™€ ํŽธํ–ฅ์„ ์ฐพ๋Š” ์ตœ์†Œ์ œ๊ณฑ๋ฒ• + ์ถ”๊ฐ€ ์ œ์•ฝ ์กฐ๊ฑด(L1 Norm)

 

์ผ๋ฐ˜์ ์œผ๋กœ ๋”ฅ๋Ÿฌ๋‹์—์„œ ๋„คํŠธ์›Œํฌ์˜ Overfitting(๊ณผ์ ํ•ฉ) ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์€ 3๊ฐ€์ง€ ๋ฐฉ๋ฒ•์„ ์ œ์‹œ

  1. ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•  ๊ฒƒ
  2. Cross Validation
  3. Regularization

Regularization ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ธ L1 Norm 

๋ฒกํ„ฐ์˜ ์š”์†Œ์— ๋Œ€ํ•œ ์ ˆ๋Œ“๊ฐ’์˜ ํ•ฉ

 

x = [1,2,3,4,5]

||x|| = (|1|+|2|+|3|+|4|+|5|) = 15

 

 

 

 

 m์€ ๊ฐ€์ค‘์น˜์˜ ๊ฐœ์ˆ˜๋ฅผ ์˜๋ฏธํ•˜๊ณ (๋”ฐ๋ผ์„œ ํŠน์„ฑ์˜ ๊ฐœ์ˆ˜๋„ ๋จ), 

 α :  ํŽ˜๋„ํ‹ฐ์˜ ํšจ๊ณผ๋ฅผ ์กฐ์ ˆํ•ด์ฃผ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ

 α์˜ ๊ฐ’์ด ์ปค์ง€๋ฉด ํŒจ๋„ํ‹ฐ ํ•ญ์˜ ์˜ํ–ฅ๋ ฅ์ด ์ปค์ง€๊ณ , α์˜ ๊ฐ’์ด ์ž‘์•„์ ธ์„œ ๊ฑฐ์˜ 0์ด ๋˜๋ฉด ์„ ํ˜• ํšŒ๊ท€์™€ ๊ฐ™์•„์ง.

๋ผ์˜์˜ ๋ชฉ์  : MSE์™€ penalty ํ•ญ์˜ ํ•ฉ์ด ์ตœ์†Œ๊ฐ€ ๋˜๊ฒŒ ํ•˜๋Š” w ์™€ b๋ฅผ ์ฐพ๋Š” ๊ฒƒ

 

 

 

์ฐธ๊ณ ์ž๋ฃŒ

bskyvision.com/193