1. ์ ๋ณด์ด๋ก ์ด๋?
- ์ถ์์ ์ธ '์ ๋ณด'๋ผ๋ ๊ฐ๋ ์ ์ ๋ํํ๊ณ ์ ๋ณด์ ์ ์ฅ๊ณผ ํต์ ์ ์ฐ๊ตฌํ๋ ๋ถ์ผ
2. ์ฌ๊ฑด x ์ ์ ๋ณด๋
- ์ฌ๊ฑด์ด ์ผ์ด๋ ํ๋ฅ P(x) ์ ์ํด ๊ฒฐ์
3. Entropy
- ์ํธ๋กํผ๋ ํน์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ์ฌ๊ฑด๋ค์ ์ ๋ณด๋์ ๊ธฐ๋๊ฐ์ด๋ค.
- ์ด์ฐํ๋ฅ ๋ณ์ X๊ฐ x1โ,x2โ,…,xnโ ์ค ํ๋์ ๊ฐ์ ๊ฐ์ง๋ค๊ณ ๊ฐ์
- ๊ธฐ๋๊ฐ์์ ๋ถ๋ถ์ ํ๋ฅ ๋์ ์ ๋ณด๋์ ๋ฃ์
์์ 1 : ๊ณต์ ๊บผ๋ผ ๋ ์ํธ๋กํผ๋ฅผ ๊ณ์ฐํด๋ณด์
- ์ํธ๋กํผ = ๋ฌด์ง์ = ๋ถํ์ค์ฑ
- ๊ณต์ ์ข ๋ฅ๊ฐ ๋ค์ํ ๋ ์ํธ๋กํผ๊ฐ ๋ ๋๋ค
์์ 2: ๊ณต ์๊น์ ๋ ๊ฐ์ง๋ก ๊ณ ์ , ์ ๋น์จ์ ๋ค๋ฅด๊ฒ ํ์ ๋ ์ํธ๋กํผ๋?
- ํ๋ฅ ๋ณ์๊ฐ ๊ฐ์ง ์ ์๋ ๊ฐ์ง์๊ฐ ๊ฐ์ ๋, ์ฌ๊ฑด์ ํ๋ฅ ์ด ๊ท ๋ฑํ ์๋ก ์ํธ๋กํผ ๊ฐ์ ์ฆ๊ฐํ๋ค.
- ๋์ ์ด ์๋ฉด ๋์ฌ ํ๋ฅ 50%, ๋ท๋ฉด ๋์ฌ ํ๋ฅ 50% ์ผ ๋๊ฐ ์๋ฉด์ด ๋์ฌ ํ๋ฅ ์ด 90%์ธ ๋์ ์ ๋์ง ๋๋ณด๋ค ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ์ํธ๋กํผ(๋ถํ์ค์ฑ)๊ฐ ํฌ๋ค.
- ๋ฐ๋ผ์ ๊ท ๋ฑ๋ถํฌ์ผ ๋ ์ํธ๋กํผ๊ฐ ์ต๋์ด๋ค.
3.2 ์ฐ์ ํ๋ฅ ๋ณ์(Continuous Random Variables) ์ธ ๊ฒฝ์ฐ
- ํ๋ฅ ๋ณ์ X์ ํ๋ฅ ๋ฐ๋ ํจ์๊ฐ p(x)์ผ ๋ ์ํธ๋กํผ
4. ์ฟจ๋ฐฑ-๋ผ์ด๋ธ๋ฌ ๋ฐ์ฐ(Kullback-Leibler divergence, KL divergence)
4.1 ๋จธ์ ๋ฌ๋์ ๋ชฉํ
- ์๋ก์ด ์ ๋ ฅ ๋ฐ์ดํฐ๊ฐ ๋ค์ด์๋ ์์ธก์ด ์๋๋๋ก
- ๋ชจ๋ธ์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ฐ์ดํฐ์ ์ค์ ํ๋ฅ ๋ถํฌ์ ๊ฐ๊น๊ฒ ๋ง๋๋ ๊ฒ
4.2 ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ์ข ๋ฅ
- ๊ฒฐ์ ๋ชจ๋ธ (discriminative model):
- ๋ฐ์ดํฐ์ ์ค์ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ์ง X, ๊ฒฐ์ ๊ฒฝ๊ณ๋ฅผ ํ์ต
- ๊ฒฐ๊ณผ๊ฐ์ด<0 -> class1, ๊ฒฐ๊ณผ๊ฐ์ด>0 -> class2
- ์์ฑ๋ชจ๋ธ(generative model) :
- ๋ฐ์ดํฐ์ ๋ชจ๋ธ๋ก๋ถํฐ ๋์ถํ ์ ์๋ ์ฌ๋ฌ ํ๋ฅ ๋ถํฌ์ ๋ฒ ์ด์ฆ ์ด๋ก ์ ์ด์ฉํด์ ๋ฐ์ดํฐ์ ์ค์ ๋ถํฌ๋ฅผ ๊ฐ์ ์ ์ผ๋ก ๋ชจ๋ธ๋ง
- ์์ฑ๋ชจ๋ธ์ ํ์ตํ ๋๋ ๋ ํ๋ฅ ๋ถํฌ์ ์ฐจ์ด๋ฅผ ๋ํ๋ด๋ ์งํ ํ์ => ์ฟจ๋ฐฑ-๋ผ์ด๋ธ๋ฌ ๋ฐ์ฐ(Kullback-Leibler divergence)4.3 ์ฟจ๋ฐฑ ๋ผ์ด๋ธ๋ฌ ์ฐ์ฐ
- P(x) : ๋ฐ์ดํฐ๊ฐ ๋ฐ๋ฅด๋ ์ค์ ํ๋ฅ ๋ถํฌ
- Q(x) : ๋ชจ๋ธ์ด ๋ํ๋ด๋ ํ๋ฅ ๋ถํฌ
- P(x)๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ณ์ฐ๋ Q(x)์ ํ๊ท ์ ๋ณด๋ - P(x)๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ณ์ฐ๋ ํ๊ท ์ ๋ณด๋
- ์ฐ์ํ๋ฅ ๋ณ์์ ๊ฒฝ์ฐ
4.3 KL divergence์ ํน์ฑ
5. Cross Entorpy
- P(x)๋ ๋ฐ์ดํฐ์ ์ค์ ๋ถํฌ์ด๋ฏ๋ก, ์ฐ๋ฆฌ๊ฐ ๋ฐ๊ฟ ์ ์๋ ๊ณ ์ ๋ ๊ฐ์ ๋๋ค.
- ๋ฐ๋ผ์ ๋ฐ๊ฟ ์ ์๋ ๋ถ๋ถ์ Q(x)Q(x)์ ๊ดํ ์์ด๊ธฐ ๋๋ฌธ์ KL divergence๋ฅผ ์ต์ํํ๋ ๋ฌธ์ ๋ ๋นจ๊ฐ์ ๋ถ๋ถ์ ์ต์ํํ๋ ๋ฌธ์ ๊ฐ ๋ฉ๋๋ค.
5.1 ์ํธ๋กํผ์ ๊ต์ฐจ ์ํธ๋กํผ, KL divergence ์ฌ์ด์ ๊ด๊ณ์
- ์ ๋ต์ ์ ํ๋ฅ ๋ถํฌ P์ ์ฐ๋ฆฌ ๋ชจ๋ธ์ ์ถ๋ก ๊ฒฐ๊ณผ์ ํ๋ฅ ๋ถํฌ Q ์ ์ฐจ์ด์ธ KL divergence๋ฅผ ์ต์ํํ๋ ๊ฒ(์ฐ๋ฆฌ ๋ชจ๋ธ์ ์ถ๋ก ๊ฒฐ๊ณผ๊ฐ ์ ๋ต์ ๊ณผ ์ต๋ํ ์ ์ฌํ๊ฒ ํ๋ ๊ฒ)์ ๊ต์ฐจ ์ํธ๋กํผ(Cross Entropy)๋ฅผ ์ต์ํํ๋ ๊ฒ์ด ์ํ์ ์ผ๋ก ๊ฐ๋ค.
5.2 Cross Entorpy Loss
- ์์คํจ์ : ๋จธ์ ๋ฌ๋์์ ๋ชจ๋ธ์ด ๋ํ๋ด๋ ํ๋ฅ ๋ถํฌ์ ๋ฐ์ดํฐ๊ฐ ๋ฐ๋ฅด๋ ์ค์ ํ๋ฅ ๋ถํฌ ์ฌ์ด์ ์ฐจ์ด๋ฅผ ๋ํ๋ด๋ ํจ์
- ๋ชจ๋ธ์ ํ๋ฅ ๋ถํฌ๋ ํ๋ผ๋ฏธํฐ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์ ์์ค ํจ์ ์ญ์ ํ๋ผ๋ฏธํฐ์ ์ํด ๊ฒฐ์
- ์ต์์ ๊ณฑ๋ฒ์ ํจ์๋ ์์ค ํจ์
- ๋ฐ์ดํฐ๊ฐ ์ด์ฐ์ ์ธ ๊ฐ์ ๊ฐ์ง๋ ๋ถ๋ฅ(classification) ๋ฌธ์ ์์๋ ๋ชจ๋ธ์ ์ถ๋ ฅ ๊ฒฐ๊ณผ๊ฐ ๋ก์ง์คํฑ ํจ์(logistic function)
- ์ํํธ๋งฅ์ค ํจ์(softmax function) : ๋ถ๋ฅ ํด๋์ค๊ฐ 2๊ฐ์ธ ๋ก์ง์คํฑ ํจ์๋ฅผ ํด๋์ค๊ฐ nn๊ฐ์ผ ๋๋ก ํ์ฅํ ๊ฒ
- cross entropy์ ์
- ๋ถ๋ฅ ๋ฌธ์ ์์ ๋ฐ์ดํฐ์ ๋ผ๋ฒจ์ one-hot encoding์ ํตํด ํํ
- ํด๋์ค์ ์ข ๋ฅ๊ฐ NN๊ฐ์ง์ด๊ณ ํน์ ๋ฐ์ดํฐ๊ฐ nn๋ฒ์งธ ํด๋์ค์ ์ํ ๋, nn๋ฒ์งธ ์์๋ง 1์ด๊ณ ๋๋จธ์ง๋ 0์ผ๋ก ์ฑ์ด NN์ฐจ์ ๋ฒกํฐ
- 3๊ฐ์ ํด๋์ค c_1,c_2,c_3c ๊ฐ ์กด์ฌํ๋ ๋ถ๋ฅ ๋ฌธ์ ์์ ์ด๋ค ๋ฐ์ดํฐ์ ์ถ๋ ฅ๊ฐ์ด ๋ค์๊ณผ ๊ฐ๋ค๊ณ ๊ฐ์
- ๋ฐ์ดํฐ๊ฐ ์ค์ ๋ก 2๋ฒ ํด๋์ค์ ์ํ ๊ฒฝ์ฐ, ๋ฐ์ดํฐ์ ์ค์ ํ๋ฅ ๋ถํฌ๋ one-hot encoding๊ณผ ๊ฐ์ [0,1,0][0,1,0]
- cross entropy๋ฅผ ์ฌ์ฉํ๋ฉด P(x)P(x)์ Q(x)Q(x)์ ์ฐจ์ด๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ ๊ฐ๋ฅ
- ๋ถ๋ฅ ๋ฌธ์ ์์๋ ๋ฐ์ดํฐ์ ํ๋ฅ ๋ถํฌ๊ฐ ์์ ๊ฐ์ด one-hot vector๋ก ํํ๋๊ธฐ ๋๋ฌธ์, P(x)P(x)์ Q(x)Q(x)์ ์ฐจ์ด๋ฅผ cross entropy๋ก ๊ณ์ฐํ ๊ฒฝ์ฐ ๊ณ์ฐ์ด ๊ฐ๋จํด์ง๋ค
6. Decision Tree์ Entropy
- ์์ฌ๊ฒฐ์ ํธ๋ฆฌ๋ ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ์์ ์ด๋ค ๊ธฐ์ค์ผ๋ก ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋๋ด์ ๋ ๋๋๊ธฐ ์ ๋ณด๋ค ์ํธ๋กํผ๊ฐ ๊ฐ์ํ๋์ง๋ฅผ ๋ฐ์ ธ์,
- ์ํธ๋กํผ๊ฐ ๊ฐ์ํ๋ฉด ๊ทธ ๋งํผ ์ ๋ณด ์ด๋(Information Gain, IG)์ ์ป๋๋ค๊ณ ๋ณธ๋ค.
'ML > ML' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ํ๊ท๋ชจ๋ธ ์ฑ๋ฅํ๊ฐ์งํ] MAE, MSE, RMSE, R2 Score (0) | 2021.09.27 |
---|---|
๋ผ์(Lasso) ๋? (0) | 2020.10.27 |
[๋ถ๋ฅ๋ชจ๋ธ ์ฑ๋ฅํ๊ฐ์งํ] Accuracy, Precision, Recall, F1 score ๊ฐ๋ ์ ๋ฆฌ (0) | 2020.10.07 |