pca 3

SVM (Support Vector Machine), XGBoost (Extreme Gradient Boosting), PCA (Principal Component Analysis), ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹, ROC Curve

1. SVM (Support Vector Machine)๊ฐœ๋… : ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์žฅ ๋„“๊ฒŒ ๋‚˜๋ˆ„๋Š” "์ตœ์ ์˜ ๊ฒฝ๊ณ„์„ (HyperPlane)"์„ ์ฐพ๋Š” ์ง€๋„ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์˜ˆ์‹œ : (1) SVM์€ ๋‘ ๊ฐ€์ง€๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ์„ ์„ ๊ทธ์–ด์ฃผ๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๊ต์‹ค์—์„œ ์ถ•๊ตฌ๋ฅผ ์ข‹์•„ํ•˜๋Š” ์นœ๊ตฌ๋ž‘ ์•ผ๊ตฌ๋ฅผ ์ข‹์•„ํ•˜๋Š” ์นœ๊ตฌ๋ฅผ ์„œ๋กœ ๋‚˜๋ˆ„๋Š” ์„ ์„ ๊ทธ์–ด์ค€๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ณด์ž ์ด๋ ‡๊ฒŒ ๋‚˜๋ˆ„๋Š” ์„ ์„ ๊ฒฝ๊ณ„์„  (๊ฒฐ์ • ๊ฒฝ๊ณ„) ๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. (2) ๊ทธ๋Ÿผ ์–ด๋–ป๊ฒŒ ์„ ์„ ๊ทธ์–ด์•ผ ๊ฐ€์žฅ ์ž˜ ๋‚˜๋ˆŒ๊นŒ? -> ํ•ญ์ƒ ๊ฐ€์žฅ ๋„“๊ฒŒ ๋‘ ๊ทธ๋ฃน์„ ๋‚˜๋ˆ ์ฃผ๋Š” ์„ ์„ ์ฐพ๋Š” ๊ฒƒ ๋‘ ํŒ€ ์‚ฌ์ด์— ์„ ์„ ๊ทธ์„ ๋•Œ๋Š”, ๊ทธ๋ƒฅ ์•„๋ฌด๋ ‡๊ฒŒ๋‚˜ ๊ทธ์œผ๋ฉด ์•ˆ๋จ. ๋‘ ๊ทธ๋ฃน ์‚ฌ์ด๊ฐ€ ๊ฐ€์žฅ ๋„“๊ฒŒ ๋–จ์–ด์ง€๊ฒŒ๋” ์„ ์„ ๊ทธ์–ด์•ผ, ๋‚˜์ค‘์— ์ƒˆ ์นœ๊ตฌ๊ฐ€ ๋“ค์–ด์™€๋„ ์ž˜ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๊ฒ ์ง€? (3) ์„œํฌํŠธ ๋ฒกํ„ฐ๋Š” ๋ญ˜๊นŒ?๊ฒฝ๊ณ„์„ ์„ ๊ทธ์—ˆ์„ ๋•Œ, ๊ทธ ๊ฒฝ๊ณ„์„ ์ด๋ž‘..

Data Analysis 2025.07.08

PCA (์ฐจ์›์ถ•์†Œ), IRIS ์˜ˆ์ œ ์ฐจ์› ์ถ•์†Œ 3์ฐจ์› - 2์ฐจ์›

1. PCA๊ฐ€ ํ•„์š”ํ•œ ์ด์œ 1. ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์˜ ๋ฌธ์ œ - ์ฐจ์›์ด ๋†’์•„์ง€๋ฉด ๊ณ„์‚ฐ๋Ÿ‰์ด ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ ("์ฐจ์›์˜ ์ €์ฃผ")- ์‹œ๊ฐํ™” ๋ถˆ๊ฐ€๋Šฅ (3์ฐจ์›๊นŒ์ง€๋Š” ๊ฐ€๋Šฅํ•ด๋„ ๊ทธ ์ด์ƒ์€ ์–ด๋ ต๋‹ค)- ๋‹ค์ค‘๊ณต์„ ์„ฑ ( multicollinearity ) : ๋ณ€์ˆ˜ ๊ฐ„ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋†’์•„์ง€๋ฉด ๋ชจ๋ธ์ด ๋ถˆ์•ˆ์ • 2. PCA์˜ ๋ชฉํ‘œ - ์ฐจ์›์ถ•์†Œ : ์›๋ณธ ํŠน์„ฑ ์ˆ˜๋ฅผ ์ค„์—ฌ ๋ฐ์ดํ„ฐ ํ‘œํ˜„์„ ๊ฐ„๊ฒฐํ•˜๊ฒŒ - ์ •๋ณด ๋ณด์กด : ์ตœ๋Œ€ํ•œ ๋ถ„์‚ฐ์„ ์œ ์ง€ํ•˜๋„๋ก ์ถ•์„ ์žฌ๊ตฌ์„ฑ - ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ : ์ž‘์€ ๋ถ„์‚ฐ์„ ๊ฐ–๋Š” ์„ฑ๋ถ„๋“ค์€ ์ œ๊ฑฐํ•˜์—ฌ ์žก์Œ ๊ฐ์†Œ 2. PCA์˜ ์žฅ·๋‹จ์  ๋ฐ ์œ ์˜์‚ฌํ•ญ1. ์žฅ์  - ๊ณ„์‚ฐ์ด ๋น„๊ต์  ๋น ๋ฅด๊ณ  ๊ตฌํ˜„์ด ๊ฐ„๋‹จ - ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ, ์‹œ๊ฐํ™”, ํŠน์„ฑ ์„ ํƒ ์šฉ์ด- ๋‹ค์ค‘๊ณต์„ ์„ฑ ์™„ํ™” 2. ๋‹จ์ - ์„ ํ˜•๊ธฐ๋ฒ• : ๋น„์„ ํ˜• ๊ตฌ์กฐ ํฌ์ฐฉ ๋ถˆ๊ฐ€ - ํ•ด์„ ์–ด๋ ค์›€ : ์ฃผ์„ฑ๋ถ„์ด ์›๋ณธ ํŠน์„ฑ..

Data Analysis 2025.07.08

KNN ๋ถ„๋ฅ˜ ์˜ˆ์ œ (Iris ๋ฐ์ดํ„ฐ ์…‹)

1. ์ฝ”๋“œ์˜ ๋ชฉ์ ๊ณผ ์—ญํ•  ๋ถ„์„ ์•„์ด๋ฆฌ์Šค(iris) ๊ฝƒ ๋ฐ์ดํ„ฐ ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ KNN ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•ด ๋ถ„๋ฅ˜ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๊ณ  ,๊ทธ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ณ  ๊ฒฐ๊ณผ๋ฅผ ์‹œ๊ฐํ™” ํ•˜๋Š”๊ฒƒ - ๋ฐ์ดํ„ฐ์…‹ ๋กœ๋”ฉ ์ „์ฒ˜๋ฆฌ - ๋ฐ์ดํ„ฐ ํ›ˆ๋ จ/ํ…Œ์ŠคํŠธ ์…‹์œผ๋กœ ๋ถ„ํ•  - KNN ๋ชจ๋ธ ํ•™์Šต ๋ฐ ํ‰๊ฐ€ (์ •ํ™•๋„ ๊ณ„์‚ฐ)- ์ฐจ์› ์ถ•์†Œ (PCA)๋ฅผ ํ†ตํ•ด ์‹œ๊ฐํ™” ๊ฐ€๋Šฅํ•˜๋„๋ก ๋ณ€ํ™˜ - ๋ถ„๋ฅ˜ ๊ฒฐ๊ณผ๋ฅผ ์‹œ๊ฐํ™” 2. ํ•„์ˆ˜ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ pandas : ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ฐ ๋ถ„์„์šฉ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ numpy : ์ˆ˜ํ•™์  ์—ฐ์‚ฐ, ๋ฐฐ์—ด ์ฒ˜๋ฆฌmatplotlib : ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”sklearn.datasets : ํ‘œ์ค€ ๋ฐ์ดํ„ฐ์…‹ ์ œ๊ณต (Iris)sklearn.neighbors : KNN ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ตฌํ˜„ sklearn.model_selection : ๋ฐ์ดํ„ฐ ๋ถ„ํ• sklearn.decomposition..

Data Analysis 2025.06.08