๐ Data Analysis/๐ ์ด๋ก
Clustering ์ด๋? "๋ฐ์ดํฐ ํฌ์ธํธ"์ ๊ทธ๋ฃนํ์ ๊ด๋ จ๋ ๋จธ์ ๋ฌ๋ ๊ธฐ์ ์ด๋ค. (unsupervised learning) ์ด๋ ํ ๋ฐ์ดํฐ ํฌ์ธํธ ์งํฉ์ด ์ฃผ์ด์ก์ ๋, clustering ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ํน์ ๊ทธ๋ฃน์ผ๋ก ๋ถ๋ฅํ ์ ์๋ค. ๋ถ๋ฅํ ๋์ ๊ธฐ์ค โ high intra-class: ํ๋์ ๊ทธ๋ฃน์๋ ์ต๋ํ ๋น์ทํ ๊ฒ๋ผ๋ฆฌ โก low intra-class: ์๋ก ๋ค๋ฅธ ๊ทธ๋ฃน๋ค์ ์ต๋ํ ๋ค๋ฅธ ๊ฒ๋ผ๋ฆฌ ๊ฐ ๊ตฐ์ง์ ํ ๋น๋ ๋ฐ์ดํฐ ํฌ์ธํธ๋ค์ ํ๊ท ์ ์ด์ฉํ์ฌ, ์ค์ฌ์ ์ ๋ฐ๋ณต์ ์ผ๋ก ์ ๋ฐ์ดํธํ๋ฉฐ ๊ตฐ์ง์ ํ์ฑํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ์ฅ์ โ ์ค์ ๋ก ์ํํ๋ ์์ ์ด "ํฌ์ธํธ์ ๊ทธ๋ฃน ์ค์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ ๊ณ์ฐ"์ด๋ฏ๋ก ๋งค์ฐ ๋น ๋ฅด๋ค. โก ๋ณต์ก๋๊ฐ O(n) ์ด๋ค. ๋จ์ โ ๋ชจ๋ value ๊ฐ numeric ์ด์ด์ผ ..
Frequent Item Set ์ด๋? ๋ฐ์ดํฐ๋ฅผ ๊ด์ธกํ ๋, ๋ฐ๋ณต์ ์ผ๋ก ๋ฐ๊ฒฌ๋๋ ํจํด์ ์๋ฏธํ๋ค. ๋ฐ๋ณต์ ์ผ๋ก ๋ฐ๊ฒฌ๋์ด์ผ ๋ฏธ๋์ ๋ํ ์์ธก์ด ํจ๊ณผ์ ์ด๋ฏ๋ก ์ ์๋ฏธํ๋ค. ์ ์ฒด ๋ฒ์ด์ง ๊ฒฝ์ฐ ์ค์ ๋ช ๋ฒ ๊ทธ ์ฌ๊ฑด์ด ๋ฒ์ด์ก๋์ง์ ๋ํ ๋น์จ์ด "์ผ์ ๊ธฐ์ค ์ด์"์ด๋ฉด frequent ํ๋ค๊ณ ๋ณธ๋ค. โ absolute support: ๊ทธ๋ฅ ๊ฐ์๋ฅผ ์ธ๋ ๊ฒ โก relative support: absolute support ๋ฅผ ์ ์ฒด ๊ฒฝ์ฐ๋ก ๋๋ ๊ฒ โจ ํน์ item set ์ด "Minimum Supprot Threshold" ์ด์์ด๋ฉด frequent ํ๋ค๊ณ ๋ณธ๋ค. Association Rule ์ด๋? ์ด๋ค ์ฌ๊ฑด์ด ์ผ๋ง๋ ์์ฃผ ํจ๊ป ๋ฐ์ํ๋์ง, ์๋ก ์ผ๋ง๋ ์ฐ๊ด๋์ด ์๋์ง ํ์ํ๋ ๊ท์น์ด๋ค. Frequent Item Set ..