Clustering
Clustering ์ด๋?
"๋ฐ์ดํฐ ํฌ์ธํธ"์ ๊ทธ๋ฃนํ์ ๊ด๋ จ๋ ๋จธ์ ๋ฌ๋ ๊ธฐ์ ์ด๋ค. (unsupervised learning)
์ด๋ ํ ๋ฐ์ดํฐ ํฌ์ธํธ ์งํฉ์ด ์ฃผ์ด์ก์ ๋, clustering ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ํน์ ๊ทธ๋ฃน์ผ๋ก ๋ถ๋ฅํ ์ ์๋ค.
๋ถ๋ฅํ ๋์ ๊ธฐ์ค
โ high intra-class: ํ๋์ ๊ทธ๋ฃน์๋ ์ต๋ํ ๋น์ทํ ๊ฒ๋ผ๋ฆฌ
โก low intra-class: ์๋ก ๋ค๋ฅธ ๊ทธ๋ฃน๋ค์ ์ต๋ํ ๋ค๋ฅธ ๊ฒ๋ผ๋ฆฌ
<K-Means Clustering ๊ธฐ๋ฒ>
๊ฐ ๊ตฐ์ง์ ํ ๋น๋ ๋ฐ์ดํฐ ํฌ์ธํธ๋ค์ ํ๊ท ์ ์ด์ฉํ์ฌ, ์ค์ฌ์ ์ ๋ฐ๋ณต์ ์ผ๋ก ์ ๋ฐ์ดํธํ๋ฉฐ ๊ตฐ์ง์ ํ์ฑํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
์ฅ์
โ ์ค์ ๋ก ์ํํ๋ ์์ ์ด "ํฌ์ธํธ์ ๊ทธ๋ฃน ์ค์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ ๊ณ์ฐ"์ด๋ฏ๋ก ๋งค์ฐ ๋น ๋ฅด๋ค.
โก ๋ณต์ก๋๊ฐ O(n) ์ด๋ค.
๋จ์
โ ๋ชจ๋ value ๊ฐ numeric ์ด์ด์ผ ํ๋ค.
โก ๊ตฐ์ง์ ๊ฐ์๊ฐ ์ฌ์ ์ ์ ์๋์ด์ผ ํ๋ค.
โข ํ๊ท ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ outlier ๊ฐ ๋ฐ์ํ๋ค.
์๊ณ ๋ฆฌ์ฆ
โ ๋ชจ๋ object ๋ฅผ random ํ๊ฒ 'k ๊ฐ'๋ก ๊ทธ๋ฃนํํ๋ค. (k ๋ user given ์ผ๋ก, ์ฌ์ ์ ์ ์๋์ด์ผ ํ๋ค.)
โก ํ๊ท ์ ๊ตฌํ๋ค.
โข ํ๊ท ์ ๊ธฐ์ค์ผ๋ก ๋ ๊ฐ๊น์ด ๊ฒ๋ผ๋ฆฌ ๋ค์ ๊ตฐ์ง์ ์์ฑํ๋ค.
โฃ ๋ค์ ๋ง๋ค์ด์ง ๊ทธ๋ฃน์์ ํ๊ท ์ ๊ตฌํ๋ค.
โค ํ๊ท ์ ๊ธฐ์ค์ผ๋ก ๋ ๊ฐ๊น์ด ๊ฒ๋ผ๋ฆฌ ๋ค์ ๊ตฐ์ง์ ์์ฑํ๋ค.
โฅ ํ๊ท ์ ๋ณ๋์ด ์์ ๋๊น์ง ๋ฐ๋ณตํ๋ค.
→ ์ด ๋, ํ๊ท ์ด ์กฐ๊ธ์ฉ์ด๋ผ๋ ๊ณ์ํด์ ๋ฐ๋ ์ ์์ผ๋ฏ๋ก โ ํ์ ์ ํ โก ํ๊ท ์ ๋ณํ๋ ์ ํ ๋ฑ์ ์ค์ ์ ํตํด ์กฐ์ ํ๋ค.
์์ : ๋ณธ์ธ์ด ์ด๊ณ ์๋ ์ง์ญ์ ์๋/๊ฒฝ๋๋ฅผ ํตํด ๊ฐ๊น์ด ์ฌ๋๋ค๋ผ๋ฆฌ ๋ชจ์ฌ๋ณด์.
1. random ํ๊ฒ ์ฌ๋๋ค์ k ๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๋๋๋ค.
2. ํ๊ท ์ ๊ตฌํ๋ค. → A ๊ทธ๋ฃน: ๋์ , B ๊ทธ๋ฃน: ์ฒญ์ฃผ
3. ๋์ ๊ณผ ๋ ๊ฐ๊น์ด ์ฌ๋, ์ฒญ์ฃผ์ ๋ ๊ฐ๊น์ด ์ฌ๋ ๊ทธ๋ฃน์ผ๋ก ๋๋๋ค.
4. ํ๊ท ์ ๋ค์ ๊ตฌํ๋ค. → A ๊ทธ๋ฃน: ํํ, B ๊ทธ๋ฃน: ์์ฃผ
5. ํํ๊ณผ ๋ ๊ฐ๊น์ด ์ฌ๋, ์์ฃผ์ ๋ ๊ฐ๊น์ด ์ฌ๋ ๊ทธ๋ฃน์ผ๋ก ๋๋๋ค.
6. ์ด ๊ณผ์ ์ ํ๊ท ์ ๋ณ๋์ด ์์ ๋๊น์ง ๋ฐ๋ณตํ๋ค.
<K-Medoid Clustering ๊ธฐ๋ฒ>
K-Means ์ ๊ฐ์ง๋ง, ํ๊ท ๋์ Medoid (์ค๊ฐ๊ฐ)๋ฅผ ์ฌ์ฉํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
์ฅ์
โ numeric ์ด ์๋์ด๋ ์ฌ์ฉํ ์ ์๋ค.
โก outlier ๋ฅผ ๊ณ ๋ คํ์ง ์์๋ ๋๋ค.
โข ์ค์กดํ๋ ๊ฐ์ด๋ค.
๋จ์
โ ์ ํ ๋ณต์ก๋๊ฐ O(n^2) ์ด๋ค.
์๊ณ ๋ฆฌ์ฆ
K-Means ์ ๋์ผํ๋ค.
Medoid ๋ ๋ชจ๋ ๋ฐ์ดํฐ ํฌ์ธํธ๋ง๋ค ๋ค๋ฅธ ๋ฐ์ดํฐ ํฌ์ธํธ๋ค๊ณผ์ distance ๋ฅผ ๊ณ์ฐํ๊ณ , ๊ทธ ์ค ๊ฐ์ฅ ์์ ๊ฐ์ด๋ค.
<Hierarchical Clustering ๊ธฐ๋ฒ>
๋น์ทํ ๊ตฐ์ง๋ผ๋ฆฌ ๋ฌถ์ด๊ฐ๋ฉด์ ์ต์ข ์ ์ผ๋ก ํ๋์ ์ผ์ด์ค๊ฐ ๋ ๋๊น์ง ๊ตฐ์ง์ ๋ฌถ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
n ๊ฐ์ผ ๋, ๊ฐ๊ฐ์ single group ์ผ๋ก ๋ณผ ์ ์๊ณ , ๊ฒฐ๊ตญ hierarchical clustering ์ n ๊ฐ์์ 1๊ฐ ์ฌ์ด์ ๊ด๊ณ์ด๋ค. (์์ชฝ ๊ทน๋จ)
์ฅ์
โ ์ ์ฌํ ๊ฐ์ฒด๋ค์ด ๊ฒฐํฉ๋๋ "dendogram" ์ ํตํด ์๊ฐํํ ์ ์๋ค.
โก ๊ณ์ธต์ ๊ตฌ์กฐ๋ก ์ธํด ์ฌ์ ์ ๊ตฐ์ง์ ๊ฐ์๋ฅผ ์ ์ํ์ง ์์๋ ๋๋ค.
๋ ๊ฐ์ง ๊ธฐ๋ฒ
โ buttom up(=agglomerative): n ๊ฐ์์ ์ถ๋ฐํ์ฌ 1๊ฐ๋ก ๋ฌถ์ด์ง๋ค.
โก top down(=divisive): 1๊ฐ์ ๋ฐ์ดํฐ๋ฅผ n ๊ฐ๋ก ์ชผ๊ฐ ๋ค.
โจ ๋ณดํต buttom up ๋ฐฉ์์ ๋ง์ด ์ฌ์ฉํ๋ค.
๊ตฐ์ง ๊ตฌ์ฑ ์ ๊ธฐ์ค
โ single
๊ตฐ์ง1์ ๋ชจ๋ ๋ฐ์ดํฐ์ ๊ตฐ์ง2์ ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ชจ๋ ์กฐํฉ์ ๋ํด ๋ฐ์ดํฐ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ๊ณ , ๊ฐ์ฅ ์์ ๊ฐ์ ๊ตฌํ๋ค.
a&b ์ c&d ์์ {a, c} {a, d} {b, c} {b, d} ๋ค ๊ฐ์ง ๋ฅผ ๋ฐ์ ธ๋ณด์์ ๋ ๊ฐ์ฅ ๊ฐ๊น์ด distance ๋ฅผ ๊ธฐ์ค์ผ๋ก ํ๋ค.
โก complete
๊ตฐ์ง1์ ๋ชจ๋ ๋ฐ์ดํฐ์ ๊ตฐ์ง2์ ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ชจ๋ ์กฐํฉ์ ๋ํด ๋ฐ์ดํฐ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ๊ณ , ๊ฐ์ฅ ํฐ ๊ฐ์ ๊ตฌํ๋ค.
a&b ์ c&d ์์ {a, c} {a, d} {b, c} {b, d} ๋ค ๊ฐ์ง ๋ฅผ ๋ฐ์ ธ๋ณด์์ ๋ ๊ฐ์ฅ ๋จผ distance ๋ฅผ ๊ธฐ์ค์ผ๋ก ํ๋ค.
โข average
๊ตฐ์ง1์ ๋ชจ๋ ๋ฐ์ดํฐ์ ๊ตฐ์ง2์ ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ชจ๋ ์กฐํฉ์ ๋ํด ๋ฐ์ดํฐ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ๊ณ , ํ๊ท ์ ๊ตฌํ๋ค.
{a, c} {a, d} {b, c} {b, d} ์์ ํ๊ท ์ ๊ธฐ์ค์ผ๋ก ํ๋ค.
โฃ centroid
๋ ๊ตฐ์ง์ ๊ฐ ์ค์ฌ์ (centroid)์ ์ ์ํ ๋ค์, ๋ ์ค์ฌ์ ์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ตฐ์ง ๊ฐ์ ๊ฑฐ๋ฆฌ๋ก ์ ์ํ๋ค.
a&b ์์์ centroid, c&d ์์์ centroid ๋ฅผ ๊ตฌํ๊ณ ๊ทธ ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ์ค์ผ๋ก ํ๋ค.
์์ : 30๋ช ์ ํ์๋ค์ ์น๊ตฌ ๊ด๊ณ๋ฅผ buttom up ์ผ๋ก ๋ง๋ค์ด๋ณด์. "์นํ๋ค"์ ๊ธฐ์ค์ ์ง๋ ์ฐํด ๋ ์ ํํตํ๋ฅผ ๊ฐ์ฅ ๋ง์ด ํ ์ฌ๋์ด๋ค.
1. ๋ ์์ ๋ง์ด ์น๊ตฌ์ด๋ค. → 30๊ฐ์ ๊ทธ๋ฃน
2. ์ ํํตํ ์๊ฐ์ด ๊ฐ์ฅ ๊ธด pair ๋ฅผ ๊ณ ๋ฅธ๋ค. → 29๊ฐ์ ๊ทธ๋ฃน
3. pair ๊ฐ ๋ ๋ ์ฌ๋์ ๋ํํ๋ ๋ ํ ๊ฐ์ง์ ๊ธฐ์ค์ผ๋ก๋ถํฐ(ex. ๋ ์ฌ๋ ์ค ๋ค๋ฅธ ์ฌ๋๊ณผ ํตํ ์๊ฐ์ด ๋ ๊ธด ๊ฒ์ ๊ธฐ์ค์ผ๋ก ํ์.) 29๊ฐ์ ๊ทธ๋ฃน์ ๊ฒ์ฌํ๋ค. (์ด ๋ ๊ธฐ์ค์ user given) → 28๊ฐ์ ๊ทธ๋ฃน
4. ๋ฐ๋ณตํ๋ค. → 1๊ฐ์ ๊ทธ๋ฃน
<Density Based Scan ๊ธฐ๋ฒ>
๋ฐ๋ ๊ธฐ๋ฐ์ data point ๋ค์ด ๋ฐ์ง๋ ๊ณณ์ ํ๋์ ๊ตฐ์ง์ผ๋ก ๋ณด๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
์ฅ์
โ outlier (๋ ธ์ด์ฆ)๋ฅผ ์ ์ธํ ์ ์๋ค.
โก ๊ตฐ์ง์ ์๋ฅผ ์ง์ ํด์ฃผ์ง ์์๋ ๋๋ค.
โข convex ํํ๊ฐ ์๋ ๋ฐ์ดํฐ ์ ์ ์ ์ฉํ ์ ์๋ค.
์ฃผ์ parameter
โ ε (์ ์ค๋ก ): ํ๋์ data point ๋ฅผ ์ค์ฌ์ผ๋ก ํ๋ ๋ฐ๊ฒฝ
โก Minimum Points: ๊ตฐ์ง์ ์ด๋ฃจ๊ธฐ ์ํ ์ต์ํ์ data point ์ ๊ฐ์
โจ Density ๋ ํ๋์ ์ ์ผ๋ก๋ถํฐ "๋ฐ๊ฒฝ ε ๋ด์" "์ ์ด ๋ช ๊ฐ๋ ์๋์ง"๋ก ์ธก์ ํ๋ค.
๋ถ๋ฅ point
โ core point: ํ ์ ์ ε ๋ด์ min point ๋ณด๋ค ๋ง์ ๊ฐ์ฒด๊ฐ ํฌํจ๋ ์
โก border point: ํ ์ ์ ε ๋ด์ min point ๋ณด๋ค ์ ์ ๊ฐ์ฒด๊ฐ ํฌํจํ์ง๋ง, ์ ์ด๋ ํ๋์ core point ์๋ ์ํ ์
โข noise point(outlier): ํ ์ ์ ε ๋ด์ min point ๋ณด๋ค ์ ์ ๊ฐ์ฒด๊ฐ ํฌํจํ๋ ์
์๊ณ ๋ฆฌ์ฆ
โ Directly Density Reachable
p ๊ฐ q ์ ε ๋ด์ ๋ค์ด์ค๊ณ , q ๋ core point ์ด๋ค. → p ๋ q ๋ก๋ถํฐ Directly Density Reachable ํ๋ค.
โก Density Reachable
p ๊ฐ p2์ ε ๋ด์ ๋ค์ด์ค๊ณ , q ๊ฐ p2 ์ ε ๋ด์ ๋ค์ด์จ๋ค. → p ๋ q ๋ก๋ถํฐ Density Reachable ํ๋ค.
โข Density Connected
p ๋ o ๋ก๋ถํฐ Density Reachable ํ๊ณ , q ์ญ์ o ๋ก๋ถํฐ Density Reachable ํ๋ค. → p ๋ q ๋ก๋ถํฐ Density Connected ํ๋ค.
'๐ Data Analysis > ๐ ์ด๋ก ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Association Rule (0) | 2022.09.30 |
---|---|
1. ๋์ ๋ฐ์ดํฐ ์๊ธฐ (0) | 2022.09.19 |