Association Rule
Frequent Item Set ์ด๋?
๋ฐ์ดํฐ๋ฅผ ๊ด์ธกํ ๋, ๋ฐ๋ณต์ ์ผ๋ก ๋ฐ๊ฒฌ๋๋ ํจํด์ ์๋ฏธํ๋ค. ๋ฐ๋ณต์ ์ผ๋ก ๋ฐ๊ฒฌ๋์ด์ผ ๋ฏธ๋์ ๋ํ ์์ธก์ด ํจ๊ณผ์ ์ด๋ฏ๋ก ์ ์๋ฏธํ๋ค.
์ ์ฒด ๋ฒ์ด์ง ๊ฒฝ์ฐ ์ค์ ๋ช ๋ฒ ๊ทธ ์ฌ๊ฑด์ด ๋ฒ์ด์ก๋์ง์ ๋ํ ๋น์จ์ด "์ผ์ ๊ธฐ์ค ์ด์"์ด๋ฉด frequent ํ๋ค๊ณ ๋ณธ๋ค.
โ absolute support: ๊ทธ๋ฅ ๊ฐ์๋ฅผ ์ธ๋ ๊ฒ
โก relative support: absolute support ๋ฅผ ์ ์ฒด ๊ฒฝ์ฐ๋ก ๋๋ ๊ฒ
โจ ํน์ item set ์ด "Minimum Supprot Threshold" ์ด์์ด๋ฉด frequent ํ๋ค๊ณ ๋ณธ๋ค.
Association Rule ์ด๋?
์ด๋ค ์ฌ๊ฑด์ด ์ผ๋ง๋ ์์ฃผ ํจ๊ป ๋ฐ์ํ๋์ง, ์๋ก ์ผ๋ง๋ ์ฐ๊ด๋์ด ์๋์ง ํ์ํ๋ ๊ท์น์ด๋ค.
Frequent Item Set ์ ํ ์ฐจ๋ก ๋ ๊ฐ๊ณตํ ๊ฒ์ด Association Rule ์ด๋ค.
์ธก์ Parameter
โ support: ์ ์ฒด ๊ฒฝ์ฐ์ ์์์ ๋ item ์ด ๊ฐ์ด ๋์ค๋ ๋น์จ
โก confidence: x ๊ฐ ๋์ค๋ ๊ฒฝ์ฐ์ ์์์ x ์ y ๊ฐ ํจ๊ป ๋์ค๋ ๋น์จ (์กฐ๊ฑด๋ถ ํ๋ฅ ์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค.)
์ ์๋ฏธํ Association Rule ์ด ๋๊ธฐ ์ํ ์กฐ๊ฑด
โ Supprot๊ฐ Supprot Minimum Threshold ์ด์์ด์ด์ผ ํ๋ค. (์ฆ, frequent item set ์ด์ด์ผ ํ๋ค.)
โก Confidence ๊ฐ Confidence Minimum Threshold ์ด์์ด์ด์ผ ํ๋ค.
Association Rule ์ ์ฐพ๋ ๋ํ์ ์ธ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ
โ Apriori Algorithm
โก FP-Growth Algorithm
<Apriori Algorithm>
์ด๋ ํ ๋ item ์ ์งํฉ์ด frequent ํ๊ฒ ๋ฐ์ํ๋์ง๋ฅผ ์๋ ค์ฃผ๋ ๊ท์น์ ์์ฑํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
Lattice ๊ตฌ์กฐ → ์ด๋ ํ item set ์ด frequent ํ์ง ์๋ค๋ฉด ๊ทธ๊ฒ์ ๋ชจ๋ superset ์ ์ ๋๋ก frequent ํ ์ ์๋ค.
์๊ณ ๋ฆฌ์ฆ
โ ๊ฐ๊ฐ์ item ์์ Length=1 ์ธ ๊ฒ์ support ๋ฅผ ๊ฒ์ฌํ๋ค. (minimum supprot threshold ๋ณด๋ค ์์ ๊ฒ์ ์ ๊ฑฐํ๋ค.)
โก Length=2 ์ธ ์กฐํฉ์ ๊ตฌ์ฑํ๊ณ support ๋ฅผ ๊ฒ์ฌํ๋ค.
โข ๊ธฐ์ค์ ์ ํ๊ณ (ex. ์๋ง ๋ณด๊ณ ๊ฒฐ์ ํ๊ฒ ๋ค.), ์ด์ ๋ฐ๋ผ Length=3 ์ธ ์กฐํฉ์ ๊ตฌ์ฑํ๋ค.
โฃ ๋ง๋ค์ด์ง Length=3 ์ธ ์กฐํฉ์์, ๊ธฐ์ค์์ ๋ฒ์ด๋ ๊ฒ์ supprot ๋ฅผ ๊ฒ์ฌํ๋ค.
โค ์กฐํฉ์ด ๋ ์ด์ ๋ํ๋์ง ์์ ๋๊น์ง ๋ฐ๋ณตํ๋ค.
๋จ์
โ ๋๋น ์ ์ ํ์์ด๋ฏ๋ก depth ๊ฐ ๊ธธ์ด์ง๋ฉด candidate ๊ฐ ๋ง์์ง๋ฉด ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ด๊ณผ๋ ์ ์๋ค.
<FP-Growth Algorithm>
Apriori Algorithm ์ ๊ฐ์ ํ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
์๊ณ ๋ฆฌ์ฆ
โ Length=1 ์ ๋ชจ๋ supprot ๋ฅผ ๊ฒ์ฌํ๋ค.
โก Support ๊ฐ Minimum Supprot ์ด์์ธ ๊ฒ๋ค๋ง ๊ณจ๋ผ๋ธ ํ, ๋ด๋ฆผ์ฐจ์์ผ๋ก ์ฌ์ ๋ ฌํ๋ค.
โข Root ๋ฅผ ์์์ผ๋ก, FP Tree ๋ฅผ ๋ง๋ ๋ค. (์์ supprot ์ link ๋ฅผ ํจ๊ป ์์ฑํ๋ค.)
โฃ ๊ฐ๊ฐ์ Conditional Tree ๋ฅผ ๋ง๋ ๋ค.
โค ์กฐํฉ์ด ๋ ์ด์ ๋์ค์ง ์์ ๋๊น์ง Conditional Tree ๋ฅผ ๋ฐ๋ณตํ์ฌ ๋ง๋ ๋ค.
์ฅ์
โ Basket Data ์์ ํ์ํ ๊ฒ๋ค๋ง ์์ถํด์ ํํํ ์๋ฃ๊ตฌ์กฐ์ด๋ค.
โก Candidate ๋ฅผ ๋ง๋ค์ง ์๊ณ , FP Tree ๋ง ๋ง๋ค๋ฉด ๋๋ฏ๋ก ๋น ๋ฅด๋ค.
โข ๊น์ด ์ ์ ํ์์ด๋ฏ๋ก ๋ฉ๋ชจ๋ฆฌ์ ๋ํ ๋ถ๋ด์ด ์ ๋ค.
'๐ Data Analysis > ๐ ์ด๋ก ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Clustering (0) | 2022.10.20 |
---|---|
1. ๋์ ๋ฐ์ดํฐ ์๊ธฐ (0) | 2022.09.19 |