๐ Data Analysis
Clustering ์ด๋? "๋ฐ์ดํฐ ํฌ์ธํธ"์ ๊ทธ๋ฃนํ์ ๊ด๋ จ๋ ๋จธ์ ๋ฌ๋ ๊ธฐ์ ์ด๋ค. (unsupervised learning) ์ด๋ ํ ๋ฐ์ดํฐ ํฌ์ธํธ ์งํฉ์ด ์ฃผ์ด์ก์ ๋, clustering ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ํน์ ๊ทธ๋ฃน์ผ๋ก ๋ถ๋ฅํ ์ ์๋ค. ๋ถ๋ฅํ ๋์ ๊ธฐ์ค โ high intra-class: ํ๋์ ๊ทธ๋ฃน์๋ ์ต๋ํ ๋น์ทํ ๊ฒ๋ผ๋ฆฌ โก low intra-class: ์๋ก ๋ค๋ฅธ ๊ทธ๋ฃน๋ค์ ์ต๋ํ ๋ค๋ฅธ ๊ฒ๋ผ๋ฆฌ ๊ฐ ๊ตฐ์ง์ ํ ๋น๋ ๋ฐ์ดํฐ ํฌ์ธํธ๋ค์ ํ๊ท ์ ์ด์ฉํ์ฌ, ์ค์ฌ์ ์ ๋ฐ๋ณต์ ์ผ๋ก ์ ๋ฐ์ดํธํ๋ฉฐ ๊ตฐ์ง์ ํ์ฑํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ์ฅ์ โ ์ค์ ๋ก ์ํํ๋ ์์ ์ด "ํฌ์ธํธ์ ๊ทธ๋ฃน ์ค์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ ๊ณ์ฐ"์ด๋ฏ๋ก ๋งค์ฐ ๋น ๋ฅด๋ค. โก ๋ณต์ก๋๊ฐ O(n) ์ด๋ค. ๋จ์ โ ๋ชจ๋ value ๊ฐ numeric ์ด์ด์ผ ..
Frequent Item Set ์ด๋? ๋ฐ์ดํฐ๋ฅผ ๊ด์ธกํ ๋, ๋ฐ๋ณต์ ์ผ๋ก ๋ฐ๊ฒฌ๋๋ ํจํด์ ์๋ฏธํ๋ค. ๋ฐ๋ณต์ ์ผ๋ก ๋ฐ๊ฒฌ๋์ด์ผ ๋ฏธ๋์ ๋ํ ์์ธก์ด ํจ๊ณผ์ ์ด๋ฏ๋ก ์ ์๋ฏธํ๋ค. ์ ์ฒด ๋ฒ์ด์ง ๊ฒฝ์ฐ ์ค์ ๋ช ๋ฒ ๊ทธ ์ฌ๊ฑด์ด ๋ฒ์ด์ก๋์ง์ ๋ํ ๋น์จ์ด "์ผ์ ๊ธฐ์ค ์ด์"์ด๋ฉด frequent ํ๋ค๊ณ ๋ณธ๋ค. โ absolute support: ๊ทธ๋ฅ ๊ฐ์๋ฅผ ์ธ๋ ๊ฒ โก relative support: absolute support ๋ฅผ ์ ์ฒด ๊ฒฝ์ฐ๋ก ๋๋ ๊ฒ โจ ํน์ item set ์ด "Minimum Supprot Threshold" ์ด์์ด๋ฉด frequent ํ๋ค๊ณ ๋ณธ๋ค. Association Rule ์ด๋? ์ด๋ค ์ฌ๊ฑด์ด ์ผ๋ง๋ ์์ฃผ ํจ๊ป ๋ฐ์ํ๋์ง, ์๋ก ์ผ๋ง๋ ์ฐ๊ด๋์ด ์๋์ง ํ์ํ๋ ๊ท์น์ด๋ค. Frequent Item Set ..
๐https://github.com/memoming/memomingChannel GitHub - memoming/memomingChannel: [Youtube] ๋ฉ๋ชจ๋ฐ ์ฑ๋ Official Github [Youtube] ๋ฉ๋ชจ๋ฐ ์ฑ๋ Official Github. Contribute to memoming/memomingChannel development by creating an account on GitHub. github.com โ ๏ธ ๊ฐ์ค: ๋์ด ๋ง์ด ์ฌ๋์ผ์๋ก(์๊ธ์ ๋ง์ด ๋ผ์๋ก) ์์กดํ๋ฅ ์ด ๋์ ๊ฒ์ด๋ค. 1. train.csv ์ฝ์ด์ค๊ธฐ import numpy as np import pandas as pd titanic_csv_filePath="train.csv ํ์ผ ๊ฒฝ๋ก" titanic_df=pd...