logo

Hierarchické zhlukovanie v data miningu

Hierarchické klastrovanie sa vzťahuje na postup učenia bez dozoru, ktorý určuje postupné klastre na základe vopred definovaných klastrov. Funguje prostredníctvom zoskupovania údajov do stromu zhlukov. Hierarchické klastrové štatistiky zaobchádzaním s každým dátovým bodom ako s individuálnym klastrom. Koncový bod sa týka inej sady klastrov, kde sa každý klaster líši od druhého klastra a objekty v každom klastri sú navzájom rovnaké.

Existujú dva typy hierarchického zoskupovania

  • Aglomeratívne hierarchické klastrovanie
  • Divisive Clustering

Aglomeratívne hierarchické zhlukovanie

Aglomeratívne klastrovanie je jedným z najbežnejších typov hierarchického klastrovania používaného na zoskupovanie podobných objektov do zhlukov. Aglomeratívne zhlukovanie je tiež známe ako AGNES (Agglomerative Nesting). Pri aglomeratívnom zhlukovaní funguje každý dátový bod ako samostatný klaster a v každom kroku sú dátové objekty zoskupené metódou zdola nahor. Na začiatku je každý dátový objekt vo svojom klastri. Pri každej iterácii sa klastre kombinujú s rôznymi klastrami, kým sa nevytvorí jeden klaster.

Aglomeračný hierarchický zhlukovací algoritmus

  1. Určte podobnosť medzi jednotlivcami a všetkými ostatnými skupinami. (Nájsť maticu blízkosti).
  2. Zvážte každý údajový bod ako samostatný klaster.
  3. Skombinujte podobné zhluky.
  4. Prepočítajte maticu blízkosti pre každý klaster.
  5. Opakujte krok 3 a krok 4, kým nezískate jeden klaster.

Pochopme tento koncept pomocou grafického znázornenia pomocou dendrogramu.

Pomocou uvedenej demonštrácie môžeme pochopiť, ako samotný algoritmus funguje. Tu sa neuskutočnil žiadny výpočet pod predpokladanou blízkosťou medzi klastrami.

príklady nfa

Predpokladajme, že máme šesť rôznych dátových bodov P, Q, R, S, T, V.

Hierarchické zhlukovanie v data miningu

Krok 1:

Zvážte každú abecedu (P, Q, R, S, T, V) ako samostatný zhluk a nájdite vzdialenosť medzi jednotlivými zhlukami od všetkých ostatných zhlukov.

Krok 2:

Teraz zlúčte porovnateľné klastre do jedného klastra. Povedzme, že klaster Q a klaster R sú si navzájom podobné, aby sme ich mohli zlúčiť v druhom kroku. Nakoniec dostaneme zhluky [ (P), (QR), (ST), (V)]

Krok 3:

kat timpf hmotnosť

Tu prepočítame blízkosť podľa algoritmu a spojíme dva najbližšie klastre [(ST), (V)], aby sme vytvorili nové klastre ako [(P), (QR), (STV)]

Krok 4:

Opakujte rovnaký postup. Klastre STV a PQ sú porovnateľné a skombinované do nového zoskupenia. Teraz máme [(P), (QQRSTV)].

Krok 5:

Nakoniec sa zvyšné dva klastre zlúčia do jedného klastra [(PQRSTV)]

Rozdeľujúce hierarchické zhlukovanie

Deliace hierarchické zhlukovanie je presným opakom aglomeratívneho hierarchického zhlukovania. V deliteľnom hierarchickom zhlukovaní sa všetky dátové body považujú za individuálny klaster a v každej iterácii sú dátové body, ktoré nie sú podobné, oddelené od klastra. S oddelenými dátovými bodmi sa zaobchádza ako s individuálnym zhlukom. Nakoniec nám zostáva N zhlukov.

Hierarchické zhlukovanie v data miningu

Výhody hierarchického zhlukovania

  • Jeho implementácia je jednoduchá a v niektorých prípadoch poskytuje najlepší výstup.
  • Je to jednoduché a výsledkom je hierarchia, štruktúra, ktorá obsahuje viac informácií.
  • Nepotrebuje, aby sme vopred špecifikovali počet klastrov.

Nevýhody hierarchického zhlukovania

  • Rozbíja veľké zhluky.
  • Je ťažké zvládnuť rôzne veľké zhluky a konvexné tvary.
  • Je citlivý na hluk a odľahlé hodnoty.
  • Algoritmus nemožno nikdy zmeniť alebo vymazať, keď už bol vykonaný predtým.