İyerarxik və Parçalı Klasterləşdirmə Arasındakı Fərq

İyerarxik və Parçalı Klasterləşdirmə Arasındakı Fərq
İyerarxik və Parçalı Klasterləşdirmə Arasındakı Fərq

Video: İyerarxik və Parçalı Klasterləşdirmə Arasındakı Fərq

Video: İyerarxik və Parçalı Klasterləşdirmə Arasındakı Fərq
Video: FƏSİL 10. VERİLƏNLƏR BAZASI. MICROSOFT ACCESS 2019 VERİLƏNLƏR BAZASININ İDARƏETMƏ SİSTEMİ 2024, Noyabr
Anonim

İyerarxik vs Parçalı Klasterləşdirmə

Klasterləşdirmə verilənləri təhlil etmək və oxşar məlumat qruplarına bölmək üçün maşın öyrənmə texnikasıdır. Bu qruplar və ya oxşar məlumat dəstləri klasterlər kimi tanınır. Klaster təhlili klasterləri avtomatik müəyyən edə bilən klasterləşdirmə alqoritmlərinə baxır. İerarxik və Partitional qruplaşma alqoritmlərinin iki belə sinfidir. İerarxik klasterləşdirmə alqoritmləri verilənləri klasterlərin iyerarxiyasına bölür. Parçalanma alqoritmləri verilənlər dəstini bir-birindən ayrılan bölmələrə bölür.

İyerarxik Klasterləşmə nədir?

İyerarxik klasterləşdirmə alqoritmləri ya daha kiçik klasterlərin daha böyüklərə birləşdirilməsi, ya da daha böyük klasterlərin daha kiçiklərə bölünməsi dövrünü təkrarlayır. İstənilən halda o, dendoqram adlanan klasterlərin iyerarxiyasını yaradır. Aqlomerativ klasterləşmə strategiyası klasterləri daha böyüklərə birləşdirən aşağıdan yuxarıya, bölücü klasterləşdirmə strategiyası isə yuxarıdan aşağıya, kiçiklərə bölünmə yanaşmasından istifadə edir. Tipik olaraq, hansı böyük/kiçik klasterlərin birləşmə/bölünmə üçün istifadə olunacağına qərar vermək üçün acgöz yanaşma istifadə olunur. Evklid məsafəsi, Manhetten məsafəsi və kosinus oxşarlığı ədədi məlumatlar üçün ən çox istifadə edilən oxşarlıq ölçülərindən bəziləridir. Rəqəmsal olmayan məlumatlar üçün Hamming məsafəsi kimi ölçülərdən istifadə olunur. Qeyd etmək vacibdir ki, iyerarxik klasterləşmə üçün faktiki müşahidələr (nümunələr) lazım deyil, çünki yalnız məsafələrin matrisi kifayətdir. Dendoqram iyerarxiyanı çox aydın şəkildə göstərən klasterlərin vizual təsviridir. İstifadəçi dendoqramın kəsildiyi səviyyədən asılı olaraq müxtəlif qruplaşma əldə edə bilər.

Bölmə Klasterləşdirmə nədir?

Partitional clustering alqoritmləri müxtəlif bölmələr yaradır və sonra onları bəzi meyarlarla qiymətləndirir. Onlar həmçinin qeyri-ierarxik adlanır, çünki hər bir nümunə bir-birini istisna edən k çoxluqdan birinə yerləşdirilir. Klasterlərin yalnız bir dəsti tipik bölməli klasterləşdirmə alqoritminin çıxışı olduğundan, istifadəçidən istədiyiniz klaster sayını (adətən k adlanır) daxil etmək tələb olunur. Ən çox istifadə edilən bölməli klasterləşdirmə alqoritmlərindən biri k-vasitəsilə çoxluq alqoritmidir. İstifadəçidən başlamazdan əvvəl klasterlərin sayını (k) verməsi tələb olunur və alqoritm əvvəlcə k bölmələrinin mərkəzlərini (və ya mərkəzlərini) işə salır. Qısaca desək, k-demək olar ki, qruplaşma alqoritmi daha sonra cari mərkəzlər əsasında üzvləri təyin edir və mövcud üzvlər əsasında mərkəzləri yenidən qiymətləndirir. Bu iki addım müəyyən klasterdaxili oxşarlıq məqsəd funksiyası və çoxluqlararası fərqlilik məqsəd funksiyası optimallaşdırılana qədər təkrarlanır. Buna görə də, mərkəzlərin həssas şəkildə inisializasiyası bölməli klasterləşdirmə alqoritmlərindən keyfiyyətli nəticələr əldə etmək üçün çox vacib amildir.

İyerarxik və Parçalı Klasterləşdirmə arasında fərq nədir?

İyerarxik və Partitional Klasterləşdirmə iş vaxtı, fərziyyələr, daxiletmə parametrləri və nəticədə yaranan klasterlərdə əsas fərqlərə malikdir. Tipik olaraq, bölməli klasterləşmə iyerarxik klasterləşmədən daha sürətlidir. İerarxik klasterləşmə yalnız oxşarlıq ölçüsünü tələb edir, bölməli klasterləşmə isə klasterlərin sayı və ilkin mərkəzlər kimi daha güclü fərziyyələr tələb edir. İerarxik klasterləşmə heç bir giriş parametrləri tələb etmir, hissəvi klasterləşdirmə alqoritmləri isə işə başlamaq üçün klasterlərin sayını tələb edir. İerarxik klasterləşmə çoxluqların daha mənalı və subyektiv bölünməsini qaytarır, lakin bölməli klasterləşmə tam olaraq k çoxluqla nəticələnir. İerarxik klasterləşdirmə alqoritmləri, oxşarlıq ölçüsü müvafiq olaraq müəyyən edilə bildiyi müddətcə kateqoriyalı məlumatlar üçün daha uyğundur.

Tövsiyə: