KDD vs Data Mining
KDD (Verilənlər Bazalarında Bilik Kəşfi) rəqəmsallaşdırılmış məlumatların böyük kolleksiyalarından faydalı və əvvəllər məlum olmayan məlumatları (yəni bilik) çıxarmaqda insanlara kömək etmək üçün alətlər və nəzəriyyələri özündə cəmləşdirən kompüter elmi sahəsidir. KDD bir neçə addımdan ibarətdir və Data Mining onlardan biridir. Data Mining verilənlərdən nümunələr çıxarmaq üçün xüsusi bir alqoritmin tətbiqidir. Buna baxmayaraq, KDD və Data Mining bir-birini əvəz edir.
KDD nədir?
Yuxarıda qeyd edildiyi kimi, KDD əvvəllər naməlum və maraqlı məlumatların xam verilənlərdən çıxarılması ilə məşğul olan kompüter elmləri sahəsidir. KDD, müvafiq metodlar və ya texnikalar inkişaf etdirərək məlumatların mənasını verməyə çalışmağın bütün prosesidir. Bu proses aşağı səviyyəli məlumatların daha yığcam, mücərrəd və faydalı olan digər formalara salınması ilə məşğul olur. Bu, qısa hesabatların yaradılması, məlumatların yaradılması prosesinin modelləşdirilməsi və gələcək halları proqnozlaşdıra bilən proqnozlaşdırıcı modellərin hazırlanması ilə əldə edilir. Xüsusilə biznes kimi sahələrdə məlumatların eksponensial artması səbəbindən KDD bu böyük məlumat sərvətini biznes kəşfiyyatına çevirmək üçün çox vacib bir prosesə çevrildi, çünki nümunələrin əl ilə çıxarılması son bir neçə onillikdə qeyri-mümkün görünürdü. Məsələn, hal-hazırda sosial şəbəkələrin təhlili, saxtakarlığın aşkarlanması, elm, investisiya, istehsal, telekommunikasiya, məlumatların təmizlənməsi, idman, məlumat axtarışı və əsasən marketinq kimi müxtəlif proqramlar üçün istifadə olunur. KDD adətən Wal-Mart-da gələn il yüksək gəlir əldə etməyə kömək edə biləcək əsas məhsullar hansılardır? kimi suallara cavab vermək üçün istifadə olunur. Bu proses bir neçə mərhələdən ibarətdir. Tətbiq sahəsi və məqsədi haqqında anlayışın inkişaf etdirilməsi və sonra hədəf verilənlər toplusunun yaradılması ilə başlayır. Bunun ardınca məlumatların təmizlənməsi, əvvəlcədən işlənməsi, azaldılması və proyeksiyası aparılır. Növbəti addım nümunəni müəyyən etmək üçün Data Mining istifadə edir (aşağıda izah olunur). Nəhayət, kəşf edilmiş bilik vizuallaşdırma və/və ya şərh etməklə birləşir.
Data Mining nədir?
Yuxarıda qeyd edildiyi kimi, Data Mining ümumi KDD prosesində yalnız bir addımdır. Tətbiqin məqsədi ilə müəyyən edilmiş iki əsas Data Mining məqsədi var və bunlar doğrulama və ya kəşfdir. Doğrulama istifadəçinin məlumatlar haqqında fərziyyəsini təsdiq edir, kəşf isə avtomatik olaraq maraqlı nümunələri tapır. Verilənlərin öyrənilməsinin dörd əsas vəzifəsi var: klasterləşdirmə, təsnifat, reqressiya və assosiasiya (ümumiləşdirmə). Klasterləşmə strukturlaşdırılmamış məlumatlardan oxşar qrupların müəyyən edilməsidir. Təsnifat yeni verilənlərə tətbiq oluna bilən öyrənmə qaydalarıdır. Reqressiya verilənlərin modelləşdirilməsində minimal xəta ilə funksiyaların tapılmasıdır. Və assosiasiya dəyişənlər arasında əlaqələr axtarır. Daha sonra, xüsusi məlumat alqoritmi seçilməlidir. Məqsəddən asılı olaraq xətti reqressiya, logistik reqressiya, qərar ağacları və Naive Bayes kimi müxtəlif alqoritmlər seçilə bilər. Sonra bir və ya bir neçə təmsil formasında maraq nümunələri axtarılır. Nəhayət, modellər proqnozlaşdırılan dəqiqlik və ya başa düşülənlik əsasında qiymətləndirilir.
KDD ilə Data Mining arasındakı fərq nədir?
KDD və Data Mining iki termini bir-birinin əvəzində çox istifadə olunsa da, onlar bir-biri ilə əlaqəli, lakin bir qədər fərqli anlayışlara istinad edirlər. KDD məlumatlardan bilik əldə etməyin ümumi prosesidir, Data Mining isə məlumatlarda nümunələrin müəyyən edilməsi ilə məşğul olan KDD prosesinin içərisində bir addımdır. Başqa sözlə, Data Mining yalnız KDD prosesinin ümumi məqsədinə əsaslanan xüsusi bir alqoritmin tətbiqidir.