KDD έναντι εξόρυξης δεδομένων
Το KDD (Ανακάλυψη γνώσης σε βάσεις δεδομένων) είναι ένας τομέας της επιστήμης των υπολογιστών, ο οποίος περιλαμβάνει τα εργαλεία και τις θεωρίες που βοηθούν τους ανθρώπους να εξάγουν χρήσιμες και προηγουμένως άγνωστες πληροφορίες (δηλαδή γνώση) από μεγάλες συλλογές ψηφιοποιημένων δεδομένων. Το KDD αποτελείται από πολλά βήματα και η Εξόρυξη Δεδομένων είναι ένα από αυτά. Η εξόρυξη δεδομένων είναι η εφαρμογή ενός συγκεκριμένου αλγορίθμου για την εξαγωγή μοτίβων από δεδομένα. Ωστόσο, το KDD και το Data Mining χρησιμοποιούνται εναλλακτικά.
Τι είναι το KDD;
Όπως προαναφέρθηκε, το KDD είναι ένα πεδίο της επιστήμης των υπολογιστών, το οποίο ασχολείται με την εξαγωγή άγνωστων και ενδιαφέρουσες πληροφορίες από ακατέργαστα δεδομένα. Το KDD είναι η όλη διαδικασία της προσπάθειας να αποκτήσουν νόημα τα δεδομένα αναπτύσσοντας κατάλληλες μεθόδους ή τεχνικές. Αυτή η διαδικασία ασχολείται με τη χαρτογράφηση δεδομένων χαμηλού επιπέδου σε άλλες μορφές που είναι πιο συμπαγείς, αφηρημένες και χρήσιμες. Αυτό επιτυγχάνεται με τη δημιουργία σύντομων αναφορών, τη μοντελοποίηση της διαδικασίας παραγωγής δεδομένων και την ανάπτυξη προγνωστικών μοντέλων που μπορούν να προβλέψουν μελλοντικές περιπτώσεις. Λόγω της εκθετικής αύξησης των δεδομένων, ειδικά σε τομείς όπως οι επιχειρήσεις, το KDD έχει γίνει μια πολύ σημαντική διαδικασία για τη μετατροπή αυτού του μεγάλου πλούτου δεδομένων σε επιχειρηματική ευφυΐα, καθώς η χειροκίνητη εξαγωγή προτύπων έχει γίνει φαινομενικά αδύνατη τις τελευταίες δεκαετίες. Για παράδειγμα, χρησιμοποιείται επί του παρόντος για διάφορες εφαρμογές όπως η ανάλυση κοινωνικών δικτύων, η ανίχνευση απάτης, η επιστήμη, οι επενδύσεις, η κατασκευή, οι τηλεπικοινωνίες, ο καθαρισμός δεδομένων, ο αθλητισμός, η ανάκτηση πληροφοριών και κυρίως για το μάρκετινγκ. Το KDD χρησιμοποιείται συνήθως για να απαντήσει σε ερωτήσεις όπως ποια είναι τα κύρια προϊόντα που θα μπορούσαν να βοηθήσουν στην επίτευξη υψηλού κέρδους το επόμενο έτος στη Wal-Mart;. Αυτή η διαδικασία έχει πολλά βήματα. Ξεκινά με την ανάπτυξη κατανόησης του τομέα εφαρμογής και του στόχου και στη συνέχεια τη δημιουργία ενός συνόλου δεδομένων στόχου. Ακολουθεί καθαρισμός, προεπεξεργασία, μείωση και προβολή δεδομένων. Το επόμενο βήμα είναι η χρήση της εξόρυξης δεδομένων (εξηγείται παρακάτω) για τον προσδιορισμό του προτύπου. Τέλος, η ανακαλυφθείσα γνώση παγιώνεται μέσω οπτικοποίησης και/ή ερμηνείας.
Τι είναι η εξόρυξη δεδομένων;
Όπως αναφέρθηκε παραπάνω, η Εξόρυξη Δεδομένων είναι μόνο ένα βήμα στη συνολική διαδικασία KDD. Υπάρχουν δύο κύριοι στόχοι Εξόρυξης Δεδομένων όπως ορίζονται από τον στόχο της εφαρμογής και είναι η επαλήθευση ή η ανακάλυψη. Η επαλήθευση επαληθεύει την υπόθεση του χρήστη σχετικά με τα δεδομένα, ενώ η ανακάλυψη βρίσκει αυτόματα ενδιαφέροντα μοτίβα. Υπάρχουν τέσσερις κύριες εργασίες εξόρυξης δεδομένων: ομαδοποίηση, ταξινόμηση, παλινδρόμηση και συσχέτιση (σύνοψη). Η ομαδοποίηση είναι ο εντοπισμός παρόμοιων ομάδων από μη δομημένα δεδομένα. Η ταξινόμηση είναι κανόνες μάθησης που μπορούν να εφαρμοστούν σε νέα δεδομένα. Η παλινδρόμηση είναι η εύρεση συναρτήσεων με ελάχιστο σφάλμα στη μοντελοποίηση δεδομένων. Και η ένωση αναζητά σχέσεις μεταξύ μεταβλητών. Στη συνέχεια, πρέπει να επιλεγεί ο συγκεκριμένος αλγόριθμος εξόρυξης δεδομένων. Ανάλογα με τον στόχο, μπορούν να επιλεγούν διαφορετικοί αλγόριθμοι όπως γραμμική παλινδρόμηση, λογιστική παλινδρόμηση, δέντρα αποφάσεων και Naïve Bayes. Στη συνέχεια αναζητούνται μοτίβα ενδιαφέροντος σε μία ή περισσότερες αναπαραστατικές μορφές. Τέλος, τα μοντέλα αξιολογούνται είτε χρησιμοποιώντας προγνωστική ακρίβεια είτε κατανοητό.
Ποια είναι η διαφορά μεταξύ του KDD και της εξόρυξης δεδομένων;
Αν και, οι δύο όροι KDD και Εξόρυξη Δεδομένων χρησιμοποιούνται σε μεγάλο βαθμό εναλλακτικά, αναφέρονται σε δύο σχετικές αλλά ελαφρώς διαφορετικές έννοιες. Το KDD είναι η συνολική διαδικασία εξαγωγής γνώσης από δεδομένα, ενώ η Εξόρυξη Δεδομένων είναι ένα βήμα μέσα στη διαδικασία KDD, η οποία ασχολείται με τον εντοπισμό προτύπων στα δεδομένα. Με άλλα λόγια, η Εξόρυξη Δεδομένων είναι μόνο η εφαρμογή ενός συγκεκριμένου αλγορίθμου που βασίζεται στον συνολικό στόχο της διαδικασίας KDD.