Διαφορά μεταξύ εξόρυξης δεδομένων και αποθήκευσης δεδομένων

Διαφορά μεταξύ εξόρυξης δεδομένων και αποθήκευσης δεδομένων
Διαφορά μεταξύ εξόρυξης δεδομένων και αποθήκευσης δεδομένων

Βίντεο: Διαφορά μεταξύ εξόρυξης δεδομένων και αποθήκευσης δεδομένων

Βίντεο: Διαφορά μεταξύ εξόρυξης δεδομένων και αποθήκευσης δεδομένων
Βίντεο: Ένα ακουστικό "Xiaomi Airdots" δεν φορτίζει 2024, Ιούλιος
Anonim

Εξόρυξη δεδομένων έναντι αποθήκευσης δεδομένων

Η εξόρυξη δεδομένων και η αποθήκευση δεδομένων είναι πολύ ισχυρές και δημοφιλείς τεχνικές για την ανάλυση δεδομένων. Οι χρήστες που τείνουν προς τα στατιστικά χρησιμοποιούν την εξόρυξη δεδομένων. Χρησιμοποιούν στατιστικά μοντέλα για να αναζητήσουν κρυφά μοτίβα στα δεδομένα. Οι εξορύκτες δεδομένων ενδιαφέρονται να βρουν χρήσιμες σχέσεις μεταξύ διαφορετικών στοιχείων δεδομένων, κάτι που είναι τελικά κερδοφόρο για τις επιχειρήσεις. Ωστόσο, από την άλλη πλευρά, οι ειδικοί δεδομένων που μπορούν να αναλύσουν άμεσα τις διαστάσεις της επιχείρησης τείνουν να χρησιμοποιούν αποθήκες δεδομένων.

Η εξόρυξη δεδομένων είναι επίσης γνωστή ως Ανακάλυψη γνώσης σε δεδομένα (KDD). Όπως προαναφέρθηκε, είναι ένα πεδίο της επιστήμης των υπολογιστών, το οποίο ασχολείται με την εξαγωγή άγνωστων και ενδιαφέρουσες προηγουμένως πληροφορίες από ακατέργαστα δεδομένα. Λόγω της εκθετικής αύξησης των δεδομένων, ειδικά σε τομείς όπως οι επιχειρήσεις, η εξόρυξη δεδομένων έχει γίνει πολύ σημαντικό εργαλείο για τη μετατροπή αυτού του μεγάλου πλούτου δεδομένων σε επιχειρηματική ευφυΐα, καθώς η χειροκίνητη εξαγωγή προτύπων έχει γίνει φαινομενικά αδύνατη τις τελευταίες δεκαετίες. Για παράδειγμα, αυτή τη στιγμή χρησιμοποιείται για διάφορες εφαρμογές όπως ανάλυση κοινωνικών δικτύων, ανίχνευση απάτης και μάρκετινγκ. Η εξόρυξη δεδομένων συνήθως ασχολείται με τις ακόλουθες τέσσερις εργασίες: ομαδοποίηση, ταξινόμηση, παλινδρόμηση και συσχέτιση. Η ομαδοποίηση είναι ο εντοπισμός παρόμοιων ομάδων από μη δομημένα δεδομένα. Η ταξινόμηση είναι κανόνες μάθησης που μπορούν να εφαρμοστούν σε νέα δεδομένα και συνήθως περιλαμβάνουν τα ακόλουθα βήματα: προεπεξεργασία δεδομένων, σχεδιασμός μοντελοποίησης, εκμάθηση/επιλογή χαρακτηριστικών και αξιολόγηση/επικύρωση. Η παλινδρόμηση είναι η εύρεση συναρτήσεων με ελάχιστο σφάλμα στη μοντελοποίηση δεδομένων. Και η ένωση αναζητά σχέσεις μεταξύ μεταβλητών. Η εξόρυξη δεδομένων χρησιμοποιείται συνήθως για να απαντήσει σε ερωτήσεις όπως ποια είναι τα κύρια προϊόντα που θα μπορούσαν να βοηθήσουν στην επίτευξη υψηλού κέρδους το επόμενο έτος στη Wal-Mart;

Όπως αναφέρθηκε παραπάνω, η αποθήκευση δεδομένων χρησιμοποιείται επίσης για την ανάλυση δεδομένων, αλλά από διαφορετικά σύνολα χρηστών και έναν ελαφρώς διαφορετικό στόχο στο μυαλό. Για παράδειγμα, όταν πρόκειται για τον τομέα λιανικής, οι χρήστες της αποθήκευσης δεδομένων ενδιαφέρονται περισσότερο για τα είδη αγορών που είναι δημοφιλή στους πελάτες, επομένως τα αποτελέσματα της ανάλυσης μπορούν να βοηθήσουν τον πελάτη βελτιώνοντας την εμπειρία του πελάτη. Αλλά οι εξορύκτες δεδομένων αρχικά εικάζουν μια υπόθεση όπως ποιοι πελάτες αγοράζουν ένα συγκεκριμένο είδος προϊόντος και αναλύουν τα δεδομένα για να ελέγξουν την υπόθεση. Η αποθήκευση δεδομένων θα μπορούσε να πραγματοποιηθεί από έναν μεγάλο έμπορο λιανικής που αρχικά προμηθεύει τα καταστήματά του με τα ίδια μεγέθη προϊόντων για να ανακαλύψει αργότερα ότι τα καταστήματα της Νέας Υόρκης πωλούν απόθεμα μικρότερου μεγέθους πολύ πιο γρήγορα από ό,τι στα καταστήματα του Σικάγου. Έτσι, κοιτάζοντας αυτό το αποτέλεσμα, ο λιανοπωλητής μπορεί να εφοδιάσει το κατάστημα της Νέας Υόρκης με μικρότερα μεγέθη σε σύγκριση με τα καταστήματα του Σικάγο.

Έτσι, όπως μπορείτε να δείτε ξεκάθαρα, αυτοί οι δύο τύποι ανάλυσης φαίνεται να είναι της ίδιας φύσης με γυμνό μάτι. Και οι δύο ανησυχούν για την αύξηση των κερδών με βάση τα ιστορικά δεδομένα. Αλλά φυσικά, υπάρχουν βασικές διαφορές. Με απλά λόγια, η εξόρυξη δεδομένων και η αποθήκευση δεδομένων είναι αφιερωμένες στην παροχή διαφορετικών τύπων αναλυτικών στοιχείων, αλλά σίγουρα για διαφορετικούς τύπους χρηστών. Με άλλα λόγια, η Εξόρυξη Δεδομένων αναζητά συσχετισμούς, μοτίβα για να υποστηρίξει μια στατιστική υπόθεση. Ωστόσο, η Αποθήκευση Δεδομένων απαντά σε μια σχετικά ευρύτερη ερώτηση και τεμαχίζει και κόβει τα δεδομένα από εκεί και πέρα για να αναγνωρίσει τρόπους βελτίωσης στο μέλλον.

Συνιστάται: