Διαφορά μεταξύ ιεραρχικής και τμηματικής ομαδοποίησης

Διαφορά μεταξύ ιεραρχικής και τμηματικής ομαδοποίησης
Διαφορά μεταξύ ιεραρχικής και τμηματικής ομαδοποίησης

Βίντεο: Διαφορά μεταξύ ιεραρχικής και τμηματικής ομαδοποίησης

Βίντεο: Διαφορά μεταξύ ιεραρχικής και τμηματικής ομαδοποίησης
Βίντεο: ΜΑΚΡΙΑ ΑΠΟ ΤΙΣ ΕΛΛΗΝΙΚΕΣ ΤΡΑΠΕΖΕΣ ΔΩΡΕΑΝ REVOLUT ΓΙΑ ΟΛΟΥΣ! 2024, Νοέμβριος
Anonim

Ιεραρχική έναντι τμηματικής ομαδοποίησης

Η ομαδοποίηση είναι μια τεχνική μηχανικής μάθησης για την ανάλυση δεδομένων και τη διαίρεση σε ομάδες παρόμοιων δεδομένων. Αυτές οι ομάδες ή σύνολα παρόμοιων δεδομένων είναι γνωστά ως συμπλέγματα. Η ανάλυση συστάδων εξετάζει αλγόριθμους ομαδοποίησης που μπορούν να προσδιορίσουν τα συμπλέγματα αυτόματα. Η ιεραρχική και η τμηματική είναι δύο τέτοιες κατηγορίες αλγορίθμων ομαδοποίησης. Οι αλγόριθμοι ιεραρχικής ομαδοποίησης διασπούν τα δεδομένα σε μια ιεραρχία συστάδων. Οι τμηματικοί αλγόριθμοι διαιρούν το σύνολο δεδομένων σε αμοιβαία διαχωρισμένα διαμερίσματα.

Τι είναι η Ιεραρχική Ομαδοποίηση;

Οι αλγόριθμοι ιεραρχικής ομαδοποίησης επαναλαμβάνουν τον κύκλο είτε συγχώνευσης μικρότερων συστάδων σε μεγαλύτερες είτε διαίρεσης μεγαλύτερων συστάδων σε μικρότερες. Είτε έτσι είτε αλλιώς, παράγει μια ιεραρχία συστάδων που ονομάζεται δενδόγραμμα. Η στρατηγική συγκεντρωτικής ομαδοποίησης χρησιμοποιεί την προσέγγιση από τη βάση προς την κορυφή της συγχώνευσης συστάδων σε μεγαλύτερες, ενώ η διαιρετική στρατηγική ομαδοποίησης χρησιμοποιεί την προσέγγιση από πάνω προς τα κάτω της διάσπασης σε μικρότερα. Συνήθως, η άπληστη προσέγγιση χρησιμοποιείται για να αποφασίσουμε ποια μεγαλύτερα/μικρότερα συμπλέγματα θα χρησιμοποιηθούν για συγχώνευση/διαίρεση. Η Ευκλείδεια απόσταση, η απόσταση του Μανχάταν και η ομοιότητα του συνημιτόνου είναι μερικές από τις πιο συχνά χρησιμοποιούμενες μετρήσεις ομοιότητας για αριθμητικά δεδομένα. Για μη αριθμητικά δεδομένα, χρησιμοποιούνται μετρήσεις όπως η απόσταση Hamming. Είναι σημαντικό να σημειωθεί ότι οι πραγματικές παρατηρήσεις (στιγμιότυπα) δεν χρειάζονται για την ιεραρχική ομαδοποίηση, επειδή αρκεί μόνο ο πίνακας αποστάσεων. Το Δενδόγραμμα είναι μια οπτική αναπαράσταση των συστάδων, η οποία εμφανίζει την ιεραρχία πολύ καθαρά. Ο χρήστης μπορεί να αποκτήσει διαφορετική ομαδοποίηση ανάλογα με το επίπεδο στο οποίο κόβεται το δενδόγραμμα.

Τι είναι η τμηματική ομαδοποίηση;

Οι αλγόριθμοι τμηματικής ομαδοποίησης δημιουργούν διάφορα διαμερίσματα και στη συνέχεια τα αξιολογούν με κάποιο κριτήριο. Αναφέρονται επίσης ως μη ιεραρχικά καθώς κάθε στιγμιότυπο τοποθετείται ακριβώς σε ένα από τα k αμοιβαία αποκλειόμενα συμπλέγματα. Επειδή μόνο ένα σύνολο συμπλεγμάτων είναι η έξοδος ενός τυπικού αλγόριθμου τμηματικής ομαδοποίησης, ο χρήστης πρέπει να εισαγάγει τον επιθυμητό αριθμό συστάδων (συνήθως ονομάζεται k). Ένας από τους πιο συχνά χρησιμοποιούμενους αλγόριθμους τμηματικής ομαδοποίησης είναι ο αλγόριθμος ομαδοποίησης k-means. Ο χρήστης πρέπει να παρέχει τον αριθμό των συμπλεγμάτων (k) πριν από την εκκίνηση και ο αλγόριθμος εκκινεί πρώτα τα κέντρα (ή τα κεντροειδή) των k κατατμήσεων. Με λίγα λόγια, ο αλγόριθμος ομαδοποίησης k-means εκχωρεί στη συνέχεια μέλη με βάση τα τρέχοντα κέντρα και επανεκτιμά τα κέντρα με βάση τα τρέχοντα μέλη. Αυτά τα δύο βήματα επαναλαμβάνονται έως ότου βελτιστοποιηθεί μια συγκεκριμένη συνάρτηση στόχου ομοιότητας εντός συστάδας και στόχος συνάρτησης ανομοιότητας μεταξύ συστάδων. Επομένως, η λογική αρχικοποίηση των κέντρων είναι ένας πολύ σημαντικός παράγοντας για τη λήψη ποιοτικών αποτελεσμάτων από αλγόριθμους τμηματικής ομαδοποίησης.

Ποια είναι η διαφορά μεταξύ Ιεραρχικής και Τμηματικής Ομαδοποίησης;

Η ιεραρχική και η τμηματική ομαδοποίηση έχουν βασικές διαφορές στο χρόνο εκτέλεσης, τις υποθέσεις, τις παραμέτρους εισόδου και τα προκύπτοντα συμπλέγματα. Συνήθως, η τμηματική ομαδοποίηση είναι ταχύτερη από την ιεραρχική ομαδοποίηση. Η ιεραρχική ομαδοποίηση απαιτεί μόνο ένα μέτρο ομοιότητας, ενώ η τμηματική ομαδοποίηση απαιτεί ισχυρότερες υποθέσεις όπως ο αριθμός των συστάδων και τα αρχικά κέντρα. Η ιεραρχική ομαδοποίηση δεν απαιτεί παραμέτρους εισόδου, ενώ οι αλγόριθμοι τμηματικής ομαδοποίησης απαιτούν τον αριθμό των συστάδων για να ξεκινήσει η εκτέλεση. Η ιεραρχική ομαδοποίηση επιστρέφει μια πολύ πιο ουσιαστική και υποκειμενική διαίρεση των συστάδων, αλλά η τμηματική ομαδοποίηση έχει ως αποτέλεσμα ακριβώς k συστάδες. Οι αλγόριθμοι ιεραρχικής ομαδοποίησης είναι πιο κατάλληλοι για κατηγορικά δεδομένα, εφόσον μπορεί να οριστεί ανάλογα ένα μέτρο ομοιότητας.

Συνιστάται: