Κεντρική τάση εναντίον διασποράς
Στην περιγραφική και την επαγωγική στατιστική, χρησιμοποιούνται αρκετοί δείκτες για να περιγράψουν ένα σύνολο δεδομένων που αντιστοιχεί στην κεντρική τάση, διασπορά και λοξότητα: οι τρεις πιο σημαντικές ιδιότητες που καθορίζουν το σχετικό σχήμα της κατανομής ενός συνόλου δεδομένων.
Τι είναι η κεντρική τάση;
Η κεντρική τάση αναφέρεται και εντοπίζει το κέντρο της κατανομής των τιμών. Ο μέσος όρος, ο τρόπος λειτουργίας και ο διάμεσος είναι οι πιο συχνά χρησιμοποιούμενοι δείκτες για την περιγραφή της κεντρικής τάσης ενός συνόλου δεδομένων. Εάν ένα σύνολο δεδομένων είναι συμμετρικό, τότε τόσο η διάμεσος όσο και η μέση τιμή του συνόλου δεδομένων συμπίπτουν μεταξύ τους.
Δεδομένου ενός συνόλου δεδομένων, ο μέσος όρος υπολογίζεται λαμβάνοντας το άθροισμα όλων των τιμών δεδομένων και στη συνέχεια διαιρώντας το με τον αριθμό των δεδομένων. Για παράδειγμα, τα βάρη 10 ατόμων (σε κιλά) μετρώνται σε 70, 62, 65, 72, 80, 70, 63, 72, 77 και 79. Τότε το μέσο βάρος των δέκα ατόμων (σε κιλά) μπορεί να είναι υπολογίζεται ως εξής. Το άθροισμα των βαρών είναι 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Μέσος όρος=(άθροισμα) / (αριθμός δεδομένων)=710 / 10=71 (σε κιλά). Είναι κατανοητό ότι τα ακραία σημεία (σημεία δεδομένων που αποκλίνουν από την κανονική τάση) τείνουν να επηρεάζουν τη μέση τιμή. Έτσι, με την παρουσία ακραίων τιμών, το μέσο από μόνο του δεν θα δώσει μια σωστή εικόνα για το κέντρο του συνόλου δεδομένων.
Η διάμεσος είναι το σημείο δεδομένων που βρίσκεται ακριβώς στο μέσο του συνόλου δεδομένων. Ένας τρόπος για να υπολογίσετε τη διάμεσο είναι να ταξινομήσετε τα σημεία δεδομένων σε αύξουσα σειρά και, στη συνέχεια, να εντοπίσετε το σημείο δεδομένων στη μέση. Για παράδειγμα, εάν μια φορά παραγγείλατε το προηγούμενο σύνολο δεδομένων μοιάζει με, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Επομένως, το (70+72)/2=71 βρίσκεται στη μέση. Από αυτό, φαίνεται ότι η διάμεσος δεν χρειάζεται να βρίσκεται στο σύνολο δεδομένων. Η διάμεση τιμή δεν επηρεάζεται από την παρουσία των ακραίων τιμών. Ως εκ τούτου, η διάμεσος θα χρησιμεύσει ως καλύτερο μέτρο της κεντρικής τάσης παρουσία ακραίων τιμών.
Η λειτουργία είναι η πιο συχνά εμφανιζόμενη τιμή στο σύνολο δεδομένων. Στο προηγούμενο παράδειγμα, οι τιμές 70 και 72 εμφανίζονται δύο φορές και, επομένως, και οι δύο είναι λειτουργίες. Αυτό δείχνει ότι, σε ορισμένες διανομές, υπάρχουν περισσότερες από μία τροπικές τιμές. Εάν υπάρχει μόνο μία λειτουργία, το σύνολο δεδομένων λέγεται ότι είναι μονοτροπικό, σε αυτήν την περίπτωση, το σύνολο δεδομένων είναι διτροπικό.
Τι είναι η διασπορά;
Διασπορά είναι η ποσότητα διασποράς των δεδομένων σχετικά με το κέντρο της διανομής. Το εύρος και η τυπική απόκλιση είναι τα πιο συχνά χρησιμοποιούμενα μέτρα διασποράς.
Το εύρος είναι απλώς η υψηλότερη τιμή μείον τη χαμηλότερη τιμή. Στο προηγούμενο παράδειγμα, η υψηλότερη τιμή είναι 80 και η χαμηλότερη τιμή είναι 62, επομένως το εύρος είναι 80-62=18. Αλλά το εύρος δεν παρέχει επαρκή εικόνα σχετικά με τη διασπορά.
Για τον υπολογισμό της τυπικής απόκλισης, υπολογίζονται πρώτα οι αποκλίσεις των τιμών των δεδομένων από τη μέση τιμή. Η μέση τετραγωνική ρίζα των αποκλίσεων ονομάζεται τυπική απόκλιση. Στο προηγούμενο παράδειγμα, οι αντίστοιχες αποκλίσεις από τον μέσο όρο είναι (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 και (79 – 71)=8. Το άθροισμα των τα τετράγωνα της απόκλισης είναι (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 Η τυπική απόκλιση είναι √(366/10)=6,05 (σε κιλά). Εκτός εάν το σύνολο δεδομένων είναι πολύ λοξό, από αυτό μπορεί να συναχθεί το συμπέρασμα ότι η πλειονότητα των δεδομένων βρίσκεται στο διάστημα 71±6,05, και είναι πράγματι έτσι στο συγκεκριμένο παράδειγμα.
Ποια είναι η διαφορά μεταξύ της κεντρικής τάσης και της διασποράς;
• Κεντρική τάση αναφέρεται και εντοπίζει το κέντρο της κατανομής των τιμών
• Η διασπορά είναι η ποσότητα της διασποράς δεδομένων γύρω από το κέντρο ενός συνόλου δεδομένων.