Γραμμική vs Logistic Regression
Στη στατιστική ανάλυση, είναι σημαντικό να προσδιοριστούν οι σχέσεις μεταξύ των μεταβλητών που σχετίζονται με τη μελέτη. Μερικές φορές μπορεί να είναι ο μοναδικός σκοπός της ίδιας της ανάλυσης. Ένα ισχυρό εργαλείο που χρησιμοποιείται για να διαπιστωθεί η ύπαρξη σχέσης και να προσδιοριστεί η σχέση είναι η ανάλυση παλινδρόμησης.
Η απλούστερη μορφή ανάλυσης παλινδρόμησης είναι η γραμμική παλινδρόμηση, όπου η σχέση μεταξύ των μεταβλητών είναι μια γραμμική σχέση. Σε στατιστικούς όρους, αναδεικνύει τη σχέση μεταξύ της επεξηγηματικής μεταβλητής και της μεταβλητής απόκρισης. Για παράδειγμα, χρησιμοποιώντας την παλινδρόμηση μπορούμε να καθορίσουμε τη σχέση μεταξύ της τιμής του εμπορεύματος και της κατανάλωσης με βάση τα δεδομένα που συλλέγονται από ένα τυχαίο δείγμα. Η ανάλυση παλινδρόμησης θα παράγει μια συνάρτηση παλινδρόμησης του συνόλου δεδομένων, το οποίο είναι ένα μαθηματικό μοντέλο που ταιριάζει καλύτερα στα διαθέσιμα δεδομένα. Αυτό μπορεί εύκολα να αναπαρασταθεί με μια γραφική παράσταση διασποράς. Η γραφική παλινδρόμηση ισοδυναμεί με την εύρεση της βέλτιστης καμπύλης προσαρμογής για το δεδομένο σύνολο δεδομένων. Η συνάρτηση της καμπύλης είναι η συνάρτηση παλινδρόμησης. Χρησιμοποιώντας το μαθηματικό μοντέλο, η χρήση ενός εμπορεύματος μπορεί να προβλεφθεί για μια δεδομένη τιμή.
Επομένως, η ανάλυση παλινδρόμησης χρησιμοποιείται ευρέως στην πρόβλεψη και την πρόβλεψη. Χρησιμοποιείται επίσης για τη δημιουργία σχέσεων σε πειραματικά δεδομένα, στους τομείς της φυσικής, της χημείας και σε πολλές φυσικές επιστήμες και κλάδους μηχανικής. Εάν η σχέση ή η συνάρτηση παλινδρόμησης είναι μια γραμμική συνάρτηση, τότε η διαδικασία είναι γνωστή ως γραμμική παλινδρόμηση. Στο διάγραμμα διασποράς, μπορεί να αναπαρασταθεί ως ευθεία γραμμή. Εάν η συνάρτηση δεν είναι γραμμικός συνδυασμός των παραμέτρων, τότε η παλινδρόμηση είναι μη γραμμική.
Η λογιστική παλινδρόμηση είναι συγκρίσιμη με την πολυμεταβλητή παλινδρόμηση και δημιουργεί ένα μοντέλο που εξηγεί την επίδραση πολλαπλών προγνωστικών παραγόντων σε μια μεταβλητή απόκρισης. Ωστόσο, στην λογιστική παλινδρόμηση, η μεταβλητή του τελικού αποτελέσματος πρέπει να είναι κατηγορηματική (συνήθως χωρισμένη, δηλαδή ένα ζεύγος επιτεύξιμων αποτελεσμάτων, όπως ο θάνατος ή η επιβίωση, αν και ειδικές τεχνικές επιτρέπουν τη μοντελοποίηση πιο κατηγοριοποιημένων πληροφοριών). Μια μεταβλητή συνεχούς αποτελέσματος μπορεί να μετατραπεί σε μια κατηγορική μεταβλητή, που θα χρησιμοποιηθεί για λογιστική παλινδρόμηση. Ωστόσο, η κατάρρευση συνεχών μεταβλητών με αυτόν τον τρόπο ως επί το πλείστον αποθαρρύνεται επειδή μειώνει την ακρίβεια.
Σε αντίθεση με τη γραμμική παλινδρόμηση, προς τον μέσο όρο, οι μεταβλητές πρόβλεψης στην λογιστική παλινδρόμηση δεν χρειάζεται να υποχρεωθούν να είναι γραμμικά συνδεδεμένες, κοινώς κατανεμημένες ή να έχουν ίση διακύμανση εντός κάθε συστάδας. Ως αποτέλεσμα, η σχέση μεταξύ των μεταβλητών πρόβλεψης και αποτελέσματος δεν είναι πιθανό να είναι γραμμική συνάρτηση.
Ποια είναι η διαφορά μεταξύ Logistic και Linear Regression;
• Στη γραμμική παλινδρόμηση, υποτίθεται μια γραμμική σχέση μεταξύ της επεξηγηματικής μεταβλητής και της μεταβλητής απόκρισης και οι παράμετροι που ικανοποιούν το μοντέλο βρίσκονται με ανάλυση, για να δοθεί η ακριβής σχέση.
• Η γραμμική παλινδρόμηση πραγματοποιείται για ποσοτικές μεταβλητές και η συνάρτηση που προκύπτει είναι ποσοτική.
• Στην λογιστική παλινδρόμηση, τα δεδομένα που χρησιμοποιούνται μπορεί να είναι είτε κατηγορικά είτε ποσοτικά, αλλά το αποτέλεσμα είναι πάντα κατηγορηματικό.