Διάγραμμα Διασποράς
Εισαγωγή
Η στατιστική επιστήμη επιδιώκει να οργανώνει, να αναλύει και να παρουσιάζει δεδομένα με τρόπο κατανοητό και χρηστικό. Ένα από τα πιο σημαντικά εργαλεία παρουσίασης δεδομένων είναι το διάγραμμα διασποράς (scatterplot), το οποίο χρησιμοποιείται για την απεικόνιση αντιστοιχισμένων δεδομένων. Με άλλα λόγια, κάθε σημείο στο διάγραμμα αντιστοιχεί σε ένα ζεύγος αριθμών που συνδέονται μεταξύ τους. Αυτή η οπτική απεικόνιση επιτρέπει την αναγνώριση τάσεων, σχέσεων και συσχετίσεων ανάμεσα σε δύο μεταβλητές και προσφέρει μια πιο άμεση κατανόηση της συμπεριφοράς των δεδομένων.
Τι είναι το Διάγραμμα Διασποράς
Ένα διάγραμμα διασποράς είναι ένα μαθηματικό γράφημα που χρησιμοποιεί καρτεσιανές συντεταγμένες για να εμφανίσει τις τιμές δύο μεταβλητών ενός συνόλου δεδομένων. Κάθε σημείο στο διάγραμμα έχει μία τιμή για τον οριζόντιο άξονα και μία τιμή για τον κάθετο άξονα. Έτσι, το scatterplot δίνει τη δυνατότητα να παρατηρήσουμε εάν υπάρχει κάποια σχέση ή τάση ανάμεσα στις δύο μεταβλητές. Παραδείγματα εφαρμογών περιλαμβάνουν την απόδοση ενός μαθητή σε τεστ πριν και μετά από μια εκπαιδευτική παρέμβαση, τη σύγκριση ύψους και βάρους ατόμων σε ένα δείγμα πληθυσμού ή τη μελέτη πειραματικών δεδομένων που συγκρίνουν ομάδα ελέγχου και ομάδα θεραπείας.
Τοποθέτηση Μεταβλητών στους Άξονες
Η σωστή απεικόνιση ενός scatterplot απαιτεί προσοχή ως προς το ποια μεταβλητή τοποθετείται στον κάθε άξονα. Κατά κανόνα, η επεξηγηματική μεταβλητή ή ανεξάρτητη τοποθετείται στον οριζόντιο άξονα, ενώ η απόκριση ή εξαρτημένη μεταβλητή στον κάθετο άξονα. Στην περίπτωση που και οι δύο μεταβλητές θεωρούνται επεξηγηματικές, τότε η επιλογή του άξονα για καθεμία είναι αυθαίρετη. Η διάκριση αυτή έχει ιδιαίτερη σημασία, διότι επηρεάζει τον τρόπο ερμηνείας των σχέσεων που αποτυπώνονται στο γράφημα.
Χαρακτηριστικά ενός Scatterplot
Με την ανάλυση ενός διαγράμματος διασποράς μπορούν να εντοπιστούν αρκετά χαρακτηριστικά που διευκολύνουν την κατανόηση των δεδομένων. Η συνολική τάση αποτελεί το πρώτο σημείο παρατήρησης, καθώς εξετάζοντας τα σημεία από αριστερά προς τα δεξιά μπορούμε να διαπιστώσουμε αν η πορεία είναι ανοδική, καθοδική ή κυκλική. Εξίσου σημαντική είναι η αναγνώριση ακραίων τιμών, οι οποίες ενδέχεται να ξεφεύγουν από τη γενική τάση και να επηρεάζουν την ανάλυση. Το σχήμα της τάσης αποτελεί επίσης καθοριστικό στοιχείο, καθώς μπορεί να είναι γραμμικό, εκθετικό, λογαριθμικό ή να ακολουθεί πιο σύνθετες μορφές. Τέλος, η δύναμη της σχέσης μεταξύ των μεταβλητών αξιολογείται με βάση το πόσο κοντά βρίσκονται τα σημεία στη νοητή γραμμή που περιγράφει τη γενική πορεία των δεδομένων.
Είδη Συσχέτισης
Το διάγραμμα διασποράς αποκαλύπτει τις διαφορετικές μορφές συσχέτισης μεταξύ των μεταβλητών. Όταν τα σημεία σχηματίζουν ανοδική πορεία από κάτω αριστερά προς πάνω δεξιά, αυτό αποτελεί ένδειξη θετικής συσχέτισης. Αντιθέτως, όταν τα σημεία έχουν καθοδική πορεία από πάνω αριστερά προς κάτω δεξιά, παρατηρείται αρνητική συσχέτιση. Σε περιπτώσεις που τα σημεία δεν ακολουθούν κάποιο σαφές μοτίβο, η συσχέτιση θεωρείται μηδενική. Για την καλύτερη κατανόηση της σχέσης μπορεί να προστεθεί μια γραμμή παλινδρόμησης ή γραμμή τάσης, η οποία εκφράζει μαθηματικά τη βέλτιστη προσαρμογή των δεδομένων. Στις γραμμικές σχέσεις χρησιμοποιείται η μέθοδος της γραμμικής παλινδρόμησης, ενώ για πιο πολύπλοκες σχέσεις εφαρμόζονται τεχνικές όπως η LOESS, που προσφέρει πιο ευέλικτη απεικόνιση μη γραμμικών τάσεων.
Χρήσεις του Διαγράμματος Διασποράς
Η χρησιμότητα του scatterplot είναι ευρεία και καλύπτει πολλούς τομείς. Στην επιστημονική έρευνα χρησιμοποιείται για την κατανόηση των σχέσεων μεταξύ πειραματικών μεταβλητών. Στην ανάλυση δεδομένων συμβάλλει στην αναγνώριση μοτίβων, αλλά και στην εντόπιση ανωμαλιών ή εξαιρέσεων. Στον ποιοτικό έλεγχο αποτελεί ένα από τα επτά βασικά εργαλεία που βοηθούν στην αξιολόγηση της παραγωγικής διαδικασίας. Παράλληλα, αξιοποιείται στις κοινωνικές και οικονομικές επιστήμες για τη μελέτη της σχέσης ανάμεσα σε κοινωνικοοικονομικούς δείκτες. Επιπλέον, τα διαγράμματα διασποράς μπορούν να λάβουν πιο σύνθετες μορφές, όπως τα διαγράμματα φυσαλίδων, όπου το μέγεθος κάθε σημείου απεικονίζει μια τρίτη μεταβλητή, εμπλουτίζοντας έτσι την ανάλυση.
Συμπέρασμα
Το διάγραμμα διασποράς αποτελεί ένα από τα πιο ισχυρά και χρήσιμα εργαλεία της στατιστικής και της ανάλυσης δεδομένων. Η ικανότητά του να αποκαλύπτει τάσεις, να αναδεικνύει ακραίες τιμές και να παρουσιάζει με σαφήνεια τη μορφή και τη δύναμη μιας σχέσης το καθιστούν απαραίτητο τόσο στην ερευνητική διαδικασία όσο και στην πρακτική εφαρμογή. Με την προσθήκη γραμμών τάσης ή μεθόδων παλινδρόμησης ενισχύεται ακόμη περισσότερο η δυνατότητα ερμηνείας των δεδομένων. Εξαιτίας όλων αυτών των χαρακτηριστικών, το scatterplot συγκαταλέγεται στα βασικά εργαλεία ποιοτικού ελέγχου και παραμένει αναντικατάστατο στη μελέτη σχέσεων ανάμεσα σε μεταβλητές.