Έλεγχος Κανονικότητας [Test of Normality]
Στην Στατιστική, ο Έλεγχος Κανονικότητας [Τest of Normality], είναι ίσως ο σπουδαιότερος στατιστικός έλεγχος υπόθεσης, και χρησιμοποιείται με στόχο να υπολιγστεί η πιθανότητα του κατά πόσο μια τυχαία μεταβλητή να περιγράφεται ικανοποιητικά από την Κανονική Κατανομή. Σε επίπεδο συνόλου δεδομένων, ο εν λόγω έλεγχος δύναται να προσδιορίσει εάν το σύνολο δεδομένων είναι καλά μοντελοποιημένο από την Κανονική Κατανομή.
Τύποι ελέγχου κανονικότητας
Βάση του αποτελέσματος του Ελέγχου της Κανονικότητας δύναται να αποφασιστεί αν θα χρησιμοποιηθεί παραμετρικός ή μη παραμετρικός έλεγχος για την εξέταση της εκάστοτε μηδενικής υπόθεσης ή για την περαιτέρω στατιστική ανάλυση των δεδομένων.
Υπάρχουν αρκετά κριτήρια με τα οποία μπορεί να ελεγχθεί η κανονικότητα, κάποια από τα οποία θα αναλυθούν ακολούθως.
Kolmogorov ‐Smirnov (K-S)
Το κριτήριο Kolmogorov-Smirnov (Κ-S) είναι ένας μη παραμετρικός έλεγχος που χρησιμοποιείται για να εξετάσει την καλή προσαρμογή ενός τυχαίου δείγματος σε μία δεδομένη κατανομή.
Βασίζεται στη διαφορά της εμπειρικής συνάρτησης κατανομής που προέρχεται από το δείγμα, και της αναμενόμενης συνάρτησης κατανομής υπό την υπόθεση της κανονικότητας, ή της οποιαδήποτε μηδενικής υπόθεσης Hο η οποία μπορεί να είναι Κανονική, Ομοιόμορφη, Poisson ή Εκθετική.
Shapiro ‐Wilk
Το κριτήριο Shapiro-Wilk είναι ένας ακόμα πολύ γνωστός μη παραμετρικός έλεγχος σύμφωνα με το οποίο ελέγχεται αν οι παρατηρήσεις μίας μεταβλητής προέρχονται από κανονική κατανομή.
Οι παράμετροι επιλέγονται, όταν οι τιμές της μεταβλητής είναι σταθμισμένες και οι τιμές των σταθμίσεων είναι δεν είναι ακέραιες.
P-P Plot
Το P-P Plot είναι ένα γράφημα πιθανότητας για την αξιολόγηση του πόσο «στενά» συμφωνούν δύο σύνολα δεδομένων, βασιζόμενα στις αθροιστικές τους συναρτήσεις κατανομής.
Από το γράφημα αυτό εξετάζεται εάν τα δεδομένα συμπίπτουν ή τείνουν στην ευθεία γραμμή του γραφήματος.
Εάν τα σημεία τείνουν προς την ευθεία γραμμή συνεπάγεται ότι τα δεδομένα ακολουθούν την κατανομή που έχει οριστεί.
Q-Q Plot
Ένα Q-Q Plot είναι και αυτό ένα γράφημα πιθανότητας για τη γραφική σύγκριση δύο κατανομών πιθανότητας, απεικονίζοντας τα ποσοστημόρια της μιας σε σχέση με την άλλη.
Το γράφημα Q-Q χρησιμοποιείται για να συγκρίνουμε τα σχήματα των συναρτήσεων κατανομής, παρέχοντας μια γραφική άποψη για τον τρόπο με τον οποίον ιδιότητες, όπως η θέση, η κλίμακα και η ασυμμετρία, είναι παρόμοιες ή διαφορετικές στις δύο κατανομές.
Επίσης, χρησιμοποιείται για να συγκρίνει τις συλλογές δεδομένων ή θεωρητικές κατανομές.
Η χρήση του γραφήματος για τη σύγκριση δύο δειγμάτων δεδομένων μπορεί να θεωρηθεί ως μια μη-παραμετρική προσέγγιση για τη σύγκριση των κατανομών τους.
Ο έλεγχος με τις παραπάνω μεθόδους είναι μια μορφή επιλογής μοντέλου και μπορεί να ερμηνευθούν με διάφορους τρόπους, ανάλογα με το πεδίο της Στατιστικής που χρησιμοποιείται:
- Σε όρους Περιγραφικής Στατιστικής, μετράει την καλή προσαρμογή ενός κανονικού μοντέλου στα δεδομένα.
Εάν η προσαρμογή είναι κακή, τότε τα δεδομένα δεν είναι καλά μοντελοποιημένα από την κανονική κατανομή, χωρίς να κρίνεται οποιαδήποτε υποκείμενη μεταβλητή. - Στην Στατιστική Συμπερασματολογία, τα δεδομένα ελέγχονται έναντι της μηδενικής υπόθεσης αν είναι κανονικά κατανεμημένα.
- Στη Μπεϋζιανή Στατιστική, δεν υπάρχει έλεγχος κανονικότητας αλλά υπολογίζεται η πιθανότητα τα δεδομένα να προέρχονται από μια κανονική κατανομή με δεδομένες παραμέτρους μ, σ (για όλα τα μ, σ ) και συγκρίνει αυτό με την πιθανότητα ότι τα δεδομένα προέρχονται από άλλες υπό εξέταση κατανομές, απλώς χρησιμοποιώντας έναν παράγοντα Bayes (δίνοντας τη σχετική πιθανότητα να δούμε τα δεδομένα που δίδονται σε διαφορετικά μοντέλα).
Δείτε περισσότερες πληροφορίες σχετικά με την: Περιγραφική Στατιστική – Στατιστική Συμπερασματολογία και την Μπεϋζιανή Στατιστική.
Επίσης, δείτε πως υλοποιείται ο έλεγχος της κανονικότητας με χρήση του SPSS Statistics εδώ.
Οριακά Θεωρήματα
Το Κεντρικό Οριακό Θεώρημα και άλλα οριακά θεωρήματα παρέχουν τη βάση για την κεντρική θέση της κανονικής κατανομής στα στατιστικά συμπεράσματα.
Αυτά τα θεωρήματα δηλώνουν, ανεξάρτητα από την υποκείμενη κατανομή των δεδομένων, καθώς το μέγεθος του δείγματος στο οποίο βασίζονται είναι πολύ μεγάλο, ότι η κατανομή δειγματοληψίας των στατιστικών που υπολογίζεται από το δείγμα γίνεται πλησιέστερη σε εκείνη κάποιας κανονικά κατανεμημένης μεταβλητής.
Υπάρχουν όμως πολλές καταστάσεις που απαιτούν κάτι περισσότερο από την κανονικότητα της κατανομής δειγματοληψίας μιας στατιστικής και αυτό είναι η κανονικότητα της ίδιας της κατανομής δεδομένων.
Βιβλιογραφία
Μανωλέσου, Α. (2015). Στατιστικοί έλεγχοι κανονικότητα. Αθήνα:Σύνδεσμος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών.
Για περισσότερες διευκρινίσεις σχετικά με τον Έλεγχο Κανονικότητας, μπορείτε να επικοινωνήσετε με την ομάδα της DatAnalysis.