Cohen’s Kappa με τη χρήση του SPSS
Εισαγωγή
Στα ερευνητικά σχέδια όπου εμπλέκονται ένας ή περισσότεροι εκτιμητές, δηλαδή κριτές ή παρατηρητές, οι οποίοι αξιολογούν μια κατηγορική μεταβλητή, είναι κρίσιμης σημασίας να ελεγχθεί ο βαθμός συμφωνίας μεταξύ τους. Το Cohen’s kappa (κ) αποτελεί έναν στατιστικό δείκτη που μετρά το επίπεδο συμφωνίας ανάμεσα σε δύο εκτιμητές όταν οι αποφάσεις τους καταγράφονται σε κατηγορικές κλίμακες. Η μέθοδος αυτή δεν περιορίζεται στον απλό υπολογισμό του ποσοστού συμφωνίας, αλλά λαμβάνει υπόψη και τη συμφωνία που μπορεί να προκύψει τυχαία, προσφέροντας έτσι μια πιο αξιόπιστη εκτίμηση. Ένα χαρακτηριστικό παράδειγμα προέρχεται από τον χώρο της ιατρικής όπου δύο γιατροί αξιολογούν τριάντα ασθενείς με δερματικά προβλήματα και αποφασίζουν αν θα τους παραπέμψουν ή όχι σε ειδικό. Η σύγκριση των αποφάσεών τους μέσω του δείκτη κ δίνει μια καθαρή εικόνα της συνέπειας και της ομοιομορφίας τους στη διαγνωστική διαδικασία.
Η σημασία της μέτρησης συμφωνίας
Η συμφωνία ανάμεσα σε εκτιμητές είναι καθοριστικής σημασίας, καθώς επηρεάζει την εγκυρότητα και την αξιοπιστία των συμπερασμάτων μιας μελέτης. Στο παράδειγμα με τους δύο γιατρούς, εάν διαπιστωθεί υψηλή συμφωνία, τότε ο επικεφαλής της μελέτης μπορεί να αισθάνεται σιγουριά ότι οι ιατροί ακολουθούν παρόμοια κριτήρια αξιολόγησης. Παρ’ όλα αυτά, είναι σημαντικό να σημειωθεί ότι η συμφωνία δεν συνεπάγεται κατ’ ανάγκη και ορθότητα στη διάγνωση. Δύο εκτιμητές μπορεί να συμφωνούν μεταξύ τους αλλά να κάνουν ταυτόχρονα λάθος, όπως για παράδειγμα να παραπέμπουν περισσότερους ασθενείς από όσους πραγματικά χρειάζεται. Το Cohen’s kappa μετρά μόνο τον βαθμό συμφωνίας και όχι την ακρίβεια των αποφάσεων.
Υποθέσεις του Cohen’s Kappa
Για να είναι έγκυρος ο υπολογισμός του δείκτη, απαιτείται η τήρηση συγκεκριμένων υποθέσεων. Η πρώτη υπόθεση αφορά την ονομαστική κλίμακα. Οι κρίσεις των εκτιμητών πρέπει να καταγράφονται σε κατηγορική κλίμακα, είτε ονομαστική είτε διχοτομημένη, και οι κατηγορίες οφείλουν να είναι αμοιβαία αποκλειστικές. Ένας εκτιμητής, για παράδειγμα, δεν μπορεί να χαρακτηρίσει την ίδια περίπτωση ως «φυσιολογική» και «ύποπτη» ταυτόχρονα. Η δεύτερη υπόθεση σχετίζεται με τη μορφή των δεδομένων, τα οποία πρέπει να αποτελούν ζεύγη παρατηρήσεων του ίδιου φαινομένου. Αυτό σημαίνει ότι κάθε παρατήρηση αξιολογείται από τους ίδιους δύο εκτιμητές. Έτσι, εάν εξετάζονται τριάντα ασθενείς, θα πρέπει να υπάρχουν τριάντα ζεύγη αποφάσεων. Η τρίτη υπόθεση απαιτεί συμμετρία στις κατηγορίες που χρησιμοποιούν οι εκτιμητές, ώστε ο πίνακας συμφωνίας να είναι τετράγωνος, όπως 2×2, 3×3 ή 4×4. Δεν μπορεί, δηλαδή, ο ένας εκτιμητής να χρησιμοποιεί δύο κατηγορίες και ο άλλος τρεις. Η τέταρτη υπόθεση αφορά την ανεξαρτησία των εκτιμητών. Η κρίση του ενός δεν πρέπει να επηρεάζει την κρίση του άλλου, κάτι που θα συνέβαινε αν συζητούσαν τις απαντήσεις τους πριν τις καταγράψουν. Η πέμπτη και τελευταία υπόθεση προβλέπει ότι πρέπει να χρησιμοποιούνται οι ίδιοι εκτιμητές για όλες τις παρατηρήσεις. Αν εμπλέκονταν διαφορετικοί εκτιμητές σε κάθε παρατήρηση, τότε το κατάλληλο μέτρο δεν θα ήταν το Cohen’s kappa αλλά το Fleiss’ kappa, το οποίο καλύπτει περιπτώσεις με περισσότερους από δύο εκτιμητές.
Εφαρμογή στο SPSS
Η εφαρμογή του Cohen’s kappa στο λογισμικό SPSS πραγματοποιείται μέσα από τη δημιουργία πίνακα συμφωνίας, δηλαδή ενός crosstab, που συγκρίνει τις αποφάσεις των δύο εκτιμητών. Το SPSS παρέχει αυτόματα τον δείκτη κ, μαζί με στατιστικά σημαντικότητας και διαστήματα εμπιστοσύνης. Η ερμηνεία του αποτελέσματος βασίζεται στο εύρος της τιμής του. Τιμές κοντά στο μηδέν δείχνουν απουσία συμφωνίας πέραν της τυχαίας, ενώ τιμές κοντά στο ένα φανερώνουν σχεδόν τέλεια συμφωνία. Συγκεκριμένα, τιμές κάτω από 0.20 δείχνουν χαμηλή συμφωνία, από 0.21 έως 0.40 μέτρια, από 0.41 έως 0.60 μέτρια προς καλή, από 0.61 έως 0.80 σημαντική και από 0.81 έως 1.00 σχεδόν τέλεια συμφωνία. Στο παράδειγμα των δύο γιατρών, μια τιμή κ ίση με 0.85 θα σήμαινε ότι οι αποφάσεις τους είναι σε πολύ μεγάλο βαθμό ταυτόσημες.
Συμπεράσματα
Το Cohen’s kappa αποτελεί ένα εξαιρετικά χρήσιμο εργαλείο για την εκτίμηση της συμφωνίας δύο εκτιμητών σε κατηγορικά δεδομένα. Η ορθή εφαρμογή του όμως προϋποθέτει την τήρηση πέντε βασικών υποθέσεων, οι οποίες αφορούν την ονομαστική φύση των δεδομένων, την ύπαρξη ζευγαρωτών παρατηρήσεων, τη συμμετρία στις κατηγορίες, την ανεξαρτησία των εκτιμητών και τη σταθερότητα των ίδιων ατόμων σε όλες τις αξιολογήσεις. Η μέθοδος βρίσκει εφαρμογή σε πολλούς τομείς, από την ιατρική διάγνωση μέχρι την αξιολόγηση ποιότητας υπηρεσιών και τις ψυχομετρικές μετρήσεις, ενώ για πιο σύνθετες περιπτώσεις υπάρχουν παραλλαγές όπως το σταθμισμένο kappa και το Fleiss’ kappa. Σε κάθε περίπτωση, η χρήση του δείκτη υπογραμμίζει τη σημασία της αξιοπιστίας και της συνέπειας σε κάθε επιστημονικό ή επαγγελματικό πεδίο όπου οι αποφάσεις έχουν κρίσιμη βαρύτητα.