Ανάλυση Δεδομένων (Data Analysis)
Εισαγωγή
Η ανάλυση δεδομένων είναι ιδιαίτερα σημαντική για την απόκτηση νέας γνώσης και τη διαδικασία λήψης αποφάσεων. Όταν μελετάται ένα αντικείμενο ενός ευρύτερου συστήματος, η ανάλυση των δεδομένων που έχουν συλλεχθεί σε συνδυασμό µε την αρχική γνώση του αντικειμένου οδηγούν σε νέες γνώσεις, οι οποίες µε τη σειρά τους συμβάλουν στη λήψη κατάλληλων αποφάσεων για τη βελτίωση του συστήματος. Η ανάλυση δεδομένων παίζει κεντρικό ρόλο στην αξιολόγηση του συστήματος, ως διαδικασία συνεχούς βελτίωσης των παρεχόμενων συγκοινωνιακών υπηρεσιών. Ηάριστη προαπαιτούµενη γνώση του συστήματος αστικών συγκοινωνιών και των υπό αξιολόγηση παρεχόμενων υπηρεσιών βοηθάει τον μελετητή/ερευνητή στη διαμόρφωση της κατάλληλης μεθοδολογίας ορισμού και υπολογισμού δεικτών αξιολόγησης, η οποία περιλαμβάνει τη συλλογή των κατάλληλων δεδομένων και στην περαιτέρω ανάλυσή τους.
Μέθοδοι Ανάλυσης Δεδομένων
• Περιγραφική Στατιστική
• Ανάλυση Τεταρτημόριων
• Ανάλυση Αντίκτυπου
• Ανάλυση Παραγόντων
• Ανάλυση Διακριτών επιλογών
Περιγραφική Στατιστική
Η πλέον συνήθης ανάλυση που γίνεται στα στοιχεία που συλλέγονται από μελετητές και ερευνητές είναι ο υπολογισμός απλών και τυπικών στατιστικών μεγεθών, όπως μέσοι όροι, σταθμισμένοι μέσοι όροι, διακυμάνσεις, συχνότητες κ.ά. Η απλή αυτή στατιστική ανάλυση γίνεται τόσο για τα ποσοτικά/λειτουργικά όσο και για τα ποιοτικά χαρακτηριστικά ενός συστήματος αστικών συγκοινωνιών. Για τον σκοπό αυτό χρησιμοποιείται η περιγραφική στατιστική, η οποία αποσκοπεί στη συνοπτική αλλά και περιεκτική παρουσίαση των δεδομένων μιας έρευνας. Η περιγραφική στατιστική περιλαμβάνει τόσο ποσοτικές όσο και ποιοτικές στατιστικές τιμές.
➢ Οι ποσοτικές τιμές περιλαμβάνουν:
α) μέτρα κεντρικής τάσης: μέσοι όροι, διάμεσοι και επικρατούσες τιμές,
β) μέτρα διασποράς: εύρη τιμών, διακυμάνσεις και τυπικές αποκλίσεις, και
γ) μέτρα σχετικής θέσης: ποσοστιαία σημεία και ενδοτεταρτηµοριακές αποκλίσεις.
➢ Οι ποιοτικές τιμές περιλαμβάνουν συχνότητες:• απόλυτη συχνότητα• σχετική συχνότητα• αθροιστική συχνότητα • αθροιστική σχετική συχνότητα
Ανάλυση Τεταρτημόριων
Η Ανάλυση Τεταρτημόριων είναι μια μέθοδος ανάλυσης ποιοτικών χαρακτηριστικών και είναι απλή στην εφαρμογή της. Χρησιμοποιείται για την αξιολόγηση της ποιότητας των παρεχόμενων συγκοινωνιακών υπηρεσιών και έχει ως αποτέλεσμα την αναγνώριση των χαρακτηριστικών που χρήζουν άμεσης βελτίωσης. Μέσω της ανάλυσης αυτής συσχετίζονται για κάθε ποιοτικό χαρακτηριστικό οι μέσες βαθμολογίες σημαντικότητας και ικανοποίησης, όπως αυτές συλλέγονται.
Βήματα της Ανάλυσης Τεταρτημόριων
➢ Ο καθορισμός των ποιοτικών χαρακτηριστικών, τα οποία θα αξιολογηθούν μέσω έρευνας ερωτηματολογίου. Κάθε ποιοτικό χαρακτηριστικό παίρνει δύο βαθμολογίες: μια ως προς τη σημαντικότητα του χαρακτηριστικού και μια ως προς την ικανοποίηση αναφορικά µε την απόδοση του χαρακτηριστικού. Για παράδειγμα, αν το ποιοτικό χαρακτηριστικό που αξιολογείται είναι η καθαριότητα των οχημάτων, τότε οι επιβάτες αρχικά βαθμολογούν το πόσο σημαντική είναι η καθαριότητα των οχημάτων κατά την κρίση τους (ανεξάρτητα αν τα οχήματα είναι καθαρά ή όχι) και στη συνέχεια αξιολογούν το πόσο ικανοποιημένοι είναι από την καθαριότητα των οχημάτων µε βάση τη χρήση που κάνουν. Η βαθμολόγηση των ποιοτικών χαρακτηριστικών γίνεται συνήθως χρησιμοποιώντας μια κλίμακα Likert.
➢ Έπειτα, συσχετίζονται οι δύο βαθμολογίες και τις απεικονίζουμε σε ένα κοινό διάγραμμα ικανοποίησης – σημαντικότητας. Στο διάγραμμα αυτό, η κάθε διαχειριστική αρχή θέτει τα δικά της όρια για το σημαντικό / µη σημαντικό και για το ικανοποιημένος / µη ικανοποιημένος που δεν είναι απαραίτητα το μέσο της χρησιμοποιούμενης κλίμακας βαθμολόγησης. Με τη συσχέτιση αυτή παρέχεται μια καθαρή εικόνα των ποιοτικών χαρακτηριστικών που:
• Δεν αποδίδουν καλά, αλλά δεν είναι σημαντικά
• Αποδίδουν καλά, αλλά δεν είναι σημαντικά
• Αποδίδουν καλά, και είναι σημαντικά
• Δεν αποδίδουν καλά, και είναι σημαντικά
Βεβαίως, στόχος της Ανάλυσης Τεταρτημόριων δεν είναι µόνο η αναγνώριση των ποιοτικών χαρακτηριστικών που χρήζουν άμεσης βελτίωσης. Η καταγραφή του αποτελέσματος θα πρέπει να περιλαμβάνει και εκείνα τα χαρακτηριστικά που είναι σημαντικά και αποδίδουν καλά σύμφωνα, µε τους επιβάτες, καθώς αυτά προσδίδουν σημαντικό ανταγωνιστικό πλεονέκτημα για τον οργανισμό αστικών συγκοινωνιών και θα πρέπει να διατηρηθούν σε υψηλά επίπεδα. Ένα μειονέκτημα της Ανάλυσης Τεταρτημόριων είναι τα όρια των τεταρτημόριων, δηλαδή το σημείο τομής των δύο αξόνων του διαγράμματος ικανοποίησης – σημαντικότητας, τα οποία είναι συνήθως αυθαίρετα και το μέγεθος των διαφορών μεταξύ των μέσων βαθμολογιών των ποιοτικών χαρακτηριστικών συνήθως δεν λαμβάνονται υπόψη.
Ανάλυση Αντίκτυπου
Η Ανάλυση Αντίκτυπου προσδιορίζει το σχετικό αντίκτυπο των χαρακτηριστικών της εξυπηρέτησης στη συνολική ικανοποίηση του επιβατικού κοινού, όταν παρουσιάζεται ένα πρόσφατο πρόβλημα σε κάποιο από αυτά. Στόχος της Ανάλυσης Αντίκτυπου είναι να αναγνωρίσει τα ποιοτικά χαρακτηριστικά μετακίνησης που έχουν το μεγαλύτερο αρνητικό αντίκτυπο στη συνολική ικανοποίηση του επιβατικού κοινού, αλλά και τον μέγιστο αριθμό επιβατών που συναντούν το πρόβλημα. Επίσης στοχεύει και στον προσδιορισμό των στοιχείων της εξυπηρέτησης που χρήζουν βελτίωσης, όπως συμβαίνει και στην Ανάλυση Τεταρτημόριων.
Έτσι αναγνωρίζονται και ιεραρχούνται ποιοτικά χαρακτηριστικά µέσω μιας διαδικασίας τριών βημάτων:
➢ Στο πρώτο βήμα αναγνωρίζονται τα ποιοτικά χαρακτηριστικά που έχουν τη μεγαλύτερη επίπτωση στη συνολική ικανοποίηση των επιβατών. Για κάθε χαρακτηριστικό, το δείγμα των συμμετεχόντων στην έρευνα αξιολόγησης επιβατών χωρίζεται σε δύο ομάδες: σε εκείνους τους επιβάτες που έχουν αντιμετωπίσει ένα πρόσφατο (τις τελευταίες 30 ημέρες) πρόβλημα µε βάση το συγκεκριμένο χαρακτηριστικό και σε εκείνους που δεν έχουν αντιμετωπίσει πρόβλημα. Συγκρίνονται οι μέσες βαθμολογίες συνολικής ικανοποίησης των δύο ομάδων και εξάγεται η διαφορά των δύο μέσων βαθμολογιών συνολικής ικανοποίησης. Σε αυτό το σημείο πρέπει να τονιστεί ότι το μέγεθος της διαφοράς των δύο μέσων βαθμολογιών συνολικής ικανοποίησης ενός ποιοτικού χαρακτηριστικού δεν αναμένεται να αλλάξει σημαντικά µε την πάροδο του χρόνου.
➢ Στο δεύτερο βήμα καταγράφεται η συχνότητα εμφάνισης του προβλήματος για κάθε ποιοτικό χαρακτηριστικό. Πιο συγκεκριμένα, για κάθε ποιοτικό χαρακτηριστικό καταγράφεται το ποσοστό των επιβατών που ανέφεραν πρόβλημα που σχετίζεται µε το συγκεκριμένο χαρακτηριστικό τις τελευταίες 30 ημέρες. Στο βήμα αυτό μπορεί να παρατηρηθεί το φαινόμενο ένα ποιοτικό χαρακτηριστικό να εμφανίζει μεγάλη διαφορά των δύο μέσων βαθμολογίων συνολικής ικανοποίησης αλλά το ποσοστό των επιβατών που ανέφεραν το πρόβλημα να είναι μικρό. Αν η διαφορά των δύο μέσων βαθμολογίων συνολικής ικανοποίησης είναι σχετικά μικρή, αλλά το ποσοστό των επιβατών που ανέφεραν το πρόβλημα είναι μεγάλο, τότε η επίδραση του ποιοτικού χαρακτηριστικού στη συνολική ικανοποίηση μεγαλώνει και συνεπώς απαιτείται η λήψη μέτρων.
➢ Στο τρίτο και τελευταίο βήμα, δημιουργούμε ένα σύνθετο δείκτη πολλαπλασιάζοντας τη διαφορά των δύο μέσων βαθμολογίων συνολικής ικανοποίησης µε το ποσοστό των επιβατών που ανέφεραν το πρόβλημα. Το αποτέλεσμα είναι ένας «δείκτης αντίκτυπου» και τα ποιοτικά χαρακτηριστικά ιεραρχούνται µε βάση αυτόν τον δείκτη. Τα ποιοτικά χαρακτηριστικά µε τον υψηλότερο δείκτη αντίκτυπου είναι εκείνα που καθορίζουν περισσότερο τη συνολική ικανοποίηση των επιβατών.
Ανάλυση Παραγόντων
Η Ανάλυση Παραγόντων είναι μια μέθοδος ανάλυσης που εφαρμόζεται συχνά σε έρευνες μετακινήσεων, όταν στόχος τους είναι να αποτυπώσουν τα κύρια χαρακτηριστικά μετακίνησης και τους κρίσιμους παράγοντες που καθοδηγούν τις επιλογές των μετακινούμενων. Αντικειμενικός σκοπός της Ανάλυσης Παραγόντων είναι η μείωση των αρχικά ορισθέντων p μεταβλητών, οι οποίες ελήφθησαν κατά τη συλλογή των δεδομένων σε m<p μεταβλητές. Οι μεταβλητές αυτές αποτελούν µη παρατηρούμενα μεγέθη και είναι ουσιαστικά γενικευμένες κατηγορίες μεταβλητών, οι οποίες περιλαμβάνουν το σύνολο των μεταβλητών εκείνων που αντιστοιχούν στα ποιοτικά χαρακτηριστικά (ή παράγοντες), στα οποία δίνουν ιδιαίτερη βαρύτητα οι μετακινούμενοι, όπως αυτά καταγράφονται σε μια έρευνα μετακινήσεων. Αυτή η μέθοδος επιχειρεί να αναγνωρίσει τους µη παρατηρούμενους παράγοντες της διαμόρφωσης των εκτιμήσεων και αντιλήψεων των μετακινουμένων. Με τον τρόπο αυτό αφενός δεν απορρίπτονται χρήσιμες πληροφορίες, όπως εκφράζονται από τους μετακινουμένους, αφετέρου το μοντέλο δεν επιβαρύνεται και αναμένεται ο αλγόριθμος ανάλυσης να οδηγήσει σε σύγκλιση. Η Ανάλυση Παραγόντων χρησιμοποιεί πολύ συχνά τη μέθοδο της μεγιστοποίησης της μεταβλητότητας ενός μετασχηματισμού, ο οποίος περιστρέφει την αρχική μεταβλητή στον χώρο και πραγματοποιείται µε κριτήριο τη μεγιστοποίηση της μεταβλητότητας της νέας μεταβλητής µε ταυτόχρονη μέριμνα να διατηρηθεί ελάχιστη η μεταβλητότητα γύρω από κάθε παρατήρηση.
Ανάλυση Διακριτών Επιλογών
Η Ανάλυση Διακριτών Επιλογών έχει ως σκοπό τη δημιουργία ενός μοντέλου συμπεριφοράς, το οποίο θα περιγράφει τις αποφάσεις που λαμβάνει ο μετακινούμενος μεταξύ διαφορετικών εναλλακτικών επιλογών που καθορίζονται από τα προσωπικά του χαρακτηριστικά, τις ανάγκες του και τη φύση των εναλλακτικών επιλογών που του προσφέρονται. Κάθε µία από αυτές τις εναλλακτικές επιλογές περιγράφεται από μια σειρά χαρακτηριστικών, τα οποία τελικά οι μετακινούμενοι καλούνται να αξιολογήσουν κατά τη λήψη μίας απόφασης επιλογής. Επομένως για την περιγραφή των επιλογών του μετακινουμένου υπάρχει η ανάγκη ενός μοντέλου συμπεριφοράς, το οποίο θα περιγράφει τη σχέση μεταξύ της κοινωνικοοικονομικής κατάστασης του μετακινουμένου, των χαρακτηριστικών των εναλλακτικών επιλογών και της ζήτησης που έχουν. Ένα είδος μοντέλου συμπεριφοράς αποτελούν τα μοντέλα διακριτών επιλογών, τα οποία απορρέουν από τον κανόνα μεγιστοποίησης της ωφέλειας.
Στο πλαίσιο των μοντέλων διακριτών επιλογών, οι εναλλακτικές επιλογές θα πρέπει να πληρούν τρεις βασικές προϋποθέσεις:
• Η επιλογή μιας εναλλακτικής θα πρέπει να αποκλείει την επιλογή οποιασδήποτε άλλης εναλλακτικής.
• Το σύνολο των εναλλακτικών επιλογών θα πρέπει να είναι πλήρες. Δηλαδή θα πρέπει να περιλαμβάνει όλες τις εναλλακτικές για τις οποίες πρόκειται να ληφθεί µία απόφαση επιλογής.
• Το σύνολο των εναλλακτικών θα πρέπει να είναι πεπερασμένο. Τα μοντέλα διακριτών επιλογών, ανάλογα µε τον τρόπο αντιμετώπισης του προβλήματος επιλογής, κατηγοριοποιούνται σε αθροιστικά και εξατομικευμένα μοντέλα.
▪ Τα αθροιστικά μοντέλα προσεγγίζουν το πρόβλημα μακροσκοπικά, αξιοποιώντας τα χαρακτηριστικά στο σύνολο του πληθυσμού που εξετάζεται και υπολογίζοντας ποσοστά ή απόλυτα μεγέθη βάσει των μέσων χαρακτηριστικών του πληθυσμού.
▪ Τα εξατομικευμένα μοντέλα προσεγγίζουν το πρόβλημα μικροσκοπικά, αναλύοντας τα χαρακτηριστικά και τις επιλογές του κάθε μετακινουμένου ξεχωριστά και υπολογίζουν την πιθανότητα του κάθε μετακινουμένου µε συγκεκριμένα χαρακτηριστικά να πραγματοποιήσει μια συγκεκριμένη επιλογή. Σε αυτά τα μοντέλα χρησιμοποιείται η έννοια της ωφέλειας, η οποία εκφράζει την ελκυστικότητα κάθε εναλλακτικής επιλογής που έχει στη διάθεσή του ο μετακινούμενος.
Τα εξατομικευμένα μοντέλα παρουσιάζουν περισσότερα πλεονεκτήματα έναντι των αθροιστικών, καθώς αναλύουν τις επιλογές του κάθε μετακινουμένου ξεχωριστά. Αντίθετα, στα αθροιστικά µμοντέλα χρησιμοποιούνται μέσοι όροι και αναλύεται η μέση συμπεριφορά των μετακινούμενων. Αποτέλεσμα αυτού, είναι να χάνεται η πληροφορία της επιρροής των μετακινούμενων τη στιγμή της λήψης των αποφάσεών τους.
Εργαλεία Ανάλυσης
• Λογιστικά Φύλλα: Για απλές στατιστικές αναλύσεις, όπως ο υπολογισμός στατιστικών μεγεθών, η Ανάλυση Τεταρτημόριων και η Ανάλυση Αντίκτυπου, τα λεγόμενα λογιστικά φύλλα, είναι αρκετά. Προγράμματα, όπως τα Microsoft Excel, Apple Numbers και Open Office, είναι πολύ διαδεδομένα και καλύπτουν τις απαιτήσεις των αναλύσεων αυτών. Τα προγράμματα αυτά είναι ικανά να κάνουν και πιο σύνθετες αναλύσεις, ενώ παρέχουν εξαιρετικές μορφές παρουσίασης των παραγόμενων αποτελεσμάτων. Επιπλέον, ιδιαίτερα χρήσιμα είναι τα διαδικτυακά λογιστικά φύλλα, όπως το Google Sheets, καθώς παρέχουν τη δυνατότητα online ενημέρωσης των στοιχείων και απομακρυσμένη συνεργασίας μεταξύ των µελών της μελετητικής ή ερευνητικής ομάδας.
• Στατιστικά πακέτα: Σε περιπτώσεις εξειδικευμένων στατιστικών αναλύσεων, όπως η Ανάλυση Παραγόντων και το Πολυωνυµικό μοντέλο Logit, η χρήση στατιστικών πακέτων είναι απαραίτητη. Παρακάτω παρουσιάζονται ορισμένα από τα πλέον διαδεδομένα:
▪ SPSS: Είναι το πιο διαδεδομένο στατιστικό πακέτο, το οποίο έχει πολλές δυνατότητες όσον αφορά την επεξεργασία και την παρουσίαση των δεδομένων μιας επιστημονικής έρευνας, αλλά και μεγάλη αξιοπιστία.
▪ R: Είναι μια γλώσσα προγραμματισμού που χρησιμεύει κυρίως για ανάλυση δεδομένων και εφαρμογή διαφόρων «κλασικών» και σύγχρονων στατιστικών τεχνικών. Υποστηρίζει πολλές πλατφόρμες και λειτουργικά, όπως Linux, Mac OS και Windows. Μπορεί να χρησιμοποιηθεί είτε µε κατευθείαν εντολές που υπάρχουν είτε µε προγράμματα που ο χρήστης μπορεί να προγραμματίσει για επίλυση πιο πολύπλοκων στατιστικών προβλημάτων.
▪ Gnumeric: Είναι ένα στατιστικό πακέτο, το οποίο περιλαμβάνει πληθώρα τεχνικών περιγραφικής και επαγωγικής στατιστικής ανάλυσης.
▪ SSP: Είναι ένα στατιστικό πακέτο, το οποίο περιλαμβάνει όλες τις βασικές στατιστικές τεχνικές ανάλυσης δεδομένων.
Τρόποι παρουσίασης αποτελεσμάτων
Τα αποτελέσματα της στατιστικής ανάλυσης δεδομένων μπορούν να παρασταθούν γραφικά µε μια πλειάδα διαγραμμάτων και πινάκων. Παρακάτω παρουσιάζονται ορισμένες δόκιμες και αντιπροσωπευτικές μέθοδοι γραφικής αναπαράστασης των αποτελεσμάτων ποιοτικής και ποσοτικής ανάλυσης δεδομένων.
➢ Τομεόγραμμα: Το τοµεόγραµµα (piechart) χρησιμοποιείται συνήθως για την αναπαράσταση των ποσοστιαίων συχνοτήτων του πίνακα συχνοτήτων. Στο τοµεόγραµµα διαιρείται ένας κύκλος σε κυκλικούς τομείς µε εμβαδά ανάλογα προς τις σχετικές συχνότητες των επιλογών που διερευνώνται.
➢ Ραβδόγραμμα: Τα δεδομένα του πίνακα συχνοτήτων μπορούν να παρασταθούν γραφικά σε ένα ραβδόγραμμα (bar chart), όπου η κάθε ράβδος παρουσιάζει οποιαδήποτε συχνότητα για κάθε τιμή xi. Στο ραβδόγραμμα, οι κατηγορίες της μεταβλητής παρουσιάζονται στον έναν άξονα και οι αντίστοιχες συχνότητές τους στον άλλο άξονα, έπειτα κατασκευάζονται ορθογώνια πάνω από κάθε κατηγορία µε ύψος ίσο µε την αντίστοιχη συχνότητά της.
➢ Ιστόγραμμα: Το ιστόγραμμα (histogram) μοιάζει µε το ραβδόγραμμα, ωστόσο χρησιμοποιείται και για ποσοτικές μεταβλητές. Η κατασκευή ενός ιστογράμματος συχνοτήτων προϋποθέτει την ομαδοποίηση των δεδομένων σε κλάσεις, και εν συνεχεία τον σχηματισμό διαδοχικών ορθογώνιων, των οποίων οι βάσεις είναι τα διαστήματα των κλάσεων που δημιουργήθηκαν και το ύψος τους είναι ίσο µε τη συχνότητα των παρατηρήσεων στην αντίστοιχη κλάση. Στις περισσότερες περιπτώσεις δημιουργούνται κλάσεις ίδιου εύρους, οπότε τα ορθογώνια έχουν εμβαδά ανάλογα των αντίστοιχων συχνοτήτων.
➢ Θηκόγραμμα: Το θηκόγραμμα (boxplot) χρησιμοποιείται για την παρουσίαση των κυριότερων χαρακτηριστικών μιας κατανομής ενός δείγματος. Με το θηκόγραμμα δημιουργείται μια εποπτική εικόνα της κατανομής μιας μεταβλητής και εντοπίζονται τυχόν παράτυπα σημεία ή ακραίες τιμές.
Τέλος, αξίζει να αναφερθεί ότι πέρα των παραπάνω διαγραμμάτων υπάρχουν πολλές άλλες μορφές και τρόποι παρουσίασης δεδομένων και στατιστικών αποτελεσμάτων. Τα λογιστικά φύλλα και πολύ περισσότερο τα στατιστικά πακέτα παρέχουν μεγάλη ποικιλία διαγραμματικών μορφών ανάλογα µε το είδος της ανάλυσης που πραγματοποιείται κάθε φορά.
Συμπέρασμα
Οι αναφορές των αποτελεσμάτων είναι απαραίτητο να εκδίδονται και να είναι στη διάθεση του κοινού είτε µέσω των επίσημων ιστοσελίδων των οργανισμών αστικών συγκοινωνιών είτε µέσω έντυπων μέσων. Επίσης πρέπει να εκδίδονται περιοδικά δελτία τύπου µε τα κύρια αποτελέσματα των ερευνών, αλλά και ανακοινώσεις και επιστημονικές εργασίες µε συνέδρια, ημερίδες και άλλες εκδηλώσεις.
Βιβλιογραφία
Τυρινόπουλος, Γ. (2015). Ανάλυση Δεδομένων. Αθήνα: Σύνδεσμος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών. Διαθέσιμο στο: http://hdl.handle.net/11419/3566