Με τη στατιστική ανάλυση δημοσίως διαθέσιμων δεδομένων, που χρονολογούνται από το 2000 ως τις αρχές Μαρτίου 2020 και τα οποία αφορούν επιδόσεις, κέρδη και χαρακτηριστικά 1.602 διεθνών αθλητών του τένις, προσπαθούμε να απαντήσουμε στο ερώτημα πού «στέκεται» ο Στέφανος Τσιτσιπάς στη διεθνή σκηνή του αθλήματος και ποια θα είναι η πορεία της καριέρας του τα επόμενα χρόνια.
Το iMEdD Lab βάζει στο μικροσκόπιο το φαινόμενο «Tsi-tsi fast» και εφαρμόσαμε απλές τεχνικές μηχανικής μάθησης και στατιστικής, για να δούμε με ποιους αθλητές μοιάζει ο 22χρονος διεθνής και πώς θα διαμορφωθεί η πορεία του την επόμενη δεκαετία.
Είναι ο πρώτος Έλληνας τενίστας που έχει ενταχθεί στη λίστα με τους 100 καλύτερους επαγγελματίες αθλητές του τένις στον κόσμο, μετά από άλμα εκατοντάδων θέσεων. Μεταξύ άλλων, έχει νίκες επί της «Big 3» (Νόβακ Τζόκοβιτς, Ρότζερ Φέντερερ, Ραφαέλ Ναδάλ) στο ενεργητικό του και τον τίτλο του Nitto ATP Finals στην τροπαιοθήκη του –τον Νοέμβριο 2019 θριάμβευσε στην O2 Arena στο Λονδίνο. Έναν χρόνο αργότερα, ο 22χρονος Στέφανος Τσιτσιπάς, που έχει κάνει τους Έλληνες να βλέπουν τένις και τη διεθνή ελίτ του αθλήματος να έχει σημείο αναφοράς στη χώρα μας, βγήκε ηττημένος από τον ίδιο χώρο, στην κεκλεισμένων των θυρών πρεμιέρα του ATP Finals 2020, «πέφτοντας», προς ώρας, από την έκτη στην έβδομη θέση στην παγκόσμια κατάταξη και αφήνοντας τους φίλους του αθλήματος να αναρωτιούνται σε ποια θέση θα τον βρει το κλείσιμο της φετινής σεζόν.
Ως προς την τελευταία, η προσέγγισή μας εστιάζει στις θέσεις που εκτιμάται ότι ο Τσιτσιπάς θα κατέχει στην παγκόσμια κατάταξη, ενώ η ανάλυση των δεδομένων βασίζεται σε παραμέτρους όπως η έως σήμερα κατάταξη των αθλητών, η φυσική και επαγγελματική ηλικία τους, οι επιδόσεις τους σε διαφορετικές επιφάνειες, το πλήθος των τίτλων τους οποίους έχουν κατακτήσει, τα χρήματα που έχουν κερδίσει αλλά και τεχνικά χαρακτηριστικά τους, όπως το «backhand».
Η συλλογή πρωτογενών στοιχείων έγινε τον Μάρτιο 2020 από την ιστοσελίδα Ultimate Tennis Statistics, η οποία φέρει Creative Commons άδεια χρήσης (CC BY-NC-SA 4.0) και βασίζεται σε ανοιχτά λογισμικά τα οποία είναι διαθέσιμα στο GitHub. Η διαδικασία επεξεργασίας των εν λόγω στοιχείων που συγκεντρώθηκαν και ολόκληρη η ανάλυση των δεδομένων περιγράφεται αναλυτικά, βήμα προς βήμα, στην αντίστοιχη δημοσίευση για τη Μεθοδολογία εργασίας.
Με «εχθρούς» και πρότυπά του μοιάζει ο Τσιτσιπάς
Ως εντυπωσιακή ομοιότητα μεταξύ του Στέφανου Τσιτσιπά και του σχεδόν συνομηλίκου του Γερμανού, Αλεξάντερ Ζβέρεφ, προκατόχου του Nitto ATP Finals (2018) και προς ώρας έκτου στην παγκόσμια κατάταξη (ως αποτέλεσμα της ήττας Τσιτσιπά στη φετινή πρεμιέρα του Nitto ATP Finals), αναγνωρίζεται από τη μέθοδό μας ο αδιαφιλονίκητος ανταγωνισμός τους, ο οποίος έχει κατά καιρούς απασχολήσει τον Τύπο.
Με τα πρότυπά του, τον Ελβετό Σταν Βαβρίνκα (είχε αποκλείσει, αλλά και αποθεώσει, τον Τσιτσιπά από το Ρολάν Γκαρός τον Ιούνιο 2019) και τον Αργεντινό Χουάν Μάρτιν ντελ Πότρο, επίσης, μοιάζει ο «Stef» –όπως και με τον Αυστριακό Ντόμινικ Τιμ, ο οποίος έφυγε ηττημένος από τον Τσιτσιπά από τον τελικό του Nitto ATP Finals το 2019, αλλά βγήκε νικητής επί του Έλληνα αθλητή στην πρεμιέρα τους στο Nitto ATP Finals το 2020, στις 15 Νοεμβρίου.
Νταβίντ Φερέρ, Τόμας Μπέρντιχ, Μαρίν Τσίλιτς, Κέι Νισικόρι και Μίλος Ράονιτς (απέκλεισε τον Τσιτσιπά στο Αυστραλιανό Όπεν τον Ιανουάριο 2020 και στο Σινσινάτι τον Αύγουστο 2020) συμπληρώνουν την ομάδα όμοιων παικτών («cluster»), στην οποία ανήκει ο Στέφανος Τσιτσιπάς, σύμφωνα με τα στατιστικά μοντέλα που εφαρμόσαμε.
Αναλύοντας τα δεδομένα 1.602 παικτών, διακρίναμε τους αθλητές σε 150 διαφορετικές ομάδες («clusters»), κατηγοριοποιώντας τους σε αυτές με βάση τη μεταξύ τους ομοιότητα, όπως αυτή προέκυψε από τη στατιστική μέθοδο που αναπτύξαμε.
Το παρακάτω αραχνοειδές διάγραμμα (στα αγγλικά, λεγόμενο ως «spider plot», «radar plot» ή «polar plot») παρουσιάζει τους αθλητές που θεωρούνται περισσότερο όμοιοι με τον Στέφανο Τσιτσιπά και οι οποίοι έχουν κατηγοριοποιηθεί στην ίδια ομάδα με εκείνον. Παράλληλα, αποτυπώνονται τα χαρακτηριστικά μελέτης και η ομοιότητα των αθλητών ως προς καθένα από αυτά –όσο περισσότερο τα επιμέρους σχήματα των παικτών τείνουν να εφάπτονται, τόσο περισσότερο οι τενίστες μοιάζουν μεταξύ τους.
Μπορείτε να αποεπιλέξετε αθλητές ή/και να επιλέξετε να προβάλλετε συγκεκριμένους αθλητές, προκειμένου να τους συγκρίνετε: όσο πιο «έξω», όσο πιο κοντά στην περίμετρο του κύκλου, είναι οι κορυφές των πολυγώνων, τόσο «καλύτερος» είναι ο παίκτης –εξαίρεση, η φυσική και επαγγελματική ηλικία, η οποία θεωρείται ουδέτερο χαρακτηριστικό και ισχύει ότι όσο πιο κοντά στην περίμετρο του κύκλου βρίσκεται η αντίστοιχη κορυφή τόσο μεγαλύτερος είναι ο παίκτης.
Ενδεικτικά, Τσιτσιπάς και Ζβέρεφ φαίνεται να είναι σχεδόν πανομοιότυποι, με τον τελευταίο να υπερέχει ως προς το «backhand» και, ελαφρώς, ως προς το ποσοστό επιτυχίας του στις διάφορες αγωνιστικές επιφάνειες. Αντίθετα, ο Τσιτσιπάς έχει καλύτερες επιδόσεις ως προς το πλήθος των τίτλων που έχει κατακτήσει, αναλογικά με τη διάρκεια της επαγγελματικής πορείας του [βλ. «Τίτλοι (std)»]. Μάλιστα, ο Τσιτσιπάς υπερέχει, ως προς τον προσαρμοσμένο αριθμό τίτλων, έναντι κάθε άλλου αθλητή της ομάδας του, όπως διαπιστώνεται στην πλήρη σύνθεση του γκρουπ. Είναι, άλλωστε, ο νεότερος, με διαφορά (μαζί με τον Ζβέρεφ), αλλά εκείνος που ξεκίνησε μεγαλύτερος το επαγγελματικό τένις. Το «φαινόμενο Tsi-tsi fast», όπως τον αποκαλούν, αποτυπώνεται και στο διάγραμμα: ο Στέφανος Τσιτσιπάς ξεχωρίζει για το άλμα που έκανε αμέσως στην παγκόσμια κατάταξη (βλ. «Άλμα θέσεων 1» για τη διαφορά θέσεων μεταξύ της πρώτης και της δεύτερης αγωνιστικής σεζόν του), με τον Μίλος Ράονιτς να είναι ο μοναδικός, από το γκρουπ, που τον ξεπερνά ελαφρώς.
Στο γράφημα, επίσης, δίνεται η δυνατότητα σύγκρισης της ομάδας Τσιτσιπά με τους κορυφαίους των κορυφαίων, Ραφαέλ Ναδάλ και Ρότζερ Φέντερερ: με την ενεργοποίηση των γραμμών που αντιστοιχούν στους τελευταίους, φαίνεται ξεκάθαρα πόσο οι δυο τους μοιάζουν μεταξύ τους, αλλά διαφέρουν σημαντικά από τον Στέφανο Τσιτσιπά και τους ομότιμούς του, προς το παρόν.
Κέρδη, τίτλοι και γήπεδα ομαδοποιούν τους αθλητές
Η μέθοδος της ανάλυσης των δεδομένων, που ακολουθήσαμε για την εύρεση όμοιων παικτών, ομαδοποιεί τους αθλητές με βάση τα εξής: τις ποσοστιαίες επιτυχίες τους σε διαφορετικές αγωνιστικές επιφάνειες (σκληρά γήπεδα, τάπητας, χόρτο) και τη σχέση αυτών με τη θέση τους στην παγκόσμια κατάταξη, τους τίτλους που έχουν κερδίσει σε σχέση με τα χρόνια που είναι ενεργοί, και τις συνολικές αμοιβές βραβείων σε σχέση με μία σειρά από παραμέτρους, όπως οι αγωνιστικές σεζόν, η επαγγελματική ηλικία τους και η υψηλότερη θέση που έχουν επιτύχει. Παρακάτω, παρατίθενται ενδεικτικά γραφήματα που αποτυπώνουν την εν λόγω ομαδοποίηση των παικτών.
Παράλληλα, το ενδιαφέρον είναι ότι η «ομάδα ομοιότητας» («cluster»), στην οποία ανήκουν ο Ρότζερ Φέντερερ και Ραφαέλ Ναδάλ απαρτίζεται αποκλειστικά από τους ίδιους –αποτέλεσμα που μπορεί να αναγνωστεί τόσο ως απεικόνιση του αντιληπτού της μοναδικής επιτυχίας τους όσο και ως επιβεβαίωση ότι το μοντέλο έχει προβεί σε εύλογες ομαδοποιήσεις.
Η «χρυσή» δεκαετία έχει μόλις ξεκινήσει
Είναι σαφές ότι τα καλύτερα επαγγελματικά χρόνια τού Στέφανου Τσιτσιπά είναι ήδη σε εξέλιξη. Για την εκτίμηση της διαδρομής που θα ακολουθήσει η καριέρα του στο μέλλον και με δεδομένο ότι ο ίδιος μετρά πέντε χρόνια επαγγελματικής πορείας, επιλέχθηκε να προβλεφθούν οι θέσεις τις οποίες ο Τσιτσιπάς θα κατέχει στην παγκόσμια κατάταξη, ανά έτος, ως το 2030.
Για τον σκοπό αυτό, μετά την ομαδοποίηση των αθλητών με βάση τον βαθμό ομοιότητάς τους, δημιουργήθηκε μοντέλο πρόβλεψης με τη στατιστική τεχνική του δειγματικού μέσου:
Προβλέπουμε τις επιδόσεις του αθλητή, για τα επόμενα δέκα χρόνια, με βάση τον μέσο όρο των πραγματικών επιδόσεων όμοιων παικτών, δηλαδή αθλητών από την ίδια ομάδα («cluster»), οι οποίοι, όμως, έχουν περισσότερα χρόνια καριέρας.
Πριν από την εφαρμογή του μοντέλου στην περίπτωση του Τσιτσιπά, έγινε δοκιμαστική εφαρμογή του σε άλλους αθλητές τού γκρουπ του: συγκεκριμένα, με τη χρήση των δεδομένων τους από την πρώτη πενταετία της καριέρας τους, κάναμε «ψευδοπροβλέψεις» για τα υπόλοιπα δέκα έτη της επαγγελματικής διαδρομής τους, τις οποίες συγκρίναμε με τα πραγματικά δεδομένα των θέσεών τους στην παγκόσμια κατάταξη. Κατ’ αυτόν τον τρόπο, υπολογίζεται και εικονίζεται το περιθώριο λάθους των προβλέψεών μας, οι οποίες αξίζει να ιδωθούν εστιάζοντας στην εκτιμώμενη άνοδο ή κάθοδο Τσιτσιπά ανά τα χρόνια –και όχι στον συγκεκριμένο αριθμό θέσης που φέρεται ότι ο ίδιος θα κατέχει στην παγκόσμια κατάταξη ανά έτος.
Η «χρυσή» δεκαετία φαίνεται να έχει μόλις ξεκινήσει για τον Στέφανο Τσιτσιπά, ο οποίος εκτιμάται ότι θα μείνει στο top-10 της παγκόσμιας κατάταξης ως το 2029, φτάνοντας στην κορυφή της καριέρας του σε περίπου επτά χρόνια από τώρα: συγκεκριμένα, προβλέπεται ότι ο ίδιος θα είναι στην έκτη θέση (μέση πρόβλεψη) το 2027 –με τις προβλέψεις να κινούνται από την πέμπτη ως την έβδομη θέση, ως ύψιστη και ελάχιστη εκτίμηση αντίστοιχα για το ίδιο έτος. Επίσης, προβλέπεται άνοδος Τσιτσιπά στην πέμπτη θέση (μέση πρόβλεψη) της παγκόσμιας κατάταξης έναν χρόνο αργότερα, για να κατακτήσει, τελικά, την τέταρτη θέση (μέση εκτίμηση) το 2029 –πριν να αρχίσει η καθοδική πορεία, η οποία αποτυπώνεται στο τελευταίο έτος των προβλέψεων.
Πώς έγινε η ανάλυση
H μεθοδολογία της ανάλυσης περιλαμβάνει τρία βασικά στάδια: Αρχικά, χρησιμοποιήσαμε όλα τα διαθέσιμα δεδομένα για τις θέσεις των αθλητών στην παγκόσμια κατάταξη, τα κέρδη τους και τα διαφορετικά χαρακτηριστικά τους (δημογραφικά και τεχνικά): αξιοποιώντας τα στοιχεία αυτά, υπολογίσαμε την ομοιότητα κάθε πιθανού ζεύγους παικτών μεταξύ 1.602 αθλητών.
Στη συνέχεια, με τη χρήση της τεχνικής για ανάλυση συστάδων («cluster analysis»), κατηγοριοποιήσαμε τους παίκτες ανά ομάδες, σύμφωνα με τον βαθμό ομοιότητάς τους. Στο τέλος, προβλέψαμε τις θέσεις του Στέφανου Τσιτσιπά στην παγκόσμια κατάταξη την επόμενη δεκαετία, με βάση την πορεία των εμπειρότερων ομοίων του –δηλαδή, των παικτών που τοποθετούνται στο ίδιο γκρουπ («cluster») με τον Τσιτσιπά και οι οποίοι έχουν περισσότερα χρόνια επαγγελματικής καριέρας από τον ίδιο. Για τους σκοπούς δοκιμαστικής εφαρμογής του μοντέλου, επιλέξαμε τέσσερις από εκείνους, για τους οποίους έγιναν «ψευδοπροβλέψεις», καταλήγοντας στο περιθώριο λάθους. Αναλυτικές πληροφορίες σχετικά με τη στατιστική ανάλυση και τη δημιουργία του μοντέλου πρόβλεψης παρέχονται στη σχετική δημοσίευση για τη Μεθοδολογία εργασίας.
Σημειώνεται ότι η δημιουργία ενός πολυμεταβλητού μοντέλου θα ήταν χρήσιμη, για ακόμα περισσότερο ρεαλιστικές προβλέψεις σε ανάλογο εγχείρημα στο μέλλον: στο τένις, η πορεία του αθλητή εξαρτάται σημαντικά από τη διαδρομή των αντιπάλων του. Με το παρόν μοντέλο, υφίσταται η υπόθεση εργασίας ότι ένας παίκτης p θα ακολουθήσει πορεία όμοια με τους n ομοίους του, χωρίς να είναι δεδομένο ότι οι αντίπαλοί του θα έχουν επιδόσεις όμοιες με εκείνες των αντιπάλων των ομοίων n που εδώ λαμβάνονται υπόψη.
Το παρόν είναι αποτέλεσμα συνεργασίας του iMEdD Lab με την ερευνητική ομάδα AUEB Sports Analytics Group, στόχος της οποίας είναι η προαγωγή της υλοποίησης ποσοτικής ανάλυσης υψηλού επιπέδου στα σπορ, σε ακαδημαϊκό και επαγγελματικό επίπεδο. Η ομάδα εργάζεται στον τομέα των λεγόμενων «Sports Analytics», περιλαμβανομένων θεμάτων όπως η δημιουργία στατιστικών μοντέλων και η πρόβλεψη αθλητικών αποτελεσμάτων, τα οικονομικά των σπορ, η ανάλυση απόδοσης, η οπτικοποίηση και η μέτρηση της ανταγωνιστικής ισορροπίας.