Dal calcio giocato un algoritmo per la scienza


Il calcio giocato a disposizione della scienza: il dataset unico realizzato all’interno del progetto SoBigData

La comunità che si occupa di sports analytics, la branca della scienza dei dati che si occupa dell’analisi di prestazioni sportive, ha da oggi a disposizione un dataset unico nel suo genere, il più grande mai rilasciato al pubblico. Grazie alla collaborazione, infatti, tra Cnr, Università di Pisa e Wyscout/Hudl, è stata resa pubblica una notevole serie di dati relativi al mondo del calcio giocato. Una stagione completa per tutti i principali campionati europei, oltre alle ultime edizioni di europei e mondiali: per tutte queste competizioni, sono disponibili al pubblico i dati relativi ad ogni singola giocata (o evento) effettuata sul campo da un calciatore. Questo tipo di dato sul calcio giocato, chiamato soccer-logs, è raccolto da Wyscout/Hudl e per la prima volta è liberamente accessibile alla comunità scientifica.

Il dataset -realizzato all’interno del progetto SoBigData- è stato pubblicato dalla prestigiosa rivista internazionale Nature Scientific Data, ed è disponibile a questo indirizzo: https://www.nature.com/articles/s41597-019-0247-7. Nell’articolo sono illustrate le principali metodologie di analisi conducibili su questo tipo di dati, incluso l’algoritmo PlayeRank, sviluppato da ricercatori di Cnr-Isti, Università di Pisa e Wyscout/Hudl e recentemente pubblicato sulla rivista ACM Transaction on Intelligent Systems and Technology.

PlayeRank permette di analizzare e confrontare le performance di ogni calciatore presente nel dataset, utilizzando tecniche di Intelligenza Artificiale per comprendere l’importanza di ogni singolo evento presente nei dati. L’algoritmo ha consentito agli scienziati di identificare giovani talenti italiani, come Moise Kean e Sebastiano Esposito, prima della loro ‘esplosione’ mediatica. Anche il codice sorgente di Playerank è open source, disponibile su github insieme ad un tutorial interattivo che mostra come acquisire il dataset pubblico ed applicare, passo passo, l’algoritmo di valutazione della performance. Il dataset è stato utilizzato, recentemente, dai partecipanti della seconda edizione di Soccer Data Challenge, organizzata all’interno del Festival dello Sport di Trento.