, 20 Luglio 2022

Recensione di "The Clustering Project", un nuovo approccio allo scouting moderno


Alcuni spunti su "The Clustering Project", il libro scritto in collaborazione dal team di ricerca di Soccerment e Antonio Gagliardi.


Nelle scorse settimane ho avuto modo di leggere "The Clustering Project", il libro realizzato da Soccerment e Antonio Gagliardi che propone un approccio data-driven per la profilazione dei calciatori, allo scopo di integrare e migliorare le classiche metodologie di scouting.

Soccerment è una delle startup italiane più interessanti in ambito football analytics e si occupa sia di raccolta di dati attraverso innovativi dispositivi wearable che di analisi ed elaborazione di statistiche avanzate e metriche proprietarie, e ha recentemente lanciato la sua piattaforma per l'analisi dei dati su un sito web.

Antonio Gagliardi è uno dei massimi esperti di match analysis in Italia, per anni match analyst della Nazionale (anche nella vincente spedizione di Euro2020) e ora nello staff di Andrea Pirlo al Karagumruk dopo averlo seguito nella sua esperienza alla Juventus.

L'idea

Il claim principale del libro è una citazione di alcuni anni fa dello stesso Gagliardi, "Nel calcio moderno il ruolo non è più una posizione ma una funzione", ed è quello a cui stiamo effettivamente assistendo nelle ultime stagioni. Sempre più squadre scelgono giocatori con caratteristiche ed interpretazioni del "ruolo" molto specifiche e peculiari a seconda di cosa gli viene richiesto dal modello di gioco della squadra in termini di contributo e funzione da svolgere in campo. Gli esempi sono molti: difensori centrali aggressivi che tengono alta la linea o a loro agio nella costruzione bassa, terzini che si accentrano per consolidare il possesso o che al contrario portano la palla in conduzione fino alla trequarti, esterni offensivi dribblomani che giocano in ampiezza o che attaccano l'area e fungono da punte per compensare i movimenti dei compagni. E potremmo continuare a lungo.

A partire da questo concetto, l'idea sviluppata nel libro è brillante: provare a categorizzare i giocatori non secondo i classici ed anacronistici ruoli, ma farlo in base alle funzioni svolte sul campo e farlo in maniera quantitativa, basandosi su event data e posizionamento medio.

Per farlo viene utilizzato, a partire da dati opportunamente pre-eleborati e normalizzati, un algoritmo di clustering. L'intuizione del concetto di clustering viene spiegata in termini semplici e comprensibili anche da lettori non esperti, anche se forse sarebbe potuta essere un po' più dettagliata. In ogni caso si tratta di una tecnica che in informatica viene definita di "apprendimento non supervisionato", poichè a differenza di un processo di classificazione in cui le classi sono note, in questo caso l'algoritmo cerca di assegnare allo stesso cluster gli elementi tra loro più simili, senza sapere quali e quanti sono i gruppi. A seconda degli algoritmi è possibile stabilire a priori il numero di cluster in cui si vogliono suddividere i dati, ma in questo si è giustamente deciso di non farlo e di utilizzare degli appositi criteri per valutare, tra le soluzioni proposte dall'algoritmo, quella migliore.

Nelle prime pagine del libro vengono forniti ulteriori dettagli sulla scelta dell'algoritmo utilizzato, la fase di preparazione dei dati e i test fatti. Nel mio caso sarei stato interessato a leggere ancora più dettagli su come sono state scelte, implementate e testate le tecniche presentate nel libro, ma credo che sia stato giusto non inserire troppe informazioni per non appesantire la lettura ed inficiare l'esperienza di tutti i lettori senza un background tecnico o particolarmente esperti.

Con i riferimenti inseriti nel libro è comunque possibile per tutti documentarsi, ad esempio sul modello di clustering scelto (Bayesian Gaussian Mixture piuttosto dei classici algoritmi di K-Means o DBScan) o sulla tecnica di riduzione di dimensionalità utilizzata, permettendo al contempo ha chi ha già familiarità con questi concetti di capire subito di cosa si tratta e quali tecniche sono state utilizzate. Se ci si fosse addentrati molto in aspetti matematici, statistici ed informatici si sarebbe trattato di un prodotto completamente diverso e probabilmente con un target molto ridotto.

I dati

Due degli spunti che ho trovato più interessanti nel libro sono legati alla preparazione del dataset prima di applicare l'algoritmo di clustering.

Il primo: i classici dati normalizzati per 90 minuti vengono affiancati o sostituiti da quelli aggiustati per possesso, in particolare per il numero di tocchi fatti dai singoli giocatori, o nel caso delle statistiche difensive, per quelli fatti dagli avversari. Non si tratta di un approccio innovativo, visto che le statistiche vengono aggiustate per possesso da anni e si tratta di un tipo di aggiustamento abbastanza diffuso anche nella community di Twitter che tratta di football analytics, persino nella bolla italiana. Non è comunque una metodologia da dare per scontata per il pubblico mainstream, ed è importante che in questo libro venga presentata e spiegata in termini chiari e facilmente comprensibili.

Ho apprezzato poi molto la scelta delle features/statistiche da considerare. Spesso capita di imbattersi in analisi e visualizzazioni che mischiano indistintamente misure di qualità e di quantità, ad esempio la percentuale di contrasti vinti e il numero totale di pressioni tentate da un giocatore. Questo può andare bene in certi casi, ma non in questo, visto che lo scopo era quello di delineare i diversi stili di gioco dei giocatori e le loro caratteristiche, piuttosto che la loro efficacia. Ad esempio se per evidenziare le differenze di stile di gioco tra un centrale "marcatore" e uno più aggressivo ci si basa su "quanto e come pressano", non ha molto senso considerare le pressioni riuscite o il loro tasso di completamento. In questo caso è più interessante valutare il numero di pressioni tentate (aggiustate per possesso) o la percentuale di quelle svolte al di fuori del terzo di campo difensivo, per capire se un giocatore è effettivamente più o meno aggressivo in pressione o meno. Quando si cerca di interpretare dati e statistiche è sempre importante avere chiaro il contesto e lo scopo per cui lo si sta facendo: in questo caso deve essere chiara la differenza tra delineare le caratteristiche di un giocatore attraverso i numeri e valutarne l'efficacia in un qualche tipo di azione. Queste scelte sono comunque argomentate anche all'interno del libro, ma in ogni caso si è scelto di non utilizzare misure prettamente qualitative, come gli expected goals/assist/threat e le percentuali di riuscita delle diverse azioni proprio per questi motivi.

Il processo di clustering

Terminate le spiegazioni iniziali sulla costruzione del dataset e sul processo di clustering, ci si addentra nella discussione dei risultati ottenuti e dalle varie soluzioni proposte dall'algoritmo. Quella che è stata scelta ha prodotto 13 cluster, a cui sono poi stati associati dei nomi per facilitare l'interpretazione dei risultati:

  • Ball stopper
  • First line breaker
  • Build-up initiator
  • Wide controller
  • Wide creator
  • Ball stealer
  • Build-up director
  • Box-to-box rider
  • Chance creator
  • One-to-one explorer
  • Mobile finisher
  • All-round finisher
  • Target man

In alcuni casi il nome del cluster è quasi sovrapponibile a un classico "ruolo", come il Build-up director che viene presentato come il "regista". In altri si tratta effettivamente di definizioni di diversi stili e interpretazioni di uno stesso ruolo, come per Ball stopper, First line breaker e Build-up initiator, tre cluster composti quasi totalmente da difensori centrali, che rappresentano molto bene le differenze tra marcatori classici, centrali più aggressivi e registi difensivi.

Il clustering è stato applicato solo ai giocatori di movimento, poichè nonostante sia probabilmente possibile identificare più cluster anche per quanto riguarda i portieri, i dati non erano sufficienti per garantire una buona performance dell'algoritmo.

Leggende, star e wonderkids

Nella parte centrale del libro viene discuosso ognuno dei 13 cluster individuati, e per facilitare la comprensione delle caratteristiche dei giocatori che vi appartengono a ciascuno vengono associate due "leggende" del passato, una italiana e una straniera. Nei singoli capitoli dedicati ad ogni cluster vengono poi presentati due profili, una star (una sorta di archetipo del gruppo) e una rising star, per un totale di 26 giocatori.

Questa sezione del libro è interessante, soprattutto per la scelta di alcuni giocatori, ed è probabilmente quella che solleticherà maggiormente l'interesse della maggior parte dei lettori, anche se in alcuni tratti ho constatato una certa ripetitività nella presentazione dei numeri e nella trattazione dei singoli profili.

Menzione speciale per le illustrazioni dei 4 esponenti di ogni cluster prima di ogni capitolo, davvero riuscite

Un altro aspetto molto interessante è legato a quelli che gli autori definiscono "profili di ibridazione". L'algoritmo di clustering scelto infatti non associa a ciascun giocatore uno e un solo cluster, ma una probabilità di appartenenza a ciascuno di quelli individuati. Nella maggior parte dei casi un giocatore appartiene a un cluster con una probabilità molto più alta rispetto agli altri, ma ci sono anche molti calciatori che possono essere associati due o più cluster con probabilità rilevanti. Un esempio che viene riportato nel libro è Kylian Mbappé, che l'algoritmo individua come un ibrido tra Mobile-finisher e One-to-one explorer.

Le squadre

Nella parte finale del libro viene messa in relazione la composizione delle rose di alcune squadre con i cluster assegnati ai giocatori che ne fanno parte, oltre ad alcune considerazioni di carattere generale. Non soprende ad esempio scoprire che nella rosa del Manchester City sono quasi assenti giocatori appartenenti ai cluster degli "attaccanti", e quelli che ci sono vengono identificati come "Mobile finisher", o che tra i difensori dell'Atalanta ci sia una prevalenza di "First-line breaker" piuttosto che "Ball stopper" e "Build-up initiator".

La composizione della rosa del City secondo il clustering

Vengono poi discusse le principali differenze che emergono nelle composizioni delle rose delle grandi squadre rispetto a quelle più piccole. Ad esempio le prime hanno percentuali maggiori di Build-up initiator e Wide creator tra i difensori, o di One-to-one explorer e All-round finesher tra i giocatori offensivi, mentre le squadre di livello inferiore tendono ad appoggiarsi maggiormente su interpretazioni più "tradizionali" dei ruoli, come quelle di Ball-stopper, Wide controller e Target man.

My 2 cents

In conclusione il giudizio su "The Clustering Project" non può che essere positivo. Il libro è scritto da esperti di alto livello e parte da un'idea di fondo interessante che viene sviluppata applicando con competenza tecniche moderne. Il lettore meno esperto troverà un ottimo testo per affacciarsi al mondo delle statistiche applicate al calcio, mentre gli appassionati troveranno comunque alcuni spunti molto interessanti e una lettura molto godibile.

Questo libro si propone come un ottimo strumento di divulgazione per tutto il movimento delle statistiche e della football analytics, soprattutto per il contesto italiano dove queste tematiche incontrano ancora una certa resistenza (eufemismo) tra media e pubblico mainstream. L'utilizzo dei dati e delle statistiche viene presentato per quello che deve essere: uno strumento sempre a supporto (e mai un sostituto) delle competenze umane e non un nemico del gioco da demonizzare. Prima queste idee riusciranno ad attecchire, prima il dibattito sull'argomento potrà fare un salto di qualità, ed è importante che sempre più contenuti di questo genere possano raggiungere il grande pubblico, soprattutto quando di qualità come in questo caso.

Ultima nota a margine: solitamente per questo tipo di contenuti preferisco la lingua originale, che per qualche ragione ho supposto fosse la versione italiana, che ho acquistato. Credo di aver sbagliato perchè in alcuni passaggi mi è sembrato abbastanza chiaramente di stare leggendo una traduzione italiana di un testo originale in inglese. Col senno di poi avrei preso l'altra versione.

  • Nato a Forlì nel 1994. Laureato in Ingegneria Informatica e ora ricercatore presso l'Università di Bologna. Amante del calcio, malato di Inter e fantacalcio, tenta ostinatamente di razionalizzare il gioco attraverso numeri e statistiche, ma rimane piacevolmente incantato dalla sua irrazionale imprevedibilità.

Ti potrebbe interessare

Dallo stesso autore

Associati

Banner associazioni

Newsletter

Campagna Associazioni a Sportellate.it
Sportellate è ufficialmente un’associazione culturale.

Associati per supportarci e ottenere contenuti extra!
Associati ora!
pencilcrossmenu