Breve guida alle statistiche avanzate
Una brevissima introduzione alle tante sigle utili per comprendere meglio le stats.
Cari lettori,
questo è il primo episodio di Numero!, una nuova newsletter che si aggiunge al pacchetto di contenuti compresi nell'associazione a Sportellate. So che avrei dovuto dire che è il primo numero di Numero!, ma so anche che la comicità basata sui giochi di parole non piace più a nessuno. In più mi riesce davvero difficile scherzare su questo titolo.
Subito dopo aver saputo della nascita di questa newsletter, uno dei miei primi pensieri è stato: “Speriamo che non mi facciano scegliere il titolo”. La creatività è difficile. Poi ho dovuto deciderlo per davvero, e dopo tanto pensare ho scelto questo titolo per un motivo ben preciso. In questo spazio si parlerà tanto di dati e statistiche, e il riferimento ai numeri è perfetto, ma una chiave di lettura importante si nasconde anche in quel punto esclamativo finale, quel “numero!” che abbiamo sentito centinaia di volte gridato da un telecronista con sano stupore davanti a una giocata più o meno spettacolare, che mi riporta alle più profonde radici della passione per il gioco del calcio.
Perchè quello che mi piacerebbe riuscire a fare in questo spazio è di non cadere (quasi) mai nella tentazione di parlare di numeri con la scusa del calcio, ma cercare sempre di parlare di calcio con l’aiuto dei numeri.
Quello che mi spinge a farlo è la ferma convinzione che questo modo di pensare, vedere e parlare di calcio mi abbia permesso non solo di migliorare la mia comprensione del gioco ma in generale il mio modo di vivere e rapportarmi con il calcio, senza inficiare le componenti di emotività, passione e irrazionalità che ci spingono a seguirlo.
Da qui il desiderio di condividere questo approccio con più persone possibili.
Dopo questi evitabili e prolissi preamboli, che sono sicuro perdonerete essendo il primo numero (!) di questa newsletter, veniamo al contenuto di oggi.
Preparando questo primo episodio mi sono trovato a pensare a lungo a quale potesse essere l’argomento più catchy e interessante da trattare per farvi irrimediabilmente innamorare di questa newsletter: formule complicate, modelli di machine learning, grafici densi di informazioni.
Mi è stato poi fatto giustamente notare che non siamo nella bolla di nerd di Twitter, e che l’idea è raggiungere un pubblico il più vasto possibile, che non ha necessariamente già letto di statistiche avanzate e dati. Per questo ho deciso nel primo episodio di partire effettivamente dalle basi, introducendo i principali strumenti, in termini di statistiche e grafici, che vengono utilizzati nella football analytics. Probabilmente per chi conosce già l’argomento o ha letto qualcosa in passato sarà un po’ ripetitivo, ma consideratelo un utile ripasso: è importante fornire a tutti gli elementi e strumenti di base su cui costruiremo tutti i successivi concetti nei prossimi episodi.
Gli expected goals
Senza dubbio la metrica avanzata più nota, ormai abitualmente (e a volte goffamente) utilizzata anche dai media mainstream, sono gli expected goals. Gli xG attribuiscono a ciascun tiro un valore tra zero e uno che rappresenta la probabilità di diventare gol, dove zero rappresenta l'impossibilità e uno l'evento certo. Questo valore dipende dalle variabili tenute in considerazione dal modello di expected goals utilizzato e dal set di dati utilizzato in fase di costruzione o addestramento del modello.
Un aspetto molto importante: a seconda del fornitore di dati (e quindi del modello utilizzato), allo stesso tiro possono essere associati valori di xG sensibilmente diversi.
I primissimi modelli pubblicati erano piuttosto semplici, ad esempio alcuni si limitavano a discretizzare lo spazio del campo di gioco in diverse aree, ciascuna con una diversa probabilità di segnare, e di conseguenza a tutti i tiri scagliati dalla stessa porzione di campo era associato il medesimo valore di xG.
Col tempo i modelli si sono evoluti, includendo sempre più variabili. Tra i parametri oggi più comunemente considerati troviamo:
- posizione di tiro (distanza e angolo dalla porta)
- tipo di tiro (di piede, di testa, …)
- tipo di assist (cross, passaggio filtrante, …)
- game state
- fattore campo
I modelli più avanzati presentati negli ultimi anni hanno iniziato a tenere conto di nuovi aspetti, come la posizione del portiere o di eventuali altri giocatori rispetto al tiratore, aggiungendo un'informazione di contesto molto importante. Ovviamente a parità di posizione e tipo di tiro, calciare a porta vuota o con portiere e/o difendenti a coprire lo specchio è molto diverso. Per semplificare, un esempio classico è quello dei calci di rigore: tutti i penalty vengono tirati nelle stesse condizioni (posizione e tipo di tiro), e visto che statisticamente vengono segnati circa 3 rigori su 4, a seconda dei modelli il valore di xG di un rigore varia da 0,76 a 0,79.
Riassumendo, gli expected goals stimano la pericolosità di ciascun tiro a partire da una serie di variabili nel momento in cui viene scagliato (pre-tiro). Il valore di xG di un singolo tiro ha significato, ma solitamente questo dato viene aggregato per giocatori o squadre.
Ad esempio, sommando gli xG di tutti i tiri effettuati da una squadra durante una o più partite si ottiene una stima della pericolosità offensiva prodotta a prescindere dai gol effettivamente segnati e in modo più accurato rispetto, ad esempio, al semplice numero di tiri totali o di tiri in porta.
Solitamente si considerano i non-penalty expected goals (npxG), ovvero gli xG escludendo il contributo dato dai calci di rigore. Un ulteriore possibile raffinamento di questo dato sono gli open-play xG, che considerano solo gli xG derivanti da tiri su azione, eslcudendo quindi tutti i tiri che derivano da situazioni da fermo.
Gli xG possono essere utilizzati anche per stimare la performance difensiva di una squadra a prescindere dai gol incassati: per farlo è sufficiente sommare i valori di xG di tutti i tiri concessi agli avversari, ottenendo una misura del volume e della pericolosità delle occasioni concesse.
Combinando i npxG creati e quelli concessi si può quindi ottenere una stima dei livelli di performance difensiva ed offesiva prodotti da una squadra.
In questo grafico sull'asse x sono riportati i npxG creati, mentre su quello delle y i npxG concessi. Più a destra si trova una squadra nel grafico, più è stata pericolosa con i suoi tiri. Come spesso viene fatto in queste visualizzazioni, l'asse y è stato invertito, quindi le squadre che si trovano della parte alta del grafico sono quelle che hanno concesso meno occasioni. Combinando le due cose, le squadre statisticamente migliori della Serie A si trovano in alto a destra, mentre le peggiori in basso a sinistra.
Per sintetizzare ulteriormente la valutazione delle performance di una squadra, un buon indicatore è la differenza tra npxG creati e concessi. Una squadra che crea molto più di quanto concede genererà un delta positivo, al contrario una squadra con molti più nxpG subìti che prodotti evidenzierà una differenza negativa.
Queste differenze sono riportate nel grafico a barre, che evidenzia ad esempio come il Napoli sia stata finora la squadra con il differenziale migliore, mentre la Cremonese quella con il delta più negativo.
Un altro utilizzo interessante degli xG è l'osservazione dello sviluppo dei dati rispetto al tempo, che permette di osservare le variazioni e i possibili trend in termini di prestazioni offensive o difensive, a seconda che si tratti di npxG creati o concessi.
In questo grafico è rappresentata la media mobile a 10 periodi dei npxG creati (linea verde) e concessi (linea rossa) nell'ultima stagione e mezzo dal Milan. L'interpretazione del grafico è abbastanza intuitiva: finchè la linea verde si mantiene al di sopra di quella rossa, la squadra crea più di quanto concede. In questo caso ad esempio si può notare come le due linee del Milan si fossero pericolosamente avvicinate nella parte centrale della scorsa stagione, quando la squadra di Pioli era stata superata dall'Inter e sembrava in difficoltà. L'utilizzo della media mobile al posto del dato puntuale è un espediente utile per "ammorbidire" un po' le linee rispetto ai picchi che si possono verificare, in un senso o nell'altro, sulla singola partita.
Oltre a fornire una stima del volume di occasioni create o concesse, gli xG sono utili anche quando messi in relazione con le reti effettivamente realizzate o subìte.
Se una squadra o un giocatore riescono a segnare più gol di quanto atteso dal modello degli expected goals si otterrà una situazione di overperformance, al contrario un'underperformance.
Questo tipo di analisi ha senso sia aggregando i dati per squadra che osservando i singoli giocatori.
Nel primo è caso è possibile visualizzare quali squadre stanno overperformando rispetto alle occasioni costruite, o al contrario stanno segnando meno delle attese statistiche.
Se invece il focus dell'analisi è sui singoli giocatori, un modo semplice di evidenziare l'overperformance è mettere in relazione npxG e non-penalty gol, ovvero i gol segnati escludendo i rigori. Nel grafico, i giocatori che si trovano al di sopra della linea diagonale sono overperformer, mentre quelli al di sotto hanno segnato meno gol delle attese. Ovviamente i due grafici precedenti sono strettamente legati.
Come abbiamo visto il Napoli è la squadra che ha maggiormente overperformato rispetto ai propri npxG, mentre la Roma è quella che ha avuto più difficoltà a finalizzare le proprio occasioni. Guardando alle prestazioni dei singoli giocatori, in questo caso è piuttosto evidente la differenza fatta in termini realizzativi dagli attaccanti: a partire da un volume molto simile di npxG (linea verticale), Osimhen ha segnato 9 gol escludedo i rigori, mentre Abraham solo 3.
Gli xG assistiti (o expected assist)
Gli expected goals assistiti (spesso riferiti come expected assist), sono un'applicazione degli xG utile per stimare le performance di rifinitura dei giocatori. Il valore di xG assistiti di ogni giocatore è dato dalla somma degli xG dei tiri scaturiti dai propri passaggi. Seguendo la stessa logica degli xG, anche per gli xG assistiti è possibile overperformare, nei casi in cui si realizzino più assist rispetto agli xG assistiti stimati dai modelli. Ovviamente in questo senso risulta determinante la capacità di finalizzazone dei compagni che ricevono i passaggi, e con questo metodo non vengono considerati i passaggi a cui non segue un tiro, ad esempio perchè il destinatario non riesce a concludere a rete.
Da considerare anche il peso dei calci da fermo: spesso i migliori giocatori per xG assistiti totali sono i battitori di angoli e punizioni, quindi per valutare le capacità di rifinitura può essere interessante considerare solo gli xG assistiti in open-play.
I post-shot xG e i portieri
Tutto ciò che gli xG ci dicono fa riferimento al momento in cui il tiro viene scagliato: ciò che accade dopo, ad esempio se la palla finisce nello specchio della porta o meno, non viene considerato. A questo scopo sono stati introdotti gli expected goals post-tiro, che ha seconda del fornitore dati possono essere chiamati "post-shot xG" o "xG on target".
I modelli di psxG attribuiscono un valore solo ai tiri in porta, tenendo conto di variabili post-tiro, in particolare velocità del pallone e punto dello specchio della porta in cui arriva.
Banalmente un tiro veloce e all'incrocio avrà un valore molto più alto di uno debole e centrale. Un esempio estremo per capire la differenza tra xG e psxG: un tiro partito dall'area piccola che finisce al di fuori dello specchio della porta avrà un valore di xG alto e di psxG uguale a zero, mentre un tiro da trenta metri che si infila sotto al sette avrà un valore di xG basso e di psxG alto.
Questo dato può essere utilizzato per fornire una stima ancora migliore rispetto ai semplici xG delle capacità di finalizzazione del tiratore. Un giocatore che con costanza produce più psxG rispetto agli xG di partenza, sta migliorando le proprie probabilità a priori di segnare grazie a tiri di buona qualità.
Un'applicazione molto diffusa per i post-shot xG è però quella della valutazione delle performance dei portieri, in sostituzione di dati poco informativi come la percentuale di parate o i clean sheats, che non tengono in alcun modo in considerazione la difficoltà dei tiri subìti dagli estremi difensori. Un portiere che subisce meno gol rispetto ai psxG affrontati è un overperformer, che ha evitato dei gol rispetto alle attese statistiche, al contrario un portiere che incassa più gol di quanto stimato dal modello sarà in underperformance.
Questo grafico, simile ai precedenti, mostra come hanno performato finora i portieri in Serie A. Invece di mostrare semplicemente la differenza tra psxG e gol subìti, questa viene normalizzata per gli stessi psxG per ottenere una stima percentuale. In questo modo è possibile paragonare in maniera più precisa portieri che possono aver subito volumi di tiri e post-shot xG molto diversi per via delle squadre in cui giocano.
L'expected threat
Uno dei modelli più recentemente introdotti nella football analytics è quello di expected threat. Questo indicatore è nato per fornire una stima della pericolosità/minaccia generata da ciascuna azione (passaggi, dribbling, conduzioni, ...) a seconda della zona di campo in cui si svolge.
Per farlo, il campo di gioco viene suddiviso in aree, a ciascuna delle quali è associato un peso, calcolato dal modello a partire da una grande quantità di dati storici. Ogni azione (conduzione o passaggio) con cui un giocatore porta la palla da una zona all'altra, genera un valore di xT.
Passando da una zona con un valore più basso a una più pericolosa, si genererà un valore di xT positivo, al contrario uno negativo. La somma complessiva di questi valori positivi e negativi produce il valore di xT di un giocatore, ad esempio nell'arco di una partita o di più partite. Questo permette di far emergere il contributo alla creazione di occasioni anche di giocatori coinvolti più nella costruzione che nella rifinitura.
Il grafico, ad esempio, permette di far emergere il contributo portato attraverso i passaggi da giocatori come Bastoni, Di Lorenzo, e Bennacer. Un altro aspetto interessante di questo dato è che attraverso la distinzione tra xT derivante da passaggi o da conduzioni, è possibile sapere qualcosa anche sul come un giocatore crea minaccia. Ad esempio il contributo di Radonjic è decisamente sbilanciato verso le conduzioni rispetto ai passaggi, mentre giocatori come Leao, Deulofeu e Kvaratskhelia riescono ad incidere molto in entrambi i modi.
Uno dei principali limiti di questa metrica è che viene attribuito un peso negativo alle azioni che allontanano la palla dall'area avversaria, in particolare i retropassaggi, e di conseguenza alcuni giocatori possono avere un saldo di xT negativo. Questo si verifica soprattutto per le punte centrali che giocano molto spalle alla porta, ma ovviamente non tutti i loro retropassaggi sono controproducenti, al contrario sono spesso fondamentali per liberare i compagni in zone più pericolose.
Intensità di pressing: il PPDA
Il PPDA è un indice utilizzato per stimare l'intensità di pressing di una squadra, ed è dato dal rapporto tra i passaggi effettuati dagli avversari e la somma di tutte le azioni difensive effettuate dalla squadra osservata (contrasti, pressioni, falli, …). Vengono considerati i passaggi e le azioni difensive che avvengono dove di solito si porta la pressione, ovvero gli ultimi metri di campo della squadra che difende (conseguentemente i primi metri di campo di quella che costruisce). L'area di campo interessata varia a seconda del fornitore dei dati, solitamente tra i 50 e i 60 metri.
Un valore di PPDA particolarmente basso o alto non deve essere necessariamente considerato "positivo" o "negativo". L'interpretazione è descrittiva: una squadra con un basso PPDA concede pochi passaggi agli avversari per azione difensiva (pressa quindi in maniera intensa), mentre una con un valore alto porta una pressione meno aggressiva.
Questo dato restituisce quindi una stima puramente quantitativa dell'intensità della pressione, e non dice nulla sulla qualità e l'efficacia del pressing.
Per misurare questi aspetti esistono altre metriche, come il Buildup Disruption Percentage (BDP), ideato da Soccerment.
Dominio territoriale: il field tilt
Il field tilt è un indicatore che viene utilizzato per quantificare il dominio territoriale di una squadra, in maniera più precisa rispetto al semplice dato sul possesso palla, che può essere fuorviante, non fornendo informazioni sulle zone di campo in cui questo possesso viene mantenuto.
Nel calcolo vengono considerati solo i passaggi effettuati nell'ultimo terzo di campo dalle due squadre: se la squadra A ne effettua 60 e la squadra B 40, la squadra A avrà un field tilt del 60% (dato da 60 / (60 + 40) ), mentre la squadra B del 40%.
Questo valore non fornisce alcuna informazione sulla pericolosità e sulle occasioni che una squadra ha generato grazie al proprio dominio territoriale, ma esiste una certa correlazione tra field tilt e npxG creati.
Questo era un estratto del primo episodio di Numero!, contenuto esclusivo riservato agli associati a Sportellate.it.
Per diventarlo, ricevere Numero! alla propria casella di posta ogni mese e sostenere la nostra realtà, questo il link: https://www.sportellate.it/membership/
Ti potrebbe interessare
Dallo stesso autore
Newsletter
Iscriviti e la riceverai ogni sabato mattina direttamente alla tua email.