Mondiale 2026 · simulazione probabilistica

Consenso di sei modelli (Mercato, Massey, Logistica, Elo-Poisson, Forma, Attacco/Difesa). 100.000 simulazioni Monte Carlo del torneo, aggiornate ogni giorno sui risultati reali.

Data simulazione

Favorite per il titolo

Classifica prevista dei gironi

Ordine più probabile di arrivo, punti attesi e probabilità di passare il turno. Le prime due di ogni girone più le 8 migliori terze vanno ai sedicesimi.

Tabellone simulato (fasi finali)

Probabilità per ogni fase

Probabilità di raggiungere ciascuna fase, top 24 per probabilità titolo.

Prossime 48 ore

Per ogni partita: risultato più probabile secondo il modello e probabilità di vittoria 1 (prima squadra) / X (pareggio) / 2 (seconda squadra).

Risultati e predizioni

Partite già giocate: risultato reale, cosa aveva previsto il modello, e se ha indovinato il segno.

Partite successive

Confronto fra la classifica che il modello prevedeva il 10/06/2026 (prima del fischio d'inizio) e come si sono chiusi davvero i gironi. Le qualificate sono le prime due di ogni girone più le otto migliori terze (32 su 48).

Girone per girone: previsto (10/06) vs reale

Per ogni turno della fase a eliminazione, le squadre previste il 10/06 (prima del torneo), quelle previste alla vigilia di quel turno (lo snapshot del giorno prima: Sedicesimi → 27/06, Ottavi → 03/07, e così via) e quelle che hanno passato il turno.

Metrica Come si muove la simulazione, giorno dopo giorno (top 8).

Il modello, con i dati pre-torneo, azzeccava i Mondiali passati?

Nota metodologica

0. Architettura: consenso di modelli

Invece di un singolo "super-modello", la previsione è il consenso di sei modelli con ipotesi diverse: Mercato (consenso dei bookmaker, stile Leitner-Zeileis-Hornik, 24%), Massey (rating ai minimi quadrati sugli scarti di gol, 17%), Logistica (modello d'esito lineare, 16%), Elo-Poisson (rating iterativo più Poisson, 16%), Forma (memoria corta, 14,5%) e Attacco/Difesa per squadra (13%). Per ogni partita si mediano le loro probabilità con questi pesi, e sulla probabilità di consenso gira tutto il Monte Carlo (gironi, tabellone, ogni fase). La logica è quella delle previsioni meteo e dei "supercomputer": modelli che sbagliano in modo diverso, mediati fra loro, riducono l'errore. I pesi sono scelti con validazione leave-one-Mondiale-out e regolarizzati per robustezza.

Il mercato è il singolo modello più informativo: le quote incorporano infortuni, forma e valore della rosa che i modelli costruiti sui soli risultati non vedono. È il modello con il peso più alto e prevede meglio il campione sui quattro Mondiali con quote disponibili (2010-2022). Sui limiti siamo onesti: oltre questi sei modelli il guadagno non è statisticamente rilevante, e nessuna combinazione "azzecca sempre il vincitore", perché la varianza del calcio è irriducibile.

1. Dati

Fonte primaria: tutte le partite internazionali dal 1872 (dataset aperto martj42/international_results), con data, squadre, risultato, torneo, sede e campo neutro. La struttura del Mondiale 2026 (48 squadre, 12 gironi, calendario, sedi) è estratta dalle fixture ufficiali e validata contro il sorteggio FIFA del 5 dicembre 2025.

2. Forza delle squadre: Elo

Ogni nazionale ha un rating Elo calcolato partita per partita su tutta la storia, con vantaggio campo (annullato in campo neutro) e moltiplicatore per lo scarto di gol (una vittoria larga sposta più rating di una di misura). È un rating point-in-time: per prevedere una partita si usa sempre il rating precedente alla partita stessa.

3. Gol attesi: Poisson Dixon-Coles

Dalla differenza di Elo fra le due squadre, un modello Poisson bivariato stima i gol attesi di ciascuna (lambda) e quindi la distribuzione dei risultati. La correzione Dixon-Coles sistema la dipendenza nei punteggi bassi (0-0, 1-0, 1-1). I parametri sono stimati per massima verosimiglianza, con pesatura temporale: le partite recenti pesano di più.

4. Simulazione del torneo: Monte Carlo

Il torneo completo è simulato 100.000 volte: gironi (con i criteri ufficiali di classifica), selezione delle 8 migliori terze con allocazione ufficiale Annexe C (tutte le 495 combinazioni), tabellone dai sedicesimi alla finale secondo la struttura ufficiale FIFA, con tempi supplementari e rigori. Le partite già giocate usano il risultato reale, le altre sono simulate.

5. Validazione point-in-time (2002-2022)

Il modello è testato sui sei Mondiali usando solo i dati disponibili prima di ogni torneo. Su 384 partite:

Caricamento...

Log loss e RPS più bassi sono migliori. La previsione uniforme (1/3 a ogni esito) dà log loss 1,099, e il modello la batte su tutti i tornei. I valori sono in linea con lo stato dell'arte per il calcio internazionale.

Quante partite indovina, per fase

Segno corretto (1, X o 2) sulle partite dei sei Mondiali, diviso per fase. I quarti sono la fase più difficile: squadre vicine e molti episodi.

Caricamento...

5b. Dove il modello è affidabile

Accuratezza e log loss in base a quanto è netto il favorito (differenza di rating Elo). Il modello è molto affidabile quando c'è un favorito chiaro, e vicino al testa-o-croce sulle gare equilibrate, dove nessuno può fare meglio.

6. Ensemble con gradient boosting

All'Elo si affiancano alcune feature ingegnerizzate, costruite senza guardare al futuro (forma recente, attacco e difesa recenti, giorni di riposo, carico di partite, momentum dell'Elo), e un modello XGBoost in ensemble con l'Elo-Poisson. Il peso dell'ensemble è scelto fuori campione (addestrato sui Mondiali 2002-2014, valutato su 2018-2022) e mantenuto solo perché batte il riferimento. Il guadagno è reale ma piccolo, perché l'Elo è già molto forte.

Caricamento...

Disciplina del progetto: una feature entra nel modello solo se migliora log loss e RPS sul backtest; ciò che non migliora resta fuori.

6b. Altitudine e acclimatamento

Il modello dei gol include una penalità di altitudine, costruita dall'elevazione di ogni sede e di ogni nazionale (fonte aperta GeoNames): chi gioca in quota più alta rispetto a casa segna meno. È stimata per massima verosimiglianza su 2.256 partite storiche d'altura (qualificazioni a La Paz, Quito, Città del Messico, Bogotá). Sulle sole partite ad alta quota (oltre 1500 m) porta il log loss da 0,968 a 0,952 e l'RPS da 0,191 a 0,186. Dove non serve l'effetto è nullo (le partite sul livello del mare non sono toccate); dove conta è concreto: per il 2026 il Messico all'Azteca (2.240 m) e le sedi di Guadalajara e Denver hanno un vantaggio di quota reale nella simulazione.

6c. Forza della rosa (rating EA FIFA)

Il modello include la forza della rosa di ogni nazionale, calcolata come media dei 23 migliori giocatori per nazionalità nei rating del videogioco EA FIFA (fonte aperta: FIFA 18 per il 2018, FIFA 22 per il 2022, EA FC 24 per il 2026). È un proxy del valore della rosa, indipendente dai risultati recenti, che l'Elo cattura già. Nella validazione point-in-time sui Mondiali 2018 e 2022 (128 partite) l'ensemble con la forza della rosa porta il log loss da 1,021 a 1,013 e l'RPS da 0,215 a 0,213, con un'importanza alta della feature (tra le prime dopo l'Elo). È usata nelle predizioni di ogni partita; il dato Opta/StatsPerform a pagamento non è usato, solo fonti aperte.

7. Limiti

Prevedere il vincitore di un Mondiale è intrinsecamente incerto: la varianza dello sport è alta e le partite sono poche. Il valore del sistema sta nel fornire probabilità ben calibrate e tracciabili, non nell'indovinare con certezza il campione.

Dataset e codice aperti: github.com/DrElegantia/worldcup-2026-model. Solo dati sportivi pubblici. Simulazione a scopo informativo, non è un consiglio di scommessa.