Consenso di sei modelli (Mercato, Massey, Logistica, Elo-Poisson, Forma, Attacco/Difesa). 100.000 simulazioni Monte Carlo del torneo, aggiornate ogni giorno sui risultati reali.
Ordine più probabile di arrivo, punti attesi e probabilità di passare il turno. Le prime due di ogni girone più le 8 migliori terze vanno ai sedicesimi.
Probabilità di raggiungere ciascuna fase, top 24 per probabilità titolo.
Per ogni partita: risultato più probabile secondo il modello e probabilità di vittoria 1 (prima squadra) / X (pareggio) / 2 (seconda squadra).
Partite già giocate: risultato reale, cosa aveva previsto il modello, e se ha indovinato il segno.
Invece di un singolo "super-modello", la previsione è il consenso di sei modelli con ipotesi diverse: Mercato (consenso dei bookmaker, stile Leitner-Zeileis-Hornik, 24%), Massey (rating ai minimi quadrati sugli scarti di gol, 17%), Logistica (modello d'esito lineare, 16%), Elo-Poisson (rating iterativo più Poisson, 16%), Forma (memoria corta, 14,5%) e Attacco/Difesa per squadra (13%). Per ogni partita si mediano le loro probabilità con questi pesi, e sulla probabilità di consenso gira tutto il Monte Carlo (gironi, tabellone, ogni fase). La logica è quella delle previsioni meteo e dei "supercomputer": modelli che sbagliano in modo diverso, mediati fra loro, riducono l'errore. I pesi sono scelti con validazione leave-one-Mondiale-out e regolarizzati per robustezza.
Il mercato è il singolo modello più informativo: le quote incorporano infortuni, forma e valore della rosa che i modelli costruiti sui soli risultati non vedono. È il modello con il peso più alto e prevede meglio il campione sui quattro Mondiali con quote disponibili (2010-2022). Sui limiti siamo onesti: oltre questi sei modelli il guadagno non è statisticamente rilevante, e nessuna combinazione "azzecca sempre il vincitore", perché la varianza del calcio è irriducibile.
Fonte primaria: tutte le partite internazionali dal 1872 (dataset aperto martj42/international_results), con data, squadre, risultato, torneo, sede e campo neutro. La struttura del Mondiale 2026 (48 squadre, 12 gironi, calendario, sedi) è estratta dalle fixture ufficiali e validata contro il sorteggio FIFA del 5 dicembre 2025.
Ogni nazionale ha un rating Elo calcolato partita per partita su tutta la storia, con vantaggio campo (annullato in campo neutro) e moltiplicatore per lo scarto di gol (una vittoria larga sposta più rating di una di misura). È un rating point-in-time: per prevedere una partita si usa sempre il rating precedente alla partita stessa.
Dalla differenza di Elo fra le due squadre, un modello Poisson bivariato stima i gol attesi di ciascuna (lambda) e quindi la distribuzione dei risultati. La correzione Dixon-Coles sistema la dipendenza nei punteggi bassi (0-0, 1-0, 1-1). I parametri sono stimati per massima verosimiglianza, con pesatura temporale: le partite recenti pesano di più.
Il torneo completo è simulato 100.000 volte: gironi (con i criteri ufficiali di classifica), selezione delle 8 migliori terze con allocazione ufficiale Annexe C (tutte le 495 combinazioni), tabellone dai sedicesimi alla finale secondo la struttura ufficiale FIFA, con tempi supplementari e rigori. Le partite già giocate usano il risultato reale, le altre sono simulate.
Il modello è testato sui sei Mondiali usando solo i dati disponibili prima di ogni torneo. Su 384 partite:
Caricamento...
Log loss e RPS più bassi sono migliori. La previsione uniforme (1/3 a ogni esito) dà log loss 1,099, e il modello la batte su tutti i tornei. I valori sono in linea con lo stato dell'arte per il calcio internazionale.
Segno corretto (1, X o 2) sulle partite dei sei Mondiali, diviso per fase. I quarti sono la fase più difficile: squadre vicine e molti episodi.
Caricamento...
Accuratezza e log loss in base a quanto è netto il favorito (differenza di rating Elo). Il modello è molto affidabile quando c'è un favorito chiaro, e vicino al testa-o-croce sulle gare equilibrate, dove nessuno può fare meglio.
All'Elo si affiancano alcune feature ingegnerizzate, costruite senza guardare al futuro (forma recente, attacco e difesa recenti, giorni di riposo, carico di partite, momentum dell'Elo), e un modello XGBoost in ensemble con l'Elo-Poisson. Il peso dell'ensemble è scelto fuori campione (addestrato sui Mondiali 2002-2014, valutato su 2018-2022) e mantenuto solo perché batte il riferimento. Il guadagno è reale ma piccolo, perché l'Elo è già molto forte.
Caricamento...
Disciplina del progetto: una feature entra nel modello solo se migliora log loss e RPS sul backtest; ciò che non migliora resta fuori.
Il modello dei gol include una penalità di altitudine, costruita dall'elevazione di ogni sede e di ogni nazionale (fonte aperta GeoNames): chi gioca in quota più alta rispetto a casa segna meno. È stimata per massima verosimiglianza su 2.256 partite storiche d'altura (qualificazioni a La Paz, Quito, Città del Messico, Bogotá). Sulle sole partite ad alta quota (oltre 1500 m) porta il log loss da 0,968 a 0,952 e l'RPS da 0,191 a 0,186. Dove non serve l'effetto è nullo (le partite sul livello del mare non sono toccate); dove conta è concreto: per il 2026 il Messico all'Azteca (2.240 m) e le sedi di Guadalajara e Denver hanno un vantaggio di quota reale nella simulazione.
Il modello include la forza della rosa di ogni nazionale, calcolata come media dei 23 migliori giocatori per nazionalità nei rating del videogioco EA FIFA (fonte aperta: FIFA 18 per il 2018, FIFA 22 per il 2022, EA FC 24 per il 2026). È un proxy del valore della rosa, indipendente dai risultati recenti, che l'Elo cattura già. Nella validazione point-in-time sui Mondiali 2018 e 2022 (128 partite) l'ensemble con la forza della rosa porta il log loss da 1,021 a 1,013 e l'RPS da 0,215 a 0,213, con un'importanza alta della feature (tra le prime dopo l'Elo). È usata nelle predizioni di ogni partita; il dato Opta/StatsPerform a pagamento non è usato, solo fonti aperte.
Prevedere il vincitore di un Mondiale è intrinsecamente incerto: la varianza dello sport è alta e le partite sono poche. Il valore del sistema sta nel fornire probabilità ben calibrate e tracciabili, non nell'indovinare con certezza il campione.
Dataset e codice aperti: github.com/DrElegantia/worldcup-2026-model. Solo dati sportivi pubblici. Simulazione a scopo informativo, non è un consiglio di scommessa.