Nå er EM-kvalifiseringen i fotball godt i gang, og da klarer ikke vi å holde oss helt unna. Etter de første kampene har vi regnet oss fram til at Norge er favoritt i sin gruppe. Hvordan kan vi si det?
I utgangspunktet har en fotballkamp et element av både ferdighet og tilfeldighet. Et godt lag vil ofte slå et dårligere lag, men ikke alltid.
For å beskrive dette bruker vi en statistisk modell hvor hvert enkelt lag har et styrketall. Styrketallene til hvert lag tallfestes ut fra FIFA-rankingen, og av de fem lagene i Norges gruppe har i øyeblikket (8.9.2010) Portugal best FIFA-ranking, fulgt av Norge og Danmark. Norge er med andre ord et bedre lag enn Danmark ifølge FIFA-rankingen. Styrketallet til Portugal er fastsatt til 100. Vi tar også høyde for hjemmebanefordelen.
Styrketall per lag
Lag |
Styrketall |
---|---|
Portugal |
100 |
Norge |
88 |
Danmark |
83 |
Kypros |
70 |
Island |
63 |
Et lite sidespor: Dette er litt forskjellig fra VM-beregningene våre, hvor vi (heldigvis) kom fram til at Spania lå best an før mesterskapet. I VM var det ingen hjemmebanefordel (bortsett fra for Sør-Afrika), og vi baserte oss på eksperttips istedenfor den noe omdiskuterte FIFA-rankingen.
Tilbake til EM: Etter at styrketallene er tallfestet, simulerer eller ”spiller” vi de resterende kampene i gruppa på en datamaskin. Deretter beregner vi tabellplasseringa til hvert enkelt. Tabellplasseringa bestemmes først av antall poeng, deretter av målforskjell, antall skårede mål og antall skårede mål på bortebane. Om to eller flere lag da står likt gjelder tilsvarende for innbyrdes oppgjør. Utfallet av hver kamp er tilfeldig, derfor blir det også i noe grad tilfeldig hvem som vinner gruppa i vårt simulerte gruppespill.
I virkeligheten spilles kampene kun én gang, men for å få fram det tilfeldige elementet gjentar vi vår øvelse 5 000 ganger. For hver gang registrerer vi H-U-B for hver enkelt kamp, og hvilket lag som kommer på de enkelte plassene til slutt. Ut fra dette beregner vi sannsynligheter for hvert enkelt lags muligheter. For eksempel beregnes sjansen for førsteplass ved å telle opp antall førsteplasser og dele på 5 000.
Vi har beregnet at Norges sjanser til å klare førsteplassen per i dag er 56 %, mens det er 26% sjanse for at Norge havner på andreplass (se tabellen). Hvis vi skjønnsmessig sier at det er 5/9=55% sjanse for å gå til EM med andreplass (fem av ni gruppetoere blir kvalifisert) gir det per i dag 70% sjanse for at Norge kvalifiserer seg til EM.
Sjanse for H-U-B per kamp
Hjemmelag |
Bortelag |
H (%) |
U (%) |
B (%) |
---|---|---|---|---|
Kypros |
Norge |
29 |
26 |
45 |
Portugal |
Danmark |
54 |
24 |
21 |
Island |
Portugal |
18 |
23 |
58 |
Danmark |
Kypros |
53 |
24 |
22 |
Norge |
Danmark |
46 |
26 |
27 |
Kypros |
Island |
48 |
25 |
27 |
Portugal |
Norge |
50 |
24 |
25 |
Island |
Danmark |
27 |
26 |
47 |
Norge |
Island |
63 |
22 |
14 |
Kypros |
Portugal |
23 |
24 |
54 |
Island |
Kypros |
36 |
27 |
36 |
Danmark |
Norge |
38 |
27 |
35 |
Portugal |
Island |
70 |
19 |
11 |
Kypros |
Danmark |
31 |
27 |
42 |
Norge |
Kypros |
56 |
24 |
20 |
Danmark |
Portugal |
30 |
26 |
43 |
Plasseringsjanser per lag(%)
Lag/Plass |
1. |
2. |
3. |
4. |
5. |
Portugal |
17 |
32 |
30 |
17 |
4 |
Norge |
56 |
26 |
12 |
5 |
1 |
Danmark |
21 |
29 |
29 |
17 |
4 |
Kypros |
5 |
11 |
22 |
40 |
22 |
Island |
1 |
2 |
7 |
21 |
69 |
Med utgangspunkt i FIFA-rankinga er Portugal fortsatt ansett for å være det beste laget i gruppa, og er favoritt i alle sine resterende kamper. Men med sitt dårlige utgangspunkt er det mest sannsynlig at Portugal ikke klarer å ta igjen Norge.
Har dette noe med forskning å gjøre? Fotballberegningene er en lek med tall for å spre blest om faget. Men de illustrerer hvordan avanserte beregninger kan utføres, for eksempel ved estimering av fiskebestander eller sannsynligheten for at en bank går konkurs. I begge tilfeller er stokastisk simulering, altså å simulere virkeligheten på en datamaskin, et uvurderlig verktøy.
Beregningene ble oppdatert 8.9.2010, etter Norges hjemmekamp mot Portugal, og blogginnlegget er skrevet sammen med Anders Løland.
Før VM regnet NR ut at Spania hadde 21% sjanse for å vinne fotball-VM. Etter at alle gruppene har gjennomført to av tre runder, har det skjedd mye.
La oss gå rett på sak. Figuren under viser sannsynligheten for 1. plass for de tolv nåværende favorittene per i dag, etter kampene spilt 21. juni, samt utviklingen i vinnersannsynlighetene siden VM startet.
Mens Spania var favoritten og har rotet det til, er nå Argentina, Nederland og Brasil de tre klart største favorittene til å vinne VM. Sannsynligheten er nå over 50% prosent for at et av disse tre landene stikker av med pokalen. Dette er en konsekvens av kampene som er spilt så langt.
Det var noe skepsis til Argentina før VM, men etter to klare seire har de klatret til topps så langt.
Tyskland startet med en vinnersjanse på 7,5%. Den økte til rundt 12% etter den første seieren mot Australia, men falt igjen etter tapet mot Serbia.
Bakfra kommer Uruguay, Paraguay og Mexico, som har styrket sine sjanser betraktelig etter forhåndstipset på cirka 0,5%.
Beregningene er basert på at hvert lag tilordnes et styrketall før hver kamp. Ut fra styrketallene til to lag som møtes, skal en kunne avlese sannsynligheten for seier, uavgjort og tap. Styrketallene vil være noe à la FIFA-rankingen, men mer direkte relatert til utfallet av enkeltkamper.
Argentina, Nederland og Brasil har nå omtrent samme styrketall. Det betyr at NR-modellen mener de nå er omtrent like gode lag. Tilsvarende har Spania litt høyere styrketall enn Portugal, men lavere sannsynlighet for å vinne (9,5% mot 6%), siden Portugal i praksis er klare for åttendelsfinalen, mens Spania må vinne kampen mot Chile.
Modellen var før VM basert på tipsene til 14 fotballeksperter fra TV 2 Sporten. Eksperttipsene og de virkelige kampene blir vektet i forhold til hverandre, slik at eksperttipsene har like stor betydning som de virkelige kampene etter at hvert lag har spilt to kamper. Når alle lag har spilt flere enn to kamper betyr derimot de virkelige kampene mest.
Sannsynlighetene oppdateres hver dag under hele VM basert på kampene som blir spilt, og her kan det som vi har sett endre seg fort. Følg med videre på vm.nr.no!
Anders Løland |
Foto: Lin Stenstrud Jeg tok hovedfag i anvendt og industriell matematikk på Blindern i 1999, og jobbet deretter i et par år med sonardata ved Forsvarets forskningsinstitutt (FFI) på Kjeller. Siden 2001 har jeg jobbet ved NR. På fritida liker jeg å løpe oppover bratte bakker. Jeg heier på Hønefoss, som kommer til å imponere i eliteserien i år. |
Til tross for 53 forsøk, har det hittil i VM ikke blitt scoret mål på direkte frispark. Skyldes dette JABULANI, den mye omtalte ballen, eller er det bare tilfeldighetene som er ute og går?
Ifølge en dokumentar sendt på britiske ITV har det i gjennomsnitt blitt mål på hvert 20. frispark i tidligere fotball-VM. Derfor burde vi sett minst to frisparkmål allerede. Men så har vi disse tilfeldighetene da.
Hvis vi går litt vitenskapelig til verks kan vi sette opp følgende påstand:
Det blir i gjennomsnitt mål på hvert 20. frispark.
Det betyr at sannsynligheten for mål er 5% per frispark. Vi antar her at hvert frispark er uavhengig av alle andre frispark.
Siden jeg som statistiker ikke kan fri meg fra å tro at dette kan skyldes tilfeldigheter, vil jeg ikke gi slipp på at hvert 20. frispark gir mål før sannsynligheten for at det er tilfeldig er under 5%, noe den ikke er ennå.
Først etter 59 frispark uten mål kan vi si at dette ikke er tilfeldig, og at det scores uvanlig få frisparkmål i årets VM. Det kan med andre ord skyldes tilfeldigheter, men er helt på grensen.
Det kan komme av JABULANI, men det finnes selvfølgelig andre muligheter. For eksempel kan det være de fæle VUVUZELAene som gjør frisparkerne mo i knærne!
For de spesielt interesserte kan jeg røpe at hvis jeg er strengere, og krever at sannsynligheten for at manglende frisparkmål skyldes tilfeldigheter er under 1%, er det først etter 91 frispark uten frisparkmål jeg med god samvittighet kan skylde på JABULANI eller noe annet.
Dette innlegget ble skrevet rett etter Italias trasige 1-1-kamp mot New Zealand på søndag. Følg med på http://vm.nr.no/ for oppdaterte sannsynligheter for de ulike lagenes plasseringer.
Anders Løland |
Foto: Lin Stenstrud Jeg tok hovedfag i anvendt og industriell matematikk på Blindern i 1999, og jobbet deretter i et par år med sonardata ved Forsvarets forskningsinstitutt (FFI) på Kjeller. Siden 2001 har jeg jobbet ved NR. På fritida liker jeg å løpe oppover bratte bakker. Jeg heier på Hønefoss, som kommer til å imponere i eliteserien i år. |
Ein rein cup er lite eigna til å kåra det beste laget i ei gruppe, spesielt i idrettar der utfallet av enkeltkampar kan vera ganske tilfeldig. Fotball er eit godt eksempel her - kampar vert ofte avgjort med berre eitt mål, og då kan det fort vera tilfeldig kven som får det målet. Det er neppe grunn til å tru at Fyllingen er eit betre lag enn Brann, det same gjeld Tønsberg vs Vålerenga, men det er likevel Fyllingen og Tønsberg som framleis kan vinna NM i fotball.
Når ein er ute etter å kåra den beste på meir sikkert grunnlag er det derfor mest vanleg å nytta eit seriesystem. Med så mange kampar som det involverer, vil flaksen jamna seg ut etter kvart - og eit lag kan ikkje verta eliminert frå konkurransen med uflaks i ein enkelt kamp.
I eit seriesystem taper ein likevel duellaspektet, det fascinerande med at ein part må vinna, ein må tapa. Kvar kamp vert på sett og vis mindre viktig. I ein del idrettar vert det derfor nytta eit utvida cupsystem, der laga framleis møtest og slår kvarandre ut parvis, men i staden for at dette skjer på grunnlag av ein enkelt kamp, vert det spela fleire kampar, og vinnaren er den som vinn flest av desse. Typisk er det til dømes tenkt 7 kampar, så vinnaren er den første som vinn 4 (eventuelt uspela kampar vert då ikkje spela, sidan det allereie er klart kven som vinn flest).
Best av tre vert ikkje nytta eksplisitt i nokon stor idrett, men ligg innebygd i ein del settbaserte idrettar, som tennis og strandvolleyball. Det er likevel berre snakk om ein kamp. Best av fem finn ein og innebygd i tennis, men den vert også nytta i sluttspelet i baseball i USA. Dette sluttspelet vert spela som ein cup, og i første runde av denne er det best av 5 som gjeld, før ein går over til best av 7. Dette finn ein i dei fleste store amerikanske idrettane, og norsk ishockey har også adoptert dette for sin cup. Historisk har det også vore brukt best av 9, men dette er ikkje i bruk i nokon større idrett no.
Kva har så dette å seia for utfallet? Eg går ut frå at kvar kamp vert avgjort (sudden death, straffekonkurranse e.l.). I eit møte mellom to lag der det eine vinn dobbelt så ofte som det andre vil det dårlegaste laget likevel vinna 1/3 av gongane dersom berre ein enkelt kamp tel. Dersom ein spelar best av 3 går dette ned til 26% av gongane, best av 5 gir 21%, og best av 7 er nede på 17%, halvparten av sjansen med berre ein kamp.
Dersom laga er jamnare, med 60% sjanse for det eine og 40% for det andre i kvar kamp, vert dette endra til 65% og 35% i best av 3. I best av 5 har det dårlegaste laget 32% sjanse til å vinna, og med best av 7 er denne nede på 29%. Når laga er jamnare gjer det altså mindre utslag å spela mange kampar.
Hovudargumentet for berre ein kamp er likevel å ha ein avgjerande kamp, den viktige kampen. Kamp 2 i ein finale over 7 kampar har ikkje same trykk som den eine finalekampen der alt skal avgjerast. I tillegg har det sin sjarm at den beste kan tapa. Så i VM gir også ishockey slepp på sine multiple kampar, og spelar enkeltkampar med vinn eller forsvinn dei tre siste rundane. Noko Tsjekkia kanskje hadde glede av i år?
Ragnar Hauge |
Eg har jobba på Norsk Regnesentral sidan 1995. Mesteparten av tida har eg jobba med modellering av bergartar i oljereserervoar, men eg har etterkvart også mykje erfaring med bruk av seismiske data. Ut over det faglege er eg interessert i det aller meste, i alle fall frå eit teoretisk synspunkt. |
Siden 1998 har NR regnet på sjansene til de ulike lagene i fotball-VM. I år har vi, i samarbeid med TV 2 Sporten og deres eksperter, kommet fram til at Spania er favoritten med en vinnersannsynlighet på cirka 20%. Det betyr riktignok at sannsynligheten for at Spania ikke vinner er 80%.
Hvordan er det egentlig mulig å regne på lagenes VM-sjanser?
Ethvert lag tilordnes et styrketall, og ut fra styrketallene til to lag som møtes, skal en kunne avlese sannsynligheten for seier, uavgjort og tap. Styrketallene vil være noe a la FIFA-rankingen, men vil være mer direkte relatert til utfallet av enkeltkamper.
Før mesterskapet begynner, ble disse styrketallene fastsatt ut fra ekspertvurderinger fra fotballeksperter tilknyttet TV 2 Sporten. Etter hvert som VM-kampene spilles oppdateres styrketallene, slik at styrketallene etter hvert bestemmes mer og mer ut fra de spilte kampene, og mindre og mindre ut fra de opprinnelige eksperttipsene.
Her er styrketallene før VM begynner for de ti lagene med høyest styrketall:
Lag |
Styrketall |
FIFA-ranking |
Spania |
112 |
1565 |
Brasil |
100 |
1611 |
Nederland |
99 |
1231 |
Argentina |
97 |
1076 |
England |
92 |
1068 |
Italia |
90 |
1184 |
Tyskland |
89 |
1082 |
Frankrike |
81 |
1044 |
Portugal |
80 |
1249 |
Elfenbenskysten |
77 |
856 |
Brasil har for eksempel høyest FIFA-ranking, mens favoritten Spania har høyest styrketall. (Brasils styrketall er satt til 100, de andres styrketall er vist i forhold til Brasils.)
Her er sannsynligheten før VM begynner for å nå finalerundene for de ti lagene med høyest finalerundesannsynlighet:
Lag |
Finale |
Semi-finale |
Kvart-finale |
8.dels-finale |
Spania |
31,1% |
45,4% |
63,9% |
95% |
Nederland |
22,8% |
36,3% |
62% |
86,9% |
Brasil |
20,9% |
33,3% |
53,4% |
81% |
Argentina |
20,7% |
38,7% |
61,4% |
86,1% |
England |
18,2% |
34,3% |
54,3% |
86,7% |
Tyskland |
13,8% |
29,2% |
49,3% |
76,5% |
Italia |
14,3% |
25,5% |
54% |
87,5% |
Frankrike |
9,2% |
20,5% |
40,2% |
72,4% |
Portugal |
7,5% |
14,6% |
28% |
56,9% |
Serbia |
6,3% |
16,3% |
32,2% |
60,4% |
Selv om Brasil har et høyere styrketall enn Nederland, har Nederland større sjanse for å nå finalen, fordi veien dit trolig er litt mindre kronglete for Nederland.
Det er min gode kollega Magne Aldrin som står for metodikken og beregningene. Han har dessuten gjennomgående gjort det bra i diverse VM-tippekonkurranser ved å følge fotball-modellens forutsigelser.
Sannsynlighetene oppdateres hver dag under hele VM basert på kampene som blir spilt. En sjokk-åpning fra nord-og-ned-dømte Nord-Korea vil for eksempel øke deres sjanse for å gå videre fra gruppespillet.
Følg med på vm.nr.no!
Anders Løland |
Foto: Lin Stenstrud Jeg tok hovedfag i anvendt og industriell matematikk på Blindern i 1999, og jobbet deretter i et par år med sonardata ved Forsvarets forskningsinstitutt (FFI) på Kjeller. Siden 2001 har jeg jobbet ved NR. På fritida liker jeg å løpe oppover bratte bakker. Jeg heier på Hønefoss, som kommer til å imponere i eliteserien i år. |