Syndiker innhold

1 kjem oftast først

I språk er det velkjent at bokstavane ikkje vert brukt like ofte. Spesielt for første bokstav er det stor variasjon i kor ofte dei ulike bokstavane vert nytta. Reint intuitivt vil ein vel tenka at det ikkje er slik for tal – det er like mange tal som startar med 1 som det er tal som startar med 2 eller 3 og så vidare. Reint teknisk er det også slik, med stringente matematiske prov.

Men dersom ein ser på tal vi brukar, vil det vera fleire som startar med 1 enn med noko anna tal. Til dømes kan ein sjå på folketalet i verda frå 1800 og til i dag, ein periode på 210 år. I 120 av desse, frå 1800-1920 var folketalet mellom 1 og 2 milliardar, og starta dermed med 1.

Startpunktet er rett nok heldig vald, sidan det startar med 1, men det forklarer likevel ikkje kvifor folketalet startar med 1 i over halve perioden.

Dersom ein i staden ser på folketalet i USA i same tidsintervall finn ein at det startar med 1 i intervallet 1820-1845 (10-20 millionar) og 1915-1970 (100-200 millionar), altså 80 av 210 år, igjen ei klar overrepresentasjon. Ser ein berre på menn, og reknar med at desse utgjer om lag halvparten, får vi tal som startar på 1 frå 1845-1870 og 1970-2010, altså 65 år, framleis nesten ein tredjedel av åra.

Dette fenomenet er kjent som Benfords lov, etter fysikaren Frank Benford, som oppdaga og forklarte det på 1930-talet. Poenget er at denne samanhengen gjeld for fenomen som i nokon grad er utsett for eksponensiell vekst.

Folketal er eit typisk slik fenomen. Inntil relativt nyleg hadde dei aller fleste land eksponensiell vekst i folketalet, og for verda totalt og USA gjeld dette framleis. Det tyder at i løpet av eitt år veks folketalet med ein gitt prosent. Å auka folketalet i verda frå 1 til 2 millardar krev ei fordobling av folketalet, medan å gå frå 2 til 3 berre er 50% auke, og dermed skjer mykje raskare.

Reint presist seier Benfords lova at 30,1% av tala skal starta med 1, 17,6% med 2, 12,5% med 3, og så daler det jamt inntil berre 4,6% av tala startar med 9. Dersom ein ser på folketala i alle verdas land er dette ikkje ei dårleg tilnærming.

Grunna inflasjonseffektar vil også alle tal i økonomi følgja denne loven. Uavhengig av om det er prisen på brød, medianløn eller BNP vil ein over tid finna at dei oftast startar med 1. I USA er store avvik frå denne loven i økonomital brukt som indisium i rettssaker om økonomisk kriminalitet (t.d. i State of Arizona v. Wayne James Nelson, sjå http://www.journalofaccountancy.com/Issues/1999/May/nigrini). Poenget er at når folk diktar opp tal vil dei stort sett starta like ofte med kvart siffer, og dermed ikkje følgja Benfords lov.

Som illustrert i eksempelet med folketal i USA, der fenomenet var der uavhengig av om ein såg på heile eller halve folketalet, er denne loven uavhengig av måleeining. Dersom ein ser på dei 60 høgaste bygningane i verda har 43% av dei høgd som startar med 1 dersom ein måler i meter. Dersom ein skiftar til fot er det 30%, altså også då klart flest som startar med 1.

Det er også andre moment som gjer at flest tal startar med 1, men desse er svakare. Dersom ein ser på alderen til folk vil den også som oftast starta med 1, men dette skuldast eit anna fenomen, nemlig at 1 kjem først. Dermed vil alle som vert 2 ha vore 1, alle som vert 20 har vore 10-19, og dersom ein vert gamal nok vil alle dei siste åra starta på 1. Dette er ikkje Benfords lov, men ei favorisering av 1 som likevel gjer seg gjeldande for alt som tel opp frå 0 og ikkje kjem til veldig store tal.

Ragnar Hauge

Eg har jobba på Norsk Regnesentral sidan 1995. Mesteparten av tida har eg jobba med modellering av bergartar i oljereserervoar, men eg har etterkvart også mykje erfaring med bruk av seismiske data. Ut over det faglege er eg interessert i det aller meste, i alle fall frå eit teoretisk synspunkt.

Er nettpoker tilfeldig?

Poker har kjempa hardt for å verta klassifisert som eit spel der ein vinn ved å vera dyktig, ikkje ved å ha flaks. Dette stemmer når ein ser det over mange nok spel, noko som viser seg ved at pokerspelande datamaskiner er i ferd med å verta uslåelege, akkurat som i sjakk. (http://manmachinepoker.com/)

Imidlertid er det framleis stor variasjon i utfallet over kortare periodar, slik som for ei enkelt turnering. Bridge, som også baserer seg på utdelte kort, har stabilisert dette ved at fleire spelar med same kortfordeling. Ein kan då sjå kven som gjorde det beste ut av korta, og utdelinga har dermed lite å seia. I poker er det vanskeleg å sjå for seg noko slikt.

Grunnlaget for å vera dyktig i poker er å vita kor sannsynleg ulike utfall er. Ut over det går spelet ut på å lesa dei andre spelarane, prøva å forutseia kva dei har ut frå kva dei gjer. For at ein skal kunne vita kor sannsynleg det er med dei ulike kombinasjonane, går ein ut frå at korta er rettferdig delt ut. I eit fysisk pokerlag kan ein uærlig delar øydeleggja dette ved å gi seg sjølv, eller meir subtilt ein medsamansvoren, systematisk betre kort.

Den store oppblomstringa av poker har imidlertid i det siste vore på nett, og då dukkar eit anna moment opp. For det første er det veldig vanskeleg å sjekka delinga, ein må stola på datamaskinen. For det andre har no delaren glede av at alle får litt betre kort.

Det mest sannsynlege utfallet i poker er å få ingenting, noko som ofte medfører at ein kastar seg. Det er ikkje så mange av hendene i eit vanleg pokerlag som verkeleg fører til skikkeleg satsing. Sidan pokerselskapa på nett tener pengar på å ta ein del av innsatsen, har dei glede av at det er meir satsing, altså at alle har betre kort. Eit anna moment er å halda på kundane, og mange vil føla at det er meir morosamt å spela ein stad der dei stadig får gode kort, sjølv om dei ikkje vinn så ofte som dei burde med desse. Tek ein dette endå lenger ser ein at nye kundar, eller kundar som har tapt ein del, bør kanskje få ekstra gode kort for å halda på dei.

Sjølv om skeivdelinga er systematisk og ikkje favoriserer nokon, vil den verka forstyrrande på gode pokerspelarar, som veit kva som er sannsynleg. Seriøse pokernettstadar legg derfor vekt på å overtyda kundane om at dei spelar rettferdig, hovudsakleg med to strategiar: Publisering av delingsalgortimane, og eksterne firma som PriceWaterhouseCoopers som validerer og går god for bruken av desse algoritmane.

Dette er ein god strategi, sjølv om den kan slå pinleg ut for den som ikkje har gjort jobben sin. I 1999 klarte ei gruppe dataekspertar å utnytta svake punkt i koden til ein pokernettstad, slik at dei fekk vita rekkjefølgja på korta i stokken, og dermed visste kva kort motstandarane hadde, og kva som ville koma av kort vidare. (http://www.cigital.com/papers/download/developer_gambling.php) Sidan det var snille gutar som gjorde dette, fortalde dei det til nettstaden, og venta til dei hadde ordna opp idet før dei gikk ut offentleg.

Når ein datamaskin skal sørgja for at noko vert tilfeldig, nyttar ein nesten alltid noko som vert kalla pseudotilfeldige tal. (Enkelte, som Norsk Tipping til Keno og Extra, nyttar ekte tilfeldige tal, men dette er for tregt for nettpoker.) Det finst algoritmar som gir sekvensar med tal som ser tilfeldige ut, men som er heilt systematiske. Dette er pseudotilfeldige tal. Dersom ein kjenner kva algoritme som vert nytta, og kva det forrige talet den gav var, veit ein kva det neste er.

Ekspertane kjente algoritmen for å generera tala, og korleis dette vart gjort om til ein stokka kortstokk, sidan dette var publisert. Det som mangla var å finna kvar i sekvensen av pseudotilfeldige tal ein var. Her var den store feilen i algoritmen: Nettstaden nytta klokkeslettet når spelet starta (koda på millisekundnivå) som startplass i sekvensen for delinga.

Ved å ha ein tilsvarande algoritme og søka gjennom kva resultat ein ville få ved å nytta initialtilstandar nær noverande klokkeslett, var det dermed berre å sjå kva tal som gav match med dei korta som var synlege. Med fem synlege kort var dette eintydig, og ein kjente dermed heile kortstokken.

Som nevnt over kjem ein neppe bort frå å nytta pseudotilfeldige tal i nettpoker, og det er viktig at algoritmen ein nyttar er offentleg kjent, slik at det ikkje er skjulte svake punkt. Det kritiske punktet er dermed å sørgja for at ingen kan gjetta kva initialisering som vert nytta ved delinga. Sidan initialisering kan gjerast sjeldnare (ein treng ikkje ein gong gjera det mellom kvar stokking, berre algoritmen er god nok) verkar det rimeleg at ein her nyttar ekte tilfeldige tal. I praksis nyttar dei seriøse aktørane fenomen som er nesten ekte tilfeldige, basert på mus- og tastaturbruk.

Ragnar Hauge

Eg har jobba på Norsk Regnesentral sidan 1995. Mesteparten av tida har eg jobba med modellering av bergartar i oljereserervoar, men eg har etterkvart også mykje erfaring med bruk av seismiske data. Ut over det faglege er eg interessert i det aller meste, i alle fall frå eit teoretisk synspunkt.

Tålmodighetsprøven Lotto

Her om dagen fikk jeg et spørsmål om Lotto:

Øker vinnersjansen min hvis jeg ikke vant i forrige uke? Øker sjansen hvis jeg ikke har vunnet på ti år?

Spørsmålsstilleren vil nok være anonym, så jeg kaller ham Lotto-Lars. Lotto-Lars så for seg at sjansen øker hvis det er lenge siden forrige gevinst, siden det jevner seg ut i det lange løp. Det stemmer at det jevner seg ut i det lange løp, men dessverre for Lotto-Lars er vinnersjansen den samme hver uke og uavhengig av forrige ukes resultater: Hver uke begynner spillet på nytt.

Hvis Lotto-Lars ikke får noe igjen for at han ikke har vunnet på lenge, hvor lenge må han egentlig regne med å vente på den store gevinsten?

Sjansen for å vinne på en rekke i en Lotto-trekning er 1 av 5 379 616 (cirka 0,000 02 %). Lotto-Lars spiller 10 rekker i uka. Da må Lotto-Lars regne med å vente

537 961,6 uker

eller

10 345 år (hvis det er 52 uker i året) på sju rette!

Lotto-Lars kan være heldig og vinne allerede neste uke, men han kan også være uheldig og måtte vente lenge, lenge. Spesielt fortærende er det nok at han ikke får igjen for å ikke å ha vunnet tidligere.

Kanskje hjelper det litt med trøstepremien (4 rette + 1 tilleggstall), hvor vinnersannsynligheten er omtrent 0,6 %. Den vil Lotto-Lars i gjennomsnitt vinne hver 17. uke.

Anders Løland

Foto: Lin Stenstrud
Jeg er seniorforsker ved Norsk Regnesentral og ansvarlig for markedsområdet teknologi, industri og forvaltning i min avdeling. Jobben min går ut på å bruke eller utvikle riktige statistiske metoder for å løse problemer.

Jeg tok hovedfag i anvendt og industriell matematikk på Blindern i 1999, og jobbet deretter i et par år med sonardata ved Forsvarets forskningsinstitutt (FFI) på Kjeller. Siden 2001 har jeg jobbet ved NR.

På fritida liker jeg å løpe oppover bratte bakker. Jeg heier på Hønefoss, som kommer til å imponere i eliteserien i år.

Lure med statistikk

Når en jobber med statistikk er det viktig å være kritisk, og sette seg inn i hva statistikken faktisk sier. Man kan ”lure” med statistikk ved å si bare halve sannheten. Her er et par eksempler:

1) Magasiner

Når det kommer et nytt magasin på markedet, ser en gjerne at det reklamerer med "Størst økning hver uke!". Men hva er det som øker mest? Er det i prosent eller i flest trykte eksemplarer? Mest sannsynlig er det prosentvis økning. Likevel, selv om et magasin har størst økning i prosent, trenger det nødvendigvis ikke ha størst økning i antall eksemplarer.

Eksempel:

Opplag uke 1:
Magasin A: 200 000
Magasin B: 20 000

Opplag uke 2:
Magasin A: 210 000
Magasin B: 25 000

Vi ser her at magasin A økte opplaget sitt med 5%, mens B økte opplaget sitt med 25%. Likevel økte A sitt opplag med dobbelt så mange eksemplarer som B.

2) Godteri

Et godteriprodukt på markedet reklamerer med 30% mindre sukker, uten å opplyse om hva det er 30% mindre enn. Er det 30% mindre enn standardprodukter på markedet? 30% mindre enn gjennomsnittlig sukkermengde av egne varer? 30% mindre enn tidligere produkt (med mindre det er et nytt produkt som ikke har fantes før)? Eller er det rett og slett 30% mindre vekt (f.eks. 70 g i stedet for 100 g)?

3) Sitater

Under følger tre sitater om statistikk. Det første er et eksempel på at gjennomsnitt ikke alltid er det beste målet.

"Statistikk er den vitenskap som sier at hvis man har et bein i fryseboksen og et annet på kokeplaten, så har man det i gjennomsnitt ganske skjønt."
Ukjent

"Med statistikk kan man bevise alt - også det motsatte."
James Callaghan

"Ingen er mer skeptiske overfor statistikk enn statistikere."
Claus Moser

Elisabeth Orskaug

Jeg er utdannet sivilingeniør (innen industriell matematikk med vekt på statistikk) ved NTNU, og har jobbet på NR siden august 2009. Prosjekter jeg har jobbet med har hovedsakelig vært statistisk modellering innenfor klima. Jeg har også vært innom bl.a. finansrelaterte problemstillinger (modellere aksjekurs) i masteroppgaven min.

På fritiden liker jeg å trene og holde meg i form, men slenger meg gjerne også ned på sofaen med en film eller en bok. Jeg er også glad i diverse hobbyaktiviteter som å spille kort og brettspill, og også lage kort, scrapbookalbum, smykker og lignende der en kan slippe kreativiteten løs.

If it ain’t broke, don’t fix it!

Klikk på blidet for en stor utgavePå SAND-avdelinga ved Norsk Regnesentral beskriver vi geometrien til olje- og gass-reservoarene som finnes for eksempel under havbunnen i Nordsjøen. Siden geometrien til hvert reservoar ikke er nøyaktig kjent – ingen kan jo vite sikkert hvordan bergartene ligger formet under havbunnen – bruker vi det som heter stokastiske metoder for å matematisk beskrive alle mulige bergarts-formasjoner for et reservoar. Antall muligheter blir litt begrenset hvis vi har data fra seismiske målinger eller testbrønner, men fremdeles er det et svært stort antall mulige formasjoner igjen.

Stokastiske metoder gjør at vi kan si hvor sannsynlig hver av de mulige formasjonene er. Dette er nyttig informasjon som oljeselskapene kan bruke når de skal bestemme hvor de skal bore brønner for å produsere gass eller olje.

Figuren til venstre illustrerer nettopp dette (klikk på bildet for en stor utgave). SANDs arbeid består i å lage mange muligheter for hvordan reservoaret ser ut på fin skala (før ”skifte av skala” i figuren). Selv om de stokastiske metodene for å lage disse mulighetene er i stadig utvikling, har det å bruke slike metoder i arbeidsflyten ikke endret seg. Figuren er nemlig fra forsiden til en årskalender Henning Omre og Frode Georgsen, begge da i SAND, laget i 1993, men både figur og tekst er fremdeles gyldige.

Heidi Kjønsberg

Jeg har jobbet på NR siden 2005, og er seniorforsker i avdelinga for Statistical Analysis of Natural Resource Data. Utdanninga mi har jeg fra Universitetet i Oslo, med en doktorgrad i teoretisk fysikk fra 1998. Jeg har jobbet med kvantefysikk, som forsker i telecom-industrien, og siden jeg startet på NR med matematisk modellering av olje- og gassreservoarer. På fritida lager jeg ofte mye og ganske god mat. Men gjester må finne seg i eksperimentering og tildels mye chili. Jeg liker fysisk arbeid, og holder på å lære meg å gjenkjenne fuglearter fra lyd og utseende.

Syndiker innhold