Bloggen til Ragnar Hauge

Fyrste julenøtt: panagram

desember 3, 2012 - 13:44 — Ragnar Hauge

Assisterande forskningssjef Ragnar Hauge og seniorforskar Anders Løland

Eit pangram er ein meiningsfylt setning som nyttar alle bokstavane i eit språk. Eit døme er

«Quisling var ein kløppar til å spela jazz på xylofon, men lærte seg aldri å spela cembalo før han drog til Washington.»

Klassisk kvalitetsmåling av pangram er kor mange bokstavar dei har. For å unngå at folk berre går på nett og søker opp gode løysingar har vi vald eit anna kriterium:

• Alle bokstavar må brukast minst éin gong.
• Kvar bokstav som er brukt meir enn éin gong får ein kvadratisk straff: Å bruka ein bokstav to gongar gir ein straff på straff på 4, tre gongar ein straff på 9, og så vert det verre. Det er altså betre å bruka tre ulike bokstavar dobbelt enn å bruka éin bokstav tre gongar.

På norsk gir c, q, w, x og z ein del problem, så vi tillet særnamn.

Send inn ditt pangram, anten på bokmål eller nynorsk, til julekalender@nr.no innan torsdag 6. desember kl. 14. Vinnaren stikk av med attraktive NR-effektar.

Ragnar Hauge

Eg har jobba på Norsk Regnesentral sidan 1995. Mesteparten av tida har eg jobba med modellering av bergartar i oljereserervoar, men eg har etterkvart også mykje erfaring med bruk av seismiske data. Ut over det faglege er eg interessert i det aller meste, i alle fall frå eit teoretisk synspunkt.

julenøtter

Sikker lottogevinst?

desember 14, 2011 - 15:16 — Ragnar Hauge

No som lykketallspotten er så stor, bør det vel løna seg å spela Viking Lotto? Så enkelt er det ikkje!

Når ein tipper lotto vil ein i gjennomsnitt få tilbake halvparten av innsatsen. Eit viktig unntak er pengar som vert flytta over frå forrige runde, som ved jackpot (førstepremiebeløpet går over til neste runde dersom ingen vinn førstepremie), eller lykketalspotten i Viking Lotto.

Spele alle rekkene?
Summen som er overført frå tidlegare i denne potten er på i overkant av 130 millionar. Å tippa alle rekkene kostar om lag 50 millionar, av dette får du igjen om lag halvparten, og med 130 millionar overført i tillegg ser det ut som om dette kan vera ei grei investering.

Fullt så enkelt er det likevel ikkje. Hovedgrunnen til det er at lykketallspotten ikkje er garantert. I kvar runde er det berre 1/8 sjanse for at den vert utbetalt, og om det ikkje skjer, har du tapt 25 millionar. I gjennomsnitt vil 16,5 millionar av potten verta utbetalt, så det er framleis eit forventa tap å spela alle rekkjer.

Er 200 millioner nok?
Så kor stor må lykketalspotten bli for at det skal vera interessant? Ei minste grense er 8 x 25 millionar = 200 millionar (sidan ein berre har 1/8 sjanse må beløpet vera 8 gonger så stort som det ein ynskjer å vinna). Men heller ikkje dette er nok, for potten vil verta delt mellom alle vinnarar av førstepremie.

Enorm lykketalspott!
Omsetjinga pleier å auka med storleiken på lykketalspotten, men la oss sjå bort frå det. Kanskje bruker folk alt dei kan på lotto allereie. I alle fall er omsetjinga no på nesten 150 millionar totalt i alle land som er med. Dette er før vi investerer 50 millionar, så det er i gjennomsnitt allereie 3 andre vinnarar der ute. Dermed vert berre 1/4 av potten vår, og beløpet må 4-doblast igjen for å bli interessant. Det vil seia ein lykketalspott på 800 millionar.

To identiske snøkrystallar?
Ein kan jo då lura på kor lenge det er til potten vert så stor. Slik det er no aukar potten med 4-5 millionar per veke. Dersom ein seier 5 millionar vil det seia at ein om 670/5 = 134 veker, eller altså drøyt to og eit halvt år kan byrja å tenkja på denne investeringa. Gitt at ingen har vunne lykketalspotten før det, sjølvsagt. Dessverre er det praktisk talt 100% sannsynlig at nokon gjer det - det er like sannsynleg at det har vore to identiske snøkrystallar på jorda som at lykketalspotten ikkje blir utbetalt i denne tida.

Ragnar Hauge

lotto

2 comments

Store tal

oktober 25, 2010 - 13:27 — Ragnar Hauge

Ungar som har lært å telja vert lett fascinert av store tal, og lurer på kva det største talet er. At det viser seg at det ikkje finst noko største tal er på same tid både naturleg og merkeleg ‑ naturleg av di ein alltid kan få eit større tal ved å leggja til 1, merkeleg av di det er svært vanskeleg å fatta det uendelege.

Så temaet her er framleis endelige, men store tal. Dersom ein ser på talorda peiker ein million seg ut som det første verkeleg store talet. Her oppstår det språkleg konvergens i dei fleste språk, med unntak av Aust-asia. Det heiter milyon i Adzerbajan, miloi på baskisk, miljoona på finsk, million på fransk, tysk og engelsk, milion på polsk, miliwn på walisisk, det er stort sett gjenkjenneleg.

Dette skuldast sjølvsagt til ein viss grad at det kjem frå det latinske mil, som artig nok tyder tusen, men språk som baskisk, ungarsk, finsk og walisisk låner vanligvis lite herifrå. Det verkar naturleg at når behovet for så store tal meldte seg, var det for dei fleste språk like greit å berre låna eit ord som allereie var i bruk. Sjølve ordet million dukka opp på 1200-talet.

Så på millionen er alle like og forstår kvarandre. Det vert raskt verre. Alle språk som har million har også billion, men no meiner ein ikkje lenger det same. I enkelte land vil ein billion vera tusen millionar, medan den i andre land er ein million millionar. Engelskspråklege land nyttar stort sett billion som tusen millionar, ein praksis som har utspring i USA, og vart generelt adoptert i alle formar av engelsk på 1970-talet. Brasil, austlege delar av Europa, Russland og ein del tidlegare sovjetrepublikkar og Indonesia nyttar også dette systemet.

Her til lands nyttar vi billion for ein million millionar, og har, som dei fleste andre land som tel på denne måten, ordet milliard for tusen millionar. Vi har så billiard for tusen billionar, trillion for tusen billiardar, og trilliard for tusen trillionar.

Prefiksa for tala etter milliard kjem også frå latin, men no startar ein å telja frå starten, med bi for 2, tri for 3, qua for 4 og så vidare. I vår notasjon vil tal som sluttar på -illion (og er større enn million) representera talet 10^6n, der n er det latinske talet som tilsvarer forstavinga. Ein kvintillion er dermed 10³⁰, sidan kvint=5. 1000 kvintillionar er så ein kvintilliard, i tråd med million-milliard systemet.

Opp til centillion, som er 10⁶⁰⁰ (cent=100) fungerer dette greit nok, men det vert litt problematisk når ein kjem til 10⁶⁰⁰⁰. Her får vi n=1000, og 1000 er mil på latin, så systemet gir talordet million, men det er allereie brukt. Millinillion er forselått for å løysa dette, men dei færraste ser trangen til å løysa dette problemet. Dette er absurd store tal, som ein nesten aldri vil klare å få bruk for, og om ein gjer det, held det lenge med "10 i sekstusende".

Det største talet som har spela ei anna rolle enn berre å vera eit eksempel på eit stort tal er Skewes tal, som dukka opp i eit matematisk prov frå 1933. Sjølve problemet dreier seg om ein funksjon som tel omtrent kor mange primtal det finst under ei gitt grense. For alle rimelege tal gir denne funksjonen eit litt for høgt tal, men Skewes viste at innan ein kom til 10^10^10^34 ville ein finna tal der funksjonen underestimerer kor mange primtal det er. Dette er eit bisarrt stort tal, grotesk mykje større enn den ovanfor nevnte millinillionen.

For dei som verkeleg er ute etter store tal er utfordringa å finna ein notasjon som kan skriva dei. Dette er ein sport for spesielt interesserte; min nevø i 4. klasse har framleis fullstendig overtaket på alle klassekameratane med sin centilliard når dei konkurrerer om store tal.

Ragnar Hauge

tallbruk

1 kjem oftast først

august 31, 2010 - 11:07 — Ragnar Hauge

I språk er det velkjent at bokstavane ikkje vert brukt like ofte. Spesielt for første bokstav er det stor variasjon i kor ofte dei ulike bokstavane vert nytta. Reint intuitivt vil ein vel tenka at det ikkje er slik for tal – det er like mange tal som startar med 1 som det er tal som startar med 2 eller 3 og så vidare. Reint teknisk er det også slik, med stringente matematiske prov.

Men dersom ein ser på tal vi brukar, vil det vera fleire som startar med 1 enn med noko anna tal. Til dømes kan ein sjå på folketalet i verda frå 1800 og til i dag, ein periode på 210 år. I 120 av desse, frå 1800-1920 var folketalet mellom 1 og 2 milliardar, og starta dermed med 1.

Startpunktet er rett nok heldig vald, sidan det startar med 1, men det forklarer likevel ikkje kvifor folketalet startar med 1 i over halve perioden.

Dersom ein i staden ser på folketalet i USA i same tidsintervall finn ein at det startar med 1 i intervallet 1820-1845 (10-20 millionar) og 1915-1970 (100-200 millionar), altså 80 av 210 år, igjen ei klar overrepresentasjon. Ser ein berre på menn, og reknar med at desse utgjer om lag halvparten, får vi tal som startar på 1 frå 1845-1870 og 1970-2010, altså 65 år, framleis nesten ein tredjedel av åra.

Dette fenomenet er kjent som Benfords lov, etter fysikaren Frank Benford, som oppdaga og forklarte det på 1930-talet. Poenget er at denne samanhengen gjeld for fenomen som i nokon grad er utsett for eksponensiell vekst.

Folketal er eit typisk slik fenomen. Inntil relativt nyleg hadde dei aller fleste land eksponensiell vekst i folketalet, og for verda totalt og USA gjeld dette framleis. Det tyder at i løpet av eitt år veks folketalet med ein gitt prosent. Å auka folketalet i verda frå 1 til 2 millardar krev ei fordobling av folketalet, medan å gå frå 2 til 3 berre er 50% auke, og dermed skjer mykje raskare.

Reint presist seier Benfords lova at 30,1% av tala skal starta med 1, 17,6% med 2, 12,5% med 3, og så daler det jamt inntil berre 4,6% av tala startar med 9. Dersom ein ser på folketala i alle verdas land er dette ikkje ei dårleg tilnærming.

Grunna inflasjonseffektar vil også alle tal i økonomi følgja denne loven. Uavhengig av om det er prisen på brød, medianløn eller BNP vil ein over tid finna at dei oftast startar med 1. I USA er store avvik frå denne loven i økonomital brukt som indisium i rettssaker om økonomisk kriminalitet (t.d. i State of Arizona v. Wayne James Nelson, sjå http://www.journalofaccountancy.com/Issues/1999/May/nigrini). Poenget er at når folk diktar opp tal vil dei stort sett starta like ofte med kvart siffer, og dermed ikkje følgja Benfords lov.

Som illustrert i eksempelet med folketal i USA, der fenomenet var der uavhengig av om ein såg på heile eller halve folketalet, er denne loven uavhengig av måleeining. Dersom ein ser på dei 60 høgaste bygningane i verda har 43% av dei høgd som startar med 1 dersom ein måler i meter. Dersom ein skiftar til fot er det 30%, altså også då klart flest som startar med 1.

Det er også andre moment som gjer at flest tal startar med 1, men desse er svakare. Dersom ein ser på alderen til folk vil den også som oftast starta med 1, men dette skuldast eit anna fenomen, nemlig at 1 kjem først. Dermed vil alle som vert 2 ha vore 1, alle som vert 20 har vore 10-19, og dersom ein vert gamal nok vil alle dei siste åra starta på 1. Dette er ikkje Benfords lov, men ei favorisering av 1 som likevel gjer seg gjeldande for alt som tel opp frå 0 og ikkje kjem til veldig store tal.

Ragnar Hauge

sannsynlighet

Er nettpoker tilfeldig?

august 18, 2010 - 09:31 — Ragnar Hauge

Poker har kjempa hardt for å verta klassifisert som eit spel der ein vinn ved å vera dyktig, ikkje ved å ha flaks. Dette stemmer når ein ser det over mange nok spel, noko som viser seg ved at pokerspelande datamaskiner er i ferd med å verta uslåelege, akkurat som i sjakk. (http://manmachinepoker.com/)

Imidlertid er det framleis stor variasjon i utfallet over kortare periodar, slik som for ei enkelt turnering. Bridge, som også baserer seg på utdelte kort, har stabilisert dette ved at fleire spelar med same kortfordeling. Ein kan då sjå kven som gjorde det beste ut av korta, og utdelinga har dermed lite å seia. I poker er det vanskeleg å sjå for seg noko slikt.

Grunnlaget for å vera dyktig i poker er å vita kor sannsynleg ulike utfall er. Ut over det går spelet ut på å lesa dei andre spelarane, prøva å forutseia kva dei har ut frå kva dei gjer. For at ein skal kunne vita kor sannsynleg det er med dei ulike kombinasjonane, går ein ut frå at korta er rettferdig delt ut. I eit fysisk pokerlag kan ein uærlig delar øydeleggja dette ved å gi seg sjølv, eller meir subtilt ein medsamansvoren, systematisk betre kort.

Den store oppblomstringa av poker har imidlertid i det siste vore på nett, og då dukkar eit anna moment opp. For det første er det veldig vanskeleg å sjekka delinga, ein må stola på datamaskinen. For det andre har no delaren glede av at alle får litt betre kort.

Det mest sannsynlege utfallet i poker er å få ingenting, noko som ofte medfører at ein kastar seg. Det er ikkje så mange av hendene i eit vanleg pokerlag som verkeleg fører til skikkeleg satsing. Sidan pokerselskapa på nett tener pengar på å ta ein del av innsatsen, har dei glede av at det er meir satsing, altså at alle har betre kort. Eit anna moment er å halda på kundane, og mange vil føla at det er meir morosamt å spela ein stad der dei stadig får gode kort, sjølv om dei ikkje vinn så ofte som dei burde med desse. Tek ein dette endå lenger ser ein at nye kundar, eller kundar som har tapt ein del, bør kanskje få ekstra gode kort for å halda på dei.

Sjølv om skeivdelinga er systematisk og ikkje favoriserer nokon, vil den verka forstyrrande på gode pokerspelarar, som veit kva som er sannsynleg. Seriøse pokernettstadar legg derfor vekt på å overtyda kundane om at dei spelar rettferdig, hovudsakleg med to strategiar: Publisering av delingsalgortimane, og eksterne firma som PriceWaterhouseCoopers som validerer og går god for bruken av desse algoritmane.

Dette er ein god strategi, sjølv om den kan slå pinleg ut for den som ikkje har gjort jobben sin. I 1999 klarte ei gruppe dataekspertar å utnytta svake punkt i koden til ein pokernettstad, slik at dei fekk vita rekkjefølgja på korta i stokken, og dermed visste kva kort motstandarane hadde, og kva som ville koma av kort vidare. (http://www.cigital.com/papers/download/developer_gambling.php ) Sidan det var snille gutar som gjorde dette, fortalde dei det til nettstaden, og venta til dei hadde ordna opp idet før dei gikk ut offentleg.

Når ein datamaskin skal sørgja for at noko vert tilfeldig, nyttar ein nesten alltid noko som vert kalla pseudotilfeldige tal. (Enkelte, som Norsk Tipping til Keno og Extra, nyttar ekte tilfeldige tal, men dette er for tregt for nettpoker.) Det finst algoritmar som gir sekvensar med tal som ser tilfeldige ut, men som er heilt systematiske. Dette er pseudotilfeldige tal. Dersom ein kjenner kva algoritme som vert nytta, og kva det forrige talet den gav var, veit ein kva det neste er.

Ekspertane kjente algoritmen for å generera tala, og korleis dette vart gjort om til ein stokka kortstokk, sidan dette var publisert. Det som mangla var å finna kvar i sekvensen av pseudotilfeldige tal ein var. Her var den store feilen i algoritmen: Nettstaden nytta klokkeslettet når spelet starta (koda på millisekundnivå) som startplass i sekvensen for delinga.

Ved å ha ein tilsvarande algoritme og søka gjennom kva resultat ein ville få ved å nytta initialtilstandar nær noverande klokkeslett, var det dermed berre å sjå kva tal som gav match med dei korta som var synlege. Med fem synlege kort var dette eintydig, og ein kjente dermed heile kortstokken.

Som nevnt over kjem ein neppe bort frå å nytta pseudotilfeldige tal i nettpoker, og det er viktig at algoritmen ein nyttar er offentleg kjent, slik at det ikkje er skjulte svake punkt. Det kritiske punktet er dermed å sørgja for at ingen kan gjetta kva initialisering som vert nytta ved delinga. Sidan initialisering kan gjerast sjeldnare (ein treng ikkje ein gong gjera det mellom kvar stokking, berre algoritmen er god nok) verkar det rimeleg at ein her nyttar ekte tilfeldige tal. I praksis nyttar dei seriøse aktørane fenomen som er nesten ekte tilfeldige, basert på mus- og tastaturbruk.

Ragnar Hauge

Regn med oss