Derfor må du kunne statistikk


Kan vi si at Jan er et typisk forbryternavn fordi det er det vanligste navnet på dømte? Lever du lenger hvis du tar en lang utdanning? Hvis du ikke har snøring på statistikk, er det lett å tolke tall feil.

En avis konkluderte med at navnet Jan var på «skurketoppen» etter å ha gått gjennom dommer avsagt i Stavanger byrett.

– Her har vi et klassisk eksempel på rot med absolutte kontra relative tall, påpeker statistikkprofessor Jan Terje Kvaløy ved Universitetet i Stavanger.

Absolutte tall er de tallene vi får når vi teller. Relative tall er de som er satt i forhold til andre tall.

– Journalisten har bare sett hvor mange dømte som heter Jan, men ikke hvor mange som heter «Jan» totalt sett. Gjør vi det, ser vi at Jan er det vanligste mannsnavnet i Norge. Derfor er det ikke overraskende at det også er det vanligste navnet på dømte, sier professoren.

Han påpeker at dersom vi skal finne ut om de som heter Jan har større tilbøyelighet til å være kriminelle enn andre, må vi se på om prosentandelen av Jan blant kriminelle er større enn i befolkningen for øvrig.

Ikke-tilfeldige data

Konklusjoner på bakgrunn av ikke-representative data er en annen statistisk fallgruve.

Kvaløy understreker at dersom vi ønsker å finne ut noe om en hel populasjon, for eksempel innbyggerne i Norge, er det ikke mulig å spørre alle. Vi må nøye oss med å spørre en del av innbyggerne.

Men dersom vi skal kunne si noe troverdig om hele befolkningen, må de vi snakker med trekkes ut tilfeldig slik at vi får et såkalt representativt utvalg.

Spørreundersøkelser på nett og innringningsavstemninger på tv har generelt liten eller ingen verdi fordi de er basert på ikke-representative utvalg, påpeker Kvaløy.

– I nettavstemninger er det for eksempel ikke tilfeldig hvem som stemmer. Det er gjerne de som har sterke meninger om en sak. I tillegg er det ofte lett å manipulere undersøkelsen ved å stemme flere ganger, sier han.

Finner feil årsak

Feil kobling mellom årsak og virkning er en annen vanlig snubletråd.

For eksempel slo en avis fast at lang utdanning forlenger livet. Konklusjonen var basert på at unge menn med fedre med lav utdanning hadde dobbelt så høy risiko for å dø av hjerte- og karsykdom som jevnaldrende med fedre med høy utdanning.

– Men her blingset avisen på sammenhengen. Årsaken var ikke fedrenes utdanning i seg selv, men at folk som har lang utdanning, har en tendens til å leve sunnere, sier Kvaløy.

Generelt er det slik at dersom du har et årsak-virkningsforhold, vil det også være en statistisk sammenheng, men det kan også være en statistisk sammenheng mellom to variabler uten at det er et årsak–virkning-forhold.

Økning i prestelønningene og økning i prisen på alkohol er for eksempel ikke et årsak-virkningsforhold.

– Nei, her kan begge effektene forklares av den felles underliggende faktoren inflasjon, sier professoren.

Helt naturlig variasjon

En annen felle er når vi ikke skjønner når det er snakk om naturlig tilfeldig variasjon.

Resultatene fra nasjonale prøver i grunnskolen er et godt eksempel på dette, påpeker statistikkprofessoren.

– Her er det snakk om små variasjoner som politikere og media gjerne gjør mye ut av. Det tenkes lite på at det er tilfeldig naturlig variasjon på elevene fra år til år og at den tilfeldige variasjonen vil slå mest ut ved små skoler, sier han.

I tolkning av resultatene er det også viktig å ta hensyn til ulike system for deltakelse i prøvene.

– Vi kan for eksempel ha noen skoler som gir mye fritak, mens andre skoler tar med rubbel og bit av elevene, sier Kvaløy.

Gjennomsnitt er ikke det normale

En annen vanlig misforståelse er at gjennomsnitt oppfattes som det normale. Men det normale er at vi har variasjoner omkring gjennomsnittet.

Det er ofte snakk om store variasjoner, og jo mindre utvalget er, desto større naturlig tilfeldig variasjon er det.

Kvaløy understreker at det er viktig å være oppmerksom på dette og hvordan det slår ut. Han trekker fram været som eksempel.

Den såkalte «normalen» er et gjennomsnittstall, og det normale er en betydelig variasjon rundt dette gjennomsnittstallet. Derfor er en temperatur eller nedbørsmengde under normalen ikke noe unormalt.

– I mange sammenhenger ville det vært bedre å operere med et normalintervall. For eksempel et intervall hvor 95 prosent av de historiske målingene er innenfor. Dersom man får en verdi utenfor et slikt normalintervall, for eksempel en temperatur under nedre grense for intervallet, har man større grunnlag for å si at noe er uvanlig, poengterer Kvaløy.

Som å vinne i lotto

Feiltolkning av sjeldne hendelser er en annen fare.

Dersom noe gjøres mange nok ganger, vil hendelser som har liten sannsynlighet for å skje i ett forsøk, likevel skje regelmessig.

Et eksempel på det er Lotto-trekningen: Sannsynligheten for å få sju rette i Lotto dersom man tipper én rekke, er cirka én til fem millioner. Men på grunn av det store antallet som tipper, er det likevel nesten hver uke noen som får sju rette.

Mer alvorlige eksempler finnes i jussens verden der mennesker har blitt uskyldig dømt fordi retten har vurdert det som veldig lite sannsynlig at hendelser har inntruffet tilfeldig.

– Det at en hendelse har liten sannsynlighet for å skje tilfeldig isolert sett, er ikke et tilstrekkelig bevis på at det har skjedd noe kriminelt, påpeker Kvaløy.

Dersom hendelsen har mange muligheter for å oppstå, vil den skje før eller senere – på samme måte som at noen vil vinne i Lotto.

Tekst: Elin Nyberg

Denne artikkelen er også publisert på forskning.no.


Sist oppdatert av Elin Nyberg (29.08.2016)

Skriv ut artikkel print symbol