Den mytomspunna felmarginalen

De senaste dagarna har opinionsmätningar diskuterats flitigt på olika håll. Det gäller inte minst vad som är statistiskt säkerställt och vad som inte är det. Tyvärr är debatten stundtals både förvirrad och förvirrande. Det är dock inte så konstigt; statistik är inte enkelt att förklara och mindre att diskutera. Det blir inte heller bättre av att det även råder viss begreppsförvirring. Det är måhända naivt, men här kommer i alla fall ett försök till att förklara vad som avses med ”felmarginaler” och framför allt illustrera den betydelse de har. Ber om ursäkt för att det blir lite långt.

Opinionsmätningar baseras på att man tillfrågar ett urval personer om deras åsikter. Eftersom man inte frågar alla finns en viss osäkerhet i de siffror man kommer fram till. Om man drar ett så kallat sannolikhetsurval (det vill säga om sannolikheten att ingå i urvalet är känd och större än noll för samtliga som tillhör den population man vill uttala sig om, exempelvis röstberättigade i riksdagsval) kan man kvantifiera den osäkerheten i form av en felmarginal för varje skattning. Det innebär exempelvis att om en opinionsundersökning visar att stödet för ett visst parti är 4,4 procent och felmarginalen för den skattningen är 0,6 procentenheter, då kan man bilda ett konfidensintervall som är skattningen plus/minus felmarginalen, det vill säga i det här fallet ett intervall som går från 3,8 till 5,0 procent. Det intervallet kan förstås genom ett teoretiskt antagande om att man skulle upprepa exakt samma undersökning ett stort antal gånger, så kommer intervallet att täcka det sanna värdet i genomsnitt i 95 fall av 100, eller annorlunda uttryckt i 19 fall av 20. Det är med den säkerheten man kan uttala sig. Man kan naturligtvis använda sig av andra säkerhetsnivåer (exempelvis en nivå som ger ett intervall som i genomsnitt täcker det sanna värdet i 99 fall av 100) – det är en avvägning mellan å ena sidan möjligheten att upptäcka skillnader eller förändringar och å andra sidan risken att konstatera en förändring som enbart beror på slumpen. En högre säkerhetsnivå innebär ett större konfidensintervall. Men intervallets storlek beror också på antalet observationer i urvalet. Med ett väldigt stora urval kan även små skillnader bli statistiskt signifikanta (eller statistiskt säkerställda), vilket inte behöver betyda att de är av substantiell betydelse.

Låt mig illustrera detta med ett par exempel. Tänk er en politisk opinionsmätning under ideala förhållanden, det vill säga utan något bortfall eller mätfel och där vi vet att de svarande också skulle rösta om det vore val (ja, vi pratar nu om opinionsmätarnas våta dröm). Sådana mätningar under ideala förhållanden kan simuleras genom att dra slumpmässiga urval av de röstande i ett val. Om vi utgår från 2010 års  riksdagsval så vet vi hur många röster som tillföll de olika partierna. Totalt sett var det 5 960 408 giltiga röster som avgavs då. Om vi då drar 20 slumpmässiga urval om 1 000 röster från dessa 5 960 408 röster får vi något som motsvarar 20 olika opinionsmätningar under ideala förhållanden. Vi kan då skatta stödet för olika partier i respektive av dessa 20 mätningar, och för varje sådan skattning kan vi precisera osäkerheten i form av ett konfidensintervall. I diagrammet nedan illustreras skattningar för Centerpartiet, utifrån resultatet av 20 sådana simuleringar. Varje punkt är en skattning av stödet och de linjer som går ut från punkterna motsvarar konfidensintervallen (95 %-iga). Den vertikala linjen avser det sanna värdet, det vill säga Centerpartiets resultat i 2010 års riksdagsval (6,6 procent). Värt att notera är variationen av skattningarna är ganska stor, i synnerhet om vi beaktar hur stort små förändringar kan slås upp av medier och kommentatorer. Dessutom är det här ett av konfidensintervallen som inte täcker det sanna värdet (det är alltså inte exakt i 1 fall av 20 som det inträffar, även om det råkade ske här, utan det sker i genomsnitt). Detta trots att det faktiska stödet för C är samma i populationen i alla 20 fall. Om vi leker med tanken på att dessa mätningar faktiskt ägde rum och skulle presenteras efter varandra över tid skulle det säkert finnas någon kommentator som skulle kunna förklara växlingarna i stödet (på grund av utspel av partiledaren, händelser i omvärlden, eller något liknande), även om dessa förändringar i det här fallet bara beror på slumpen. Och det här är alltså simulerade opinionsmätningar under ideala förhållanden – det finns en rad problem som försvårar i verkligheten (ok, man kan samtidigt få bättre skattningar genom att använda hjälpinformation, men jag går inte in på det här).

sim_C_1000

Om vi istället tänker oss motsvarande mätningar, men med urval om 2 000 personer, då får vi skattningar som är mer precisa. I diagrammet nedan illustreras resultatet av 20 sådana simuleringar, återigen avseende Centerpartiet. Som framgår av diagrammet hamnar skattningarna i genomsnitt närmare det sanna värdet och konfidensintervallen är mindre än i det föregående diagrammet, eftersom antalet observationer som skattningarna baseras på är fler. Men, och det är viktigt att förstå, det är fortfarande så att konfidensintervallen i genomsnitt täcker det sanna värdet i 95 fall av 100. Och även här har slumpen medfört att konfidensintervallet för en av skattningarna inte täcker det sanna värdet.

sim_C_2000

Förhoppningsvis illustrerar dessa exempel betydelsen av ett konfidensintervall och att skattningar från urvalsundersökningar bör tolkas med försiktighet (även statistiskt signifikanta skillnader kan bero på slumpen). Det här var dock exempel under ideala förhållanden. I verkligheten brottas opinionsmätare med bortfall, mätfel, viktningar och en rad andra problem (läs exempelvis Henrik Oscarssons inlägg om bortfall). Och en del opinionsmätare använder sig av urval som inte är i närheten av sannolikhetsurval och de kan därför inte ens beräkna konfidensintervall. Tyvärr är detta aspekter som sällan tas upp när opinionsmätningar diskuteras, så det finns med andra ord anledning att återkomma till dem.

20 thoughts on “Den mytomspunna felmarginalen

  1. Det mest skrämmande när det gäller rapportering av statistik tycker jag är att man inte klarar att skilja mellan korrelationer och orsakssamband. För att inte tala om oförmågan att skilja mellan procent och procentenheter: Om C ökar från 5 % till 6 % så är ökningen en procentenhet, men 20 procent.

    • vad är samband så ska man se socionomiskt eller ekonosocionomiskt allt hamnar ändå på samma ruta man kommer inte ifrån spänningar om inte alla tjänar 25 till 30 i mpnaden vilket alldrig kommer bli ´verklighet,,så stat existrerar inte om man man inte kör gyllene snittet kanske repertiaon kommer om 1 år 20 ,30 50 år det existrerar inte bara människan,..
      tonykäppi

  2. Hur mycket är uppgiften om att de olika partiernas förändring ligger inom den statistiska felmarginalen eller inte värd?

    Om urvalsmetoden hos ex Sifo inte lever upp till kraven på slumpmässiga urval, bortfallet är stort och ersätts av andra som är villiga att svara – är inte uppgiften om statistisk säkerställd förvillande och lögnaktig? Dvs falsk trygghet.

    Antar att även osäkerhetsmåtten är skeva skattningar.

    • Det finns en rad andra problem med dagens opinionsmätningar, men här ville jag belysa den statistiska osäkerhet som finns även under ideala förhållanden. Det finns anledning att återkomma till andra problem.

    • statstik tror jag spelar roll då novus om nu jag tror rätt är norsk för vi har har statistikier i norden som sammanställer eller har jag fel?så ingen aning vilka har vi som ger rapporter tiil regeringen/intressegrupper/mm eller år det opinoen i allmännliget?det du säger är stat är meningslös eller korrekt?vad jag tror så svenskar levt vid lo länge och vill bryta med det om det jag tror då röda flagga vinar och ser partiet före allt annat.

  3. Mycket bra inlägg, och särskilt relevant är ”Om vi leker med tanken på att dessa mätningar faktiskt ägde rum och skulle presenteras efter varandra över tid skulle det säkert finnas någon kommentator som skulle kunna förklara växlingarna i stödet (på grund av utspel av partiledaren, händelser i omvärlden, eller något liknande), även om dessa förändringar i det här fallet bara beror på slumpen.”

    Eller, som XKCD uttrycker saken: http://xkcd.com/904/ (och som mycket riktigt påpekas där gäller ovanstående verkligen inte bara politik, utan i kanske än större utsträckning sport och ekonomi).

    • ja den var rolig din länk,jag kika på generatrionsval och verkningar bara för intresse och hitta hit ,och hittar gyllene snittet vilket kul i min tankegång ..kanske visssa har det i beräkningar när det är statestik, då det kan visa det man vill se statestik gillar centerns stat som missvisade då nyheter som kommit då jag inte tror detta är statsekist lagt utan mattematisk lagt?

  4. Det känns lite märkligt att SDs framgångar i opinionsundersökningarna leder till en större diskussion om precisionen i dessa undersökningar än de bakomliggande orsakerna – trots att dessa är uppenbara för de flesta.

    • Diskussioner kring opinionsmätningar har blossat upp vid flera tillfällen, jämför till exempel debatten kring så kallade Stugsittarurval. Att så sker nu tror jag snarare beror på att det är fler institut som rapporterar och dessutom används nya metoder som inte har samma vetenskapliga grund. Till detta ska läggas nymodigheter i form av sammanvägningar av mätningar och nya problem, såsom minskad täckning för fast telefoni och ökade bortfall.

      • Ibland så tror man olika – jag kan bara konstatera att det talas mycket om otillförlitligheten hos opinionsundersökningar, att man inte ska göra dem så frekvent, att de inte betyder så mycket så pass långt från valdagen. Samt att statstelevisionen alltid betonar att alla uppgångar för SD är inom felmarginalen. Man undrar om det faktum att de sitter i riksdagen också är inom felmarginalen.
        Men det är onekligen intressant med de data som du visar, och jag inser problematiken kring selektion/urval i tider med minskad telefoni och ökat bortfall. Ökad aktivitet inom telemarketing mm har säkert gjort många människor mindre benägna på att svara på telefonundersökningar.
        Att kommentatorer övertolkar skillnader är dock pinsamt uppenbart. Det finns uppenbarligen en naiv övertro att många människor följer den politiska debatten i minsta detalj – något jag knappast tror är fallet.

  5. precision finns ej bara känsla av vad som kommer,ska man se precision så borde man säga vad man menar utan bara sukta efter svar?det jag ser så existrerar inte precion utan slump och idioter kanske jag en?

  6. Ping: Byrålådeeffekten: Varför överraskande forskningsresultat antagligen inte stämmer |

  7. Hittade den här posten. Jag tittade för ett tag sedan på opinionsundersökningar inför presidentvalet i USA förra året. Där finns ju betydligt fler undersökningar att jämföra. Min slutsats blev att det inte är 1 av 20 undersökningar som ligger utanför felmarginalen, utan snarare omkring hälften. Och det gäller alltså i fallet där det bara finns två kandidater som båda har i närheten av 50%. Det är möjligt att jag har gjort något fel, men min slutsats är att den statistiska felmarginalen är en så liten felkälla i sammanhanget att det snarast är missvisande att ens nämna den. Påpekas kan också att amerikanska opinionsinstitut är mycket mer öppna med hur de genomför sina undersökningar jämfört med de svenska.

  8. Jag misstänker att det finns en viss osäkerhet även i din undersökning, så du bör nog vara försiktig med att dra en sådan slutsats. Dessutom är storleken på felkällan något annat. Men jag håller med om att det ofta är stor uppmärksamhet på statistisk osäkerhet (urvalsfelet), medan övriga felkällor ofta glöms bort.

  9. Jag baserade min undersökning på data från 437 undersökningar gjorda av 23 opinionsinstitut som redovisats här: http://fivethirtyeight.blogs.nytimes.com/2012/11/10/which-polls-fared-best-and-worst-in-the-2012-presidential-race/?_r=0 Dock är det lite oklart för mig vad som avses med ”average error” respektive ”bias”. Om ”bias” ingår i ”average error” så blir det, om man antar att felen är normalfördelade, 52% av undersökningarna som ligger utanför en felmarginal på +/- 2.1 procentenheter, vilket är det vanliga (några få undersökningar har högre eller lägre felmarginal). Dock är det konstigt för flera opinionsinstitut har en bias som är lika stor som det genomsnittliga felet, och det skulle ju då innebära att det inte fanns någon variation alls utan att biasen utgjorde hela felen. Om man då antar att biasen tillkommer utanpå det genomsnittliga felet så skulle 68% av undersökningarna vara fel utanför felmarginalen. Jag kanske har räknat fel här, i så fall vore jag tacksam för synpunkter.

  10. Ping: Hur populärt är SD? | Om makt och politik

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s