Intresset för opinionsmätningar är stort; häromdagen hade Expressen live-bevakning och flera uppföljande inslag och artiklar om den senaste mätningen från Demoskop. Detta trots att den inte visade några statistiskt signifikanta förändringar i förhållande till den föregående mätningen (se t.ex. här, här, här eller här). Även övriga väljarbarometrar genererar många spalter i pressen och inslag i radio och tv. Utöver själva resultaten så har på senare tid de olika opinionsinstitutens arbetssätt ifrågasatts av olika debattörer med mer eller mindre goda argument. I ett större perspektiv kan, som jag tidigare har tagit upp, de statistiska metoderna som gett grunden för opinionsmätningar och andra former av urvalsundersökningar ses som ett stort framsteg för samhällsvetenskapen. De gör att vi genom att ställa frågor till ett urval kan uttala oss om en hel population. På så vis sparas stora kostnader och undersökningar som annars inte hade varit möjliga kan genomföras, till gagn för forskning och samhällsdebatt.
Att vi studerar ett urval för att dra slutsatser för många fler innebär dock att det finns en viss osäkerhet i dessa slutsatser. Men det fina är att om vi drar statistiskt renläriga urval kan den osäkerheten beräknas (visserligen finns även osäkerhet av andra orsaker och som är svårare att beräkna, såsom bortfall, men jag ber om att få återkomma till det i senare inlägg). Det är den urvalsosäkerheten som preciseras genom den mytomspunna felmarginalen. En förändring som ligger utanför felmarginalen brukar benämnas statistiskt säkerställd eller statistiskt signifikant. Man kan diskutera om dessa två namn är klokt valda – uppenbarligen leder de tanken fel för många. En statistiskt säkerställd ökning betyder inte att vi kan vara helt säkra på att någon ökning har ägt rum. Och även om en minskning är statistiskt signifikant behöver det inte betyda att den minskningen har någon signifikant betydelse.
Begreppet statistiskt säkerställd har ingen tydlig definition i litteraturen. Normalt sett används det dock som en synonym till statistiskt signifikant. Vad som avses är att det värde som man har fått fram avviker så mycket från ett annat värde att det inte är troligt att den avvikelsen beror på slumpen. En sådan jämförelse kan exempelvis vara mellan stödet för ett visst parti vid två olika mättillfällen eller mellan partiets stöd och en viss given nivå, till exempel fyraprocentsspärren eller det stöd partiet fick i föregående riksdagsval. Det är värt att understryka att det är fråga om en jämförelse – en enskild skattning kan i sig inte vara statistiskt signifikant eller statistiskt säkerställd (men den kan exempelvis vara statistiskt signifikant skild från noll).
Om en sådan jämförelse visar att avvikelsen är statistiskt signifikant, hur säkra är vi då på att det faktiskt finns någon skillnad? Annorlunda uttryck, om en opinionsmätning visar att ett parti har en statistiskt säkerställd ökning av sitt stöd, hur säkra är vi på att en ökning verkligen har skett? Det har att göra med den så kallade signifikansnivån. Det konventionella är att sätta den till 5 procent, vilket motsvarar ett konfidensintervall på 95 procent. Det föreslogs redan i Ronald A. Fishers klassiska bok Statistical Methods for Research Workers. Ett sådant konfidensintervall täcker i 95 fall av 100 det sanna värdet (förklaras vidare här). Om vi exempelvis antar att stödet för ett visst parti inte har förändrats i opinionen sedan ett riksdagsval kommer urvalsundersökningar ändå i 5 fall av 100 (eller 1 fall av 20) finna en statistiskt säkerställd förändring. Vid upprepade tester av detta slag finner man därför till slut en statistiskt signifikant skillnad även i de fall då en sådan skillnad inte finns i populationen (se Anders Sundells inlägg om byrålådeeffekten för en beskrivning av konsekvenserna av detta).
Varför väljer vi inte någon annan signifikansnivå? Man kan argumentera för att vi inte behöver vara så säkra som vi konventionellt brukar vara eller att vi vill vara än säkrare på att vad vi etiketterar som en statistiskt säkerställd förändring också är verklig. Detta är dock en avvägning – om vi ska vara säkrare på att vad vi betraktar som statistiskt säkerställt också är sant innebär det även att vi kommer att ha svårare att upptäcka skillnader som finns i den population vi vill uttala oss om. Inom statistiken talar man om avvägning mellan fel av typ 1 och typ 2. I den avvägningen är det konventionella valet alltså att landa på 5 procents signifikansnivå.
Typ 2-fel förklarat av twitterkontot @ResearchMark, som kombinerar forskning och Mark Wahlberg på ett självklart sätt.
Att en förändring är statistiskt säkerställd betyder med andra ord inte att det är helt säkert att någon förändring har skett, vilket kan framstå som förvirrande. Till förvirringen bidrar även att man ibland ser kommentatorer och även undersökningsföretag tala om en ”statistiskt säkerställd undersökning” (exempelvis uppger undersökningsföretaget MMS, som bland annat mäter tv-tittande, på sin webbsida att de gör ”statistiskt säkerställda mätningar”, vilket åtminstone för mig är obegripligt). Det antyder att en sådan undersökning skulle vara gjord enligt någon statistiskt korrekt metod, men det finns inte någon definition av vad det skulle innebära. Det är en vilseledande användning av begreppet som inte rekommenderas.
Det är lättare att genom en urvalsundersökning upptäcka en skillnad om den är stor. Om ett parti under en viss period ökar sitt stöd med tio procentenheter är det mer sannolikt att den ökningen fångas upp av opinionsmätningar än om ökningen bara är någon enstaka procentenheter. Men det beror även på mätningarnas precision, vilken i sin tur beror på antalet personer som de baseras på; ju fler personer desto större precision. Det innebär att i undersökningar med ett mycket stort antal svarande kan även mycket små skillnader vara statistiskt signifikanta. Politiska opinionsmätningar varierar inte så mycket i storlek, men det finns andra undersökningar som kan baseras på hundratusentals eller miljontals observationer. I sådana undersökningar kan även mycket små skillnader vara statistiskt signifikanta. Men det är inte alltid sådana skillnader är signifikanta i substantiell mening. Att något är signifikant är med andra ord inte samma sak i statistikens värld som i övriga sammanhang.
Utifrån detta kan man argumentera att begreppen statistiskt säkerställd och statistiskt signifikant borde ersättas med andra begrepp som i högre grad leder tanken rätt. Men världen är full av termer som inte framstår som intuitiva och att i det här skedet introducera nya begrepp skulle nog snarare öka förvirringen. Det sannolika är nog att begreppen kommer att leva kvar. Givet det stora intresset för opinionsmätningar kan det därför vara värt att lägga på minne vad det innebär att något är statistiskt säkerställt eller statistiskt signifikant.