Lucka #9: Debatten om opinionsmätningarna

Debatten om opinionsmätningarna tycks ständigt pågå. Samtidigt har på senare år flera svenska opinionsinstitut ändrat sina metoder, så ämnet förtjänar diskussion. Tyvärr är dock diskussionen inte alltid klargörande. En orsak till detta är att insamlingsmetod och urvalsmetod ofta blandas samman. Det finns flera olika sätt att samla in information om befolkningens åsikter. Till de vanligare hör telefonintervjuer, besöksintervjuer, pappersenkäter och webbenkäter. För vissa frågor kan valet av insamlingsmetod påverka respondenternas svar, men effekterna är vanligen små eller obefintliga.

En mer central fråga är hur de personer som ingår i undersökningen har valts ut. När personer som ska ingå slumpmässigt väljs från ett register får man ett sannolikhetsurval som gör det möjligt att precisera den osäkerhet som finns i de resultat som tas fram (se tidigare inlägg för utförligare beskrivning). Det finns även undersökningar som inte Fortsätt läsa

Hur mår egentligen telefonundersökningarna i Sverige?

För bara några dagar sedan publicerade det ledande amerikanska opinions- och forskningsinstitutet Pew Research Center en ny rapport om telefonundersökningar. Av den framgår att svarsfrekvenserna i opinions- och marknadsundersökningar i USA nu har fortsatt att falla till ännu lägre nivåer än tidigare. Deras senaste siffror visar på svarsfrekvenser så låga som 6 procent under 2018. Och fallet har varit snabbt. I slutet av 1990-talet låg svarsfrekvenserna i USA enligt deras rapport på 36 procent för att sedan kontinuerligt falla omkring två procentenheter per år ner till 9 procent år 2013. Efter en period av stabilt låga nivåer har de nu alltså fortsatt att falla ännu lägre.

Detta innebär naturligtvis stora problem för undersökningsbranschen i USA. Det är dock omtvistat hur mycket det egentligen betyder för kvaliten på undersökningarna. En del studier pekar på att träffsäkerheten i resultaten ofta kan vara god trots de låga svarsfrekvenserna (se tex Groves 2006 eller Pew 2016). Även om kvaliten kanske är fortsatt acceptabel uppstår förstås flera praktiska och ekonomiska problem med så uppseendeväckande låga svarsfrekvenser.

Hur är då läget i Sverige? För det första är det förvånande svårt att få någon klarhet i denna fråga. När svenska undersökningsföretags opinionsundersökningar återges i medierna rapporteras nämligen sällan någon svarsfrekvens. Det går inte heller alltid att hitta motsvarande information i företagens egna rapporter eller webbsidor. För det andra går det när svarsfrekvenser ändå redovisas inte alltid att förstå hur de över huvud taget har beräknats. Det finns tyvärr ofta stora oklarheter kring vilken typ av urval som används (från vilka urvalsramarna de kommer och vilken kvalitet dessa har) och hur det faktum att det är allt svårare att hitta telefonnummer till urval ur befolkningen hanteras. Jag tänker här bara redovisa några exempel från de väljarbarometrar som regelbundet publiceras i Sverige från flera företag då de utgör det kanske mest välkända exemplet på opinionsundersökningar och utgör något av ett skyltfönster för undersökningsbranschen.

Jag koncentrerar mig här på fyra av de mest välkända och etablerade opinionsinstituten som åtminstone i någon mån använder telefonundersökningar i sina väljarbarometrar. När det gäller Sifo så kan jag inte hitta någon redovisad svarsfrekvens alls i deras rapporter. Enbart felmarginaler och antal intervjuer står att finna. Demoskop, vars väljarbarometrar brukar rapporteras i Expressen, anger inte heller någon svarsfrekvens i sin rapportering. Däremot tillhandahåller Demoskop en föredömligt detaljerad metodinformation om hur deras väljarbarometer genomförs på sin webbplats, men inte någon specifik svarsfrekvens för en viss undersökning.

Ipsos och Novus däremot rapporterar båda tydligt och föredömligt svarsfrekvenser för sina väljarbarometrar. Det som däremot förvånar är att deras redovisade svarsfrekvenser skiljer sig häpnadsväckande mycket åt. Ipsos rapporterar exempelvis i deras väljarbarometer veckan före valet 2018 en svarsfrekvens i sin telefonundersökning på 11%, medan Novus i sin undersökning genomförd under i stort sett samma tidsperiod anger 49%! Ipsos siffror ligger alltså något högre än de amerikanske svarsfrekvenserna, men ändå i ungefär samma härad. Novus angivna svarsfrekvenser befinner sig dock i ett annat universum.

Det finns dock några skillnader i hur de beskriver sina svarsfrekvenser. Novus använder för det första begreppet ”deltagarfrekvens” istället för svarfrekvens, och dessutom med tillägget ”i sökt urval”. Novus rapporterar inte mer i detalj vad dessa tillägg egentligen betyder och hur beräkningen är gjord. Jag är själv inte bekant med begreppet ”sökt urval” inom statistikområdet och har därför frågat några statistiker om de känner till begreppet, men utan framgång. Ipsos anger däremot mer information om hur beräkningen av deras svarsfrekvens är gjord då de i sin rapport särredovisar antalet av hela urvalet som har vägrat delta och antalet som inte har gått att nå. Det framgår då mycket tydligt att det stora problemet är den höga andel som inte över huvud taget går att nå, och att vägran bara utgör en liten del av det totala bortfallet. Ipsos anger också att bortfallet är (ännu) större bland unga och lägre bland äldre, vilket ligger i linje med andra studier.

Så frågan hur svarsfrekvenserna generellt sett ligger till i svenska opinions- och marknadsundersökningar som görs via telefon är fortsatt obesvarad. Skiljer sig verkligen Ipsos och Novus svarsfrekvenser åt så enormt som det ser ut? Eller finns det oredovisade skillnader i hur de räknar och definierar bortfall som förklarar dessa vitt skilda siffror? Internationellt sett finns en etablerad standard för bortfallsredovisning och svarsfrekvensberäkning som den amerikanska organisationen AAPOR (American Association for Public Opinion Research) har tagit fram. Om sådana standarder följdes skulle transparens och jämförelser av svarsfrekvenser avsevärt underlättas.

Bland undersökningar från en del myndigheter och universitet förekommer dock fortfarande svarsfrekvenser omkring 50 procent. Exempelvis har Statistiska centralbyråns stora Arbetskraftsundersökning en svarsfrekvens på drygt 50 procent. Även de årliga SOM-undersökningarna vid Göteborgs universitet har en svarsfrekvens på omkring 50 procent. Båda dessa har dock utförliga metodredovisningar som tydligt anger hur svarsfrekvensen har beräknats och hur urvalet är framtaget.

Telefonundersökningar har dock ett särskilt problem i och med att det måste gå att hitta ett telefonnummer till de som finns i urvalet som ska delta i undersökningen. I Sverige används numera vad jag vet nästan aldrig klassiska telefonurval från framslumpade telefonnummer, så kallad random-digit-dialing (RDD). Den metoden var betydligt enklare att använda när det bara fanns fasta telefoner och det gick lätt att slumpa fram sifferserier inom olika riktnummerområden. Idag finns istället två huvudmetoder som tycks vara de vanligaste: att dra ett slumpmässigt urval från befolkningsregistret som man sedan i största möjliga mån försöker leta upp telefonnummer till (så kallad nummersättning av urvalet). Den andra metoden är att hoppa över det första steget och istället köpa ett urval från någon av de kommersiellt tillgängliga databaserna över individer i Sverige som har kända telefonnummer.

En del av företagen anger vilken metod för urvalsdragning de använder, men tyvärr inte alla. Låt mig ta ett exempel. Anta att vi ska göra en undersökning och kan hitta telefonnummer till 70% av ett befolkningsurval, och att sedan 30% av dessa går med på att delta i undersökningen och svara på våra frågor. I det läget vore det enligt min mening felaktigt att bara säga att 30% har svarat på undersökningen, när det i själva verkar bara är 21% (70%x30%) av hela befolkningsurvalet som har deltagit i undersökningen.

Jag tänkte avslutningsvis demonstrera problemet genom att visa några färska siffror på andelen av ett urval som kan nummersättas från den nyligen avslutade nationella SOM-undersökningen 2018. SOM-undersökningarna är huvudsakligen postenkäter med möjlighet att svara på webben för de som vill. Som ett led i fältarbetet använder vi dock påminnelser via telefonsamtal och SMS. För att detta ska vara möjligt så nummersätts därför urvalet av ett företag som vi anlitar. Jag nämner inte här vilket företag det rör sig om då det kan riskera att uppfattas som reklam, men om någon hör av sig och vill veta berättar jag naturligtvis detta. Min uppfattning är att vår nummersättning troligen var ungefär så framgångsrik som de flesta är numera i Sverige.

I grafen* nedan visas den procentandel som vi kunde hitta ett telefonnummer till (antingen fast nummer eller mobilnummer), både i hela urvalet och i några olika åldersgrupper.

figur1

Vi lyckades alltså hitta telefonnummer till 68 procent av hela befolkningsurvalet. Då har vi heller inte tagit hänsyn till att en del av dessa kan utgöras av felaktiga mobilnummer som inte går till rätt person. Så andelen som det går att hitta ett fungerande telefonnummer till kan i själva verket vara ännu något lägre. Det blir också tydligt att det är avsevärt svårare att hitta telefonnummer till de yngre delarna av befolkningen än till de äldre. Det finns även andra relevanta skillnader mellan olika grupper, som exempelvis att det är betydligt lättare att hitta telefonnummer till människor som är födda i Sverige jämfört med till människor som är födda i något annat land.

Givet informationen ovan är det inte svårt att komma till slutsatsen att svarsfrekvenserna på telefonundersökningar bland yngre inte rimligen kan vara särskilt höga. Om vi bara hittar telefonnummer till omkring hälften, och har i åtanke den idag mycket stora motviljan att svara på okända nummer bland yngre samt den låga viljan att delta i undersökningar går det ganska snabbt att se att telefon inte är en lätt väg att få en hög svarsfrekvens bland yngre.

Det är beklagligt att så lite information om bortfallet redovisas av de stora företagen att det är svårt att få en klar bild av huruvida de kommersiella telefonundersökningarna i Sverige följer den internationella trenden mot mycket låga svarsfrekvenser eller om Sverige är ett undantag.

 

* Tack till Klara Bové, Sophie Cassel, Marcus Weissenbilder och Frida Tipple för arbetet med metodanalysen av de årliga SOM-undersökningarna 2018 som ligger bakom informationen om nummersättningen.

 

 

 

Medierna och opinionsmätningarna: fyra förslag till förändring

Debatten om de politiska opinionsmätningarna har ånyo tagit fart. Det är inte förvånande då höstens val närmar sig och intresset för partiernas stöd i befolkningen därmed ökar. Daniel Nordström, chefredaktör och ansvarig utgivare för Mittmedias tidningar i Västmanland och Stockholmsregionen, gav debatten extra bränsle genom att besluta att hans tidningar varken ska genomföra eller återge några opinionsundersökningar (med undantag för TT-texter och ledarsidan). Nordström motiverar beslutet med att opinionsmätningar inte går att lita på och håller fram det senaste presidentvalet i USA och Brexit-omröstningen i Storbritannien som stöd för den slutsatsen.

Inför förra årets franska presidentval fattade Le Parisien ett motsvarande beslut, men såvitt jag känner till är det ovanligt internationellt sett och saknar motstycke i Sverige. Självfallet är det ett beslut som står en dagstidning fritt att fatta, men det förefaller Fortsätt läsa

Lucka #19: En ny värld av väljarbarometrar

Snart är det 2018 och därmed valår igen i Sverige. Under valår brukar opinionsmätningar i allmänhet och så kallade väljarbarometrar i synnerhet få mycket stor uppmärksamet i media, av journalister och i valrörelsen. Väljarbarometrar är opinionsmätningar som avser att mäta väljarkårens partisympatier och ge en fingervisning om hur det kan tänkas gå i valet. Inför förra valet 2014 fanns mycket liten skillnad mellan de olika privata företagens väljarbarometrar vad gäller metoderna de använde för att göra sina opinionsmätningar.

De etablerade företagen vars väljarbarometrar nådde stor spridning som exempelvis Sifo, Ipsos, Demoskop och Novus använde alla enbart slumpmässiga befolkningsurval och telefon som datainsamlingsmetod. Inte heller vilka viktningsmodeller företagen Fortsätt läsa

Lucka #11: Du visste en hel del, John Snow

Häromdagen sökte jag en viss uppgift om John Snow, när Googles sökmotor frågade om jag inte egentligen avsåg ”Jon Snow”. Ett tecken i tiden måhända. Men det är inget ovanligt att en namne ger upphov till missförstånd; att i dag tala om den brasilianske fotbollsspelaren Ronaldo kräver ett förtydligande epitet i stil med den gamle, eller den riktige. Och om man i politikintresserade kretsar vill uttrycka sin beundran för Scott Walker, bör man precisera att man avser mannen med en av pophistoriens vackraste röster och inte den kontroversielle guvernören i Wisconsin. Och det finns onekligen värre öden än att blandas samman med karaktären Jon Snow från Game of Thrones – han är ändå den rättrådige kungen i norr – men John Snow var en riktig hjälte.

John Snow brukar benämnas som en av grundarna av epidemiologin, men hans historia Fortsätt läsa

Lucka #20: Räkna med bortfall

Urvalsundersökningar är fantastiska – genom att fråga ett slumpmässigt urval om några tusen personer kan vi uttala oss uppfattningar i en befolkning bestående av miljontals människor. Det finns visserligen en osäkerhet i de resultat vi når, men den osäkerheten kan preciseras och kvantifieras. Detta tack vare den statistiska teori som ligger som grund för urvalsundersökningar och därmed även för en stor del av den samhällsvetenskapliga forskningen (se tidigare inlägg för utförligare historik).

Tyvärr verkar inte alla hysa varma känslor för sådana undersökningar; det finns de personer som vägrar att delta när opinionsinstituten hör av sig. På så vis blir de en del av bortfallet. I de klassiska böckerna om statistisk urvalsmetodik ägnades inte många rader åt bortfall, men i takt med att färre svarar på undersökningar har bortfallsproblematiken blivit ett allt mer uppmärksammat forskningsområde (se t.ex. en färsk avhandling i statistik av Minna Genbäck, Umeå universitet). I Sverige har frågan de senaste åren lyfts fram på Fortsätt läsa

Vad tycker svenskarna om flyktingpolitiken? – Del II

Det här är ett gästinlägg av Peter Esaiasson, professor i statsvetenskap, och Torbjörn Sjöström, VD för Novus. Läs även del 1.

***

Bland forskare är ”Getting to Denmark” ett uttryck för lyckade moderniseringsprocesser. Det danska exemplet brukar framhållas också i den svenska debatten om flyktingpolitik, men då på ett mindre smickrande sätt. Sedan Danmark i början av 2000-talet införde en mer restriktiv flykting- och invandringspolitik har landet utgjort en negativ kontrastpunkt i den svenska debatten. Att Sverige skall föra en mer generös flyktingpolitik än Danmark har varit en utgångspunkt för de etablerade partierna och för de allra flesta i det offentliga samtalet. Jämförelsen med Danmark torde också ha funnit med i bilden när Stefan Löfven i samband med omläggningen av flyktingpolitiken i november 2015 sa att han är stolt över vad Sverige har gjort men att andra nu måste ta över ansvaret.[1]

I detta blogginlägg skall vi använda det danska exemplet för att kritiskt pröva påståendet att Sveriges generösa flyktingpolitik under 2000-talet har varit svagt förankrad bland medborgarna (se del I i denna miniserie). Om många medborgare håller med om att Sverige har gjort rätt i att under lång tid bedriva Europas generösaste flyktingpolitik bör detta märkas vid en utvärderande jämförelse med den danska politiken – i början av 2016 må det finnas mycket att vara kritisk mot i den svenska flyktingpolitiken, men hade det verkligen varit bättre att på ett tidigt stadium ta efter den danska politiken?

För att pröva uppslutningen bakom den svenska linjen har vi vid två tillfällen frågat representativa urval av svenska medborgare över 18 år om Sverige eller Danmark har fört den bästa flyktingpolitiken under 2000-talet. Frågan har ställt inom ramen för Novus webomnibuss-undersökningar under vecka 6 och 7 i februari 2016 (antalet web-intervjuade var 1014 i Studie 1och 865 i Studie 2).

Fortsätt läsa

Lucka #15: Enkäter som samtal?

Lucka #15: Enkäter som samtal?

Detta inlägg bygger på en artikel publicerad i International Journal of Public Opinion Research av Delia Dumitrescu och Johan Martinsson.

 

Det diskuteras ofta hur tillförlitliga resultat från opinionsmätningar, enkätundersökningar eller andra typer av systematiska frågeundersökningar är. Vanliga frågor är då vilken typ av urval som har använts, hur hög svarsfrekvensen är, hur stort urvalet är, eller om resultaten är statistiskt signifikanta i någon betydelse av detta. Något som är minst lika viktigt, men ofta svårare att diskutera, är hur väl utformade undersökningar är vad gäller frågornas formulering, svarsalterantiv eller andra designaspekter av en enkät eller annan undersökning.

Denna typ av frågor går det inte lika lätt att kvantifiera eller att säga vad som är rätt eller fel. En högre svarsfrekvens brukar till exempel betraktas som bättre än en lägre svarsfrekvens, och ett resultat kan ibland vara statistiskt signifikant eller inte. Men med frågeformuleringar och liknande aspekter av undersökningar är det lite annorlunda, det gäller då i stort en omdömesfråga som är öppen för diskussion.

Vi vet sedan åtskilliga decennier ganska mycket om hur frågor bör och inte bör formuleras i enkätundesökningar. För detta finns otaliga handböcker och forskningsöversikter. Dessa har dock fokuserat på konsekvenserna av utformningen av en fråga i en undersökning för kvaliten på svaren på just den frågan (eller möjligen starkt relaterade och näraliggande frågor). Tillsammans med Delia Dumitrescu har jag de senaste åren därför genomfört ett par studier som utforskar om och hur mer eller mindre god frågeutformning och enkätdesign påverkar svaren på undersökningen även i andra, orelaterade, frågor. Vår utgångspunkt är att enkätundersökningar och andra typer av surveyundersökningar bör betraktas som en social konversation, där vissa regler och normer för sociala konversationer bör respekteras från enkätkonstruktörernas sida. För en introduktion till det konversationslogiken i undersökningar, se Schwartz 1995. Några av de konversationsregler som enkäter bör respektera handlar om huruvida informationen enkätdeltagarna får är begriplig, kommer i lagom mängd, är korrekt, och relevant.

Kvardröjande effekter av frågeutformning

Det nya med vår studie är att vi kan visa att brott mot dessa konversationsregler på ett ställe i enkäten försämrar kvaliten på svaren även i ett annat avsnitt av en enkät. För att testa detta använde vi ett avsnitt enkätfrågor som kan anses vara lite svårare än genomsnittet, och som vi förväntade oss att en del respondenter skulle tycka var relativt svåra att besvara. Ett exempel på en fråga som ingick bland dessa någor svårare frågor var hur stort förtroende respondenterna har för fortifikationsverket.

Själva undersökningen gick sedan ut på att två saker varierades slumpmässigt. För det första fick en del deltagare fick se svarsalternativet ”ingen åsikt”, medan andra inte fick se något sådant alternativ. Att utesluta ”ingen åsikt”-alternativet tolkar vi i detta fall som ett brott mot konversationslogiken då det i just detta avsnitt är relevant. För det andra fick en del deltagare läsa in en instruktion innan det svårare avsnittet som förmedlade att vi önskade att de skulle läsa frågorna och fundera noga innan de svarade, och som också varnade för att en del kunde tycka att de var svåra att svara på. Samtidigt fick andra deltagare inte läsa denna information innan det svåra avsnittet.

För att mäta om dessa skillnader i enkätutformning påverkade deltagarna så inkluderade vi en uppsättning frågor som vi vet från tidigare studier att det föreligger ett samband mellan. I detta fall handlade dessa frågor om deltagarnas inställning till miljöpolitik och deras eget agerande i miljöfrågor. Det är väl etablerad sedan tidigare att de som är mer benägna att stödja miljöpolitiska förslag också är mer benägna att själva engagera sig i miljövänligt beteende, som exempelvis att sopsortera, köpa miljömärkta produkter etc (det vill säga ett ”positivt samband”). Sambandet mellan stödet för miljöpolitik och miljövänligt beteende beräknades sedan i form en korrelationskoeffcient där 0 betyder att det inte finns något samband mellan de två variablerna, och +1 betyder att det föreligger ett maximalt/fullständigt samband. Figuren nedan visar huvudresultatet från en av våra studier.

Capture

Sambandet för den grupp som när de tidigare i enkäten svarade på det relativt svåra avsnittet inte fick någon särskilt information och inte heller något ”ingen uppfattning”-alternativ (IU) var alltså +0.43 (kontrollgruppen), medan vi i den grupp som fick se en informationsvignette kunde se ett samband på +0.50, och i den grupp som både fick en informationsvignette innan de svåra frågorna och dessutom fick möjligheten att säga ”ingen uppfattning” var sambandet så högt som +0.57. Detta är avsevärda skillnader. Sambandet ökar alltså i styrka med 32% (från 0.43 till 0.57) när vi vinnlägger oss om att anpassa enkätens utformning så att vi respekterar sociala konversationsregler.

Men vilket är då ”rätt” resultat? Vilket är den sanna styrkan på korrelationen? Det går inte att säga. Men vår utgångspunkt här är att de högre värdena troligen är mer tillförlitliga. Hur kan vi veta det? Det kan vi i strikt mening inte. Men de deltagare som ingick i de grupper som resulterade i ett högre samband spenderar något mer tid på webbsidan när de svarade, och de rapporterade själva att de var varit något mer uppmärksamma under tiden de svarade på enkäten än andra grupper.

Inte nog med att vi behöver ha urval av bra kvalitet och ställa välformulerade frågor, vi måste dessutom anstränga oss för att respektera samtalslogiken igenom hela våra undersökningar. Annars riskerar våra respondenter att tappa förtroendet för oss och börja svara mindre mindre uppmärksamt och noggrant. Särskilt uppmärksamma bör vi vara när resultat från olika undersökningar jämförs. Åtminstone om det gäller resultat som bygger samband av något slag.

PS

Vilket förtroende hade då deltagarna för fortifikationsverket undrar kanske någon? Vi kan säga såhär: När deltagarna inte fick välja alternativet ”ingen uppfattning” så valde hela 74 procent mittalternativet ”varken stort eller litet förtroende”. Fanns däremot alternativet ”ingen uppfattning” så valdes det av hela 43 procent.

 

Vad är statistiskt säkerställt eller statistiskt signifikant?

Intresset för opinionsmätningar är stort; häromdagen hade Expressen live-bevakning och flera uppföljande inslag och artiklar om den senaste mätningen från Demoskop. Detta trots att den inte visade några statistiskt signifikanta förändringar i förhållande till den föregående mätningen (se t.ex. här, här, här eller här). Även övriga väljarbarometrar genererar många spalter i pressen och inslag i radio och tv. Utöver själva resultaten så har på senare tid de olika opinionsinstitutens arbetssätt ifrågasatts av olika debattörer med mer eller mindre goda argument. I ett större perspektiv kan, som jag tidigare har tagit upp, de statistiska metoderna som gett grunden för opinionsmätningar och andra former av urvalsundersökningar ses som ett stort framsteg för samhällsvetenskapen. De gör att vi genom att ställa frågor till ett urval kan uttala oss om en hel population. På så vis sparas stora kostnader och undersökningar som annars inte hade varit möjliga kan genomföras, till gagn för forskning och samhällsdebatt.

Att vi studerar ett urval för att dra slutsatser för många fler innebär dock att det finns en viss osäkerhet i dessa slutsatser. Men det fina är att om vi drar statistiskt renläriga urval kan den Fortsätt läsa

Inte säkert att opinionsmätningen som kommer närmast valresultatet är bäst

Sedan jag i fredags publicerade jämförelsen av opinionsinstitut utifrån vilka metoder de använder sig av har två saker hänt. Den första är att Ipsos, Novus och Demoskop alla signalerat att de ska redovisa mer information om sina metoder i kommande väljarbarometrar, vilket är mycket välkommet. Ju större transparens, desto lättare kan vi utvärdera kvaliteten.

Den andra, och som det här inlägget handlar om, är att jag fått många kommentarer om att det är meningslöst att utvärdera metoden, när man bara kan jämföra resultatet – det vill säga, hur nära institutens prognoser kom valresultatet. En liknelse var att det jag gjorde var som att efter en fotbollsmatch utvärdera spelidéerna för att se vilket lag som var bäst, snarare än att titta på vilka som gjorde flest mål.

Fortsätt läsa