Byrålådeeffekten: Varför överraskande forskningsresultat antagligen inte stämmer

”Postkodlotteriet gynnar regeringen.” Det var vad jag hade tänkt att det här inlägget skulle ha för rubrik. Det finns forskning som visar att väljare ibland straffar politiker för händelser bortom politikernas kontroll, som naturkatastrofer (även om politikernas agerande efter naturkatastrofen är viktigare, enligt samma studie). Jag tänkte därför att det inte vore helt orimligt om de kommuner som vunnit i Postkodlotteriets ”Grannyra”, där många miljoner delas ut till personer i en postkod, skulle göra att stödet för regeringen ökade i kommunen.

Jag undersökte därför vilka kommuner som under mandatperioden 2006-2010 vunnit i Grannyran: 12 stycken. Därefter jämförde jag hur stödet för alliansen förändrats mellan 2006 och 2010 i de kommunerna med i övriga kommuner.

Påverkar inte stödet för regeringen.

I kommuner där det inte varit någon grannyra ökade stödet för Alliansen med i genomsnitt 0,89 procentenheter. I kommuner där det varit en grannyra ökade stödet i genomsnitt med 1,13 procentenheter. Ingen stor skillnad, och alldeles för liten för att man ska kunna vara säker på att den inte beror på slumpen. I diagrammet nedan har varje kommun ritats ut efter hur många procent av rösterna alliansen fick 2006 (x-axeln) och 2010 (y-axeln). Röda circlar är de kommuner som haft en grannyra. De skiljer inte nämnvärt ut sig från resten, utan ligger kring den svarta regressionslinjen – där man hade kunnat förvänta sig.

Stöd för alliansen 2006 och 2010 i svenska kommuner. Rödmarkerade kommuner vann på grannyran under mandatperioden.

Stöd för alliansen 2006 och 2010 i svenska kommuner. Rödmarkerade kommuner vann på grannyran under mandatperioden.

När jag fick det här resultatet hade jag först tänkt strunta i att skriva något inlägg – hur intressant är det med ett inlägg som visar att Postkodlotteriet inte påverkar stödet för regeringen? Men jag tänkte om. Ett problem med forskning är nämligen den så kallade byrålådeeffekten. Den innebär att oväntade och uppseendeväckande resultat publiceras, medan mindre uppseendeväckande och mer väntade resultat stoppas i byrålådan.

På ett sätt verkar det rimligt: det är naturligtvis intressantare att läsa om genombrott än om ”business as usual.” Men det här blir problematiskt när man jobbar med statistiska analyser.

Som Richard Öhrvall har visat i ett annat inlägg blir det då och då fel i statistiska analyser, eftersom man alltid jobbar med viss osäkerhet. Den vanliga säkerhetsnivån är 95 procent: 19 gånger av 20 drar vi rätt slutsats, medan vi en gång av 20 drar fel slutsats. För en given undersökning är det rätt bra chans att dra rätt slutsats. Problemet uppstår när man gör många studier, och inte alla publiceras.

Det är alltså en chans på tjugo att man bara på grund av slumpen hittar en statistiskt säkerställd effekt, fastän det inte finns någon i verkligheten. Om man pröver tjugo osannolika hypoteser kommer man antagligen en av gångerna få ett statistiskt signifikant resultat, fastän ingen av hypoteserna stämmer.

För att testa det här gjorde jag en simulering. Jag bytte ut de 12 kommunerna som vunnit i Grannyran mot 12 andra slumpmässigt valda kommuner. Därefter undersökte jag om det fanns någon statistiskt signifikant skillnad mellan de kommunerna och övriga i förändring i stöd för alliansen mellan 2006 och 2010. Det borde det ju alltså inte finnas, eftersom jag bara hittat på att de vunnit i Postkodlotteriet. Den här proceduren gjorde jag om 1000 gånger.

I digrammet nedan visas den simulerade effekten av att ”vinna på Grannyran” i den här simuleringen. Den uppmätta effekten visas på x-axeln, och antalet simuleringar på y-axeln. I de flesta fallen hamnar den uppmätta effekten nära 0, vilket ju är rimligt eftersom det inte finns någon effekt. Men i exakt 50 fall av tusen blev skillnaden så stor att analysen visade att effekten var statistiskt signifikant. Dessa simuleringar är rödmarkerade i diagrammet.

sim1000

Det fanns alltså en liten chans, fem procent, att det bara på grund av slump blivit så att de tolv kommuner som vunnit på grannyran hade förändrat sitt stöd för alliansen i så positiv eller negativ riktning att det förefallit osannolikt att det skulle bero på slump. Då hade den här undersökningen kunnat väcka en del uppmärksamhet tror jag.

Problemet blir alltså om bara de statistiskt signifikanta och överraskande resultaten publiceras, och resten glöms bort. Det här problemet är tyvärr allvarligt, och beskrivs bland annat i en artikel med den talande titeln ”Why most published research findings are false.

En annan genomgång visade att resultaten i 47 av 53 undersökta genombrottsstudier inom cancerforskningen inte kunde återskapas. http://www.reuters.com/article/2012/03/28/us-science-cancer-idUSBRE82R12P20120328 En anledning kan givetvis vara att forskarna har fuskat eller slarvat. Men en viktig anledning är nog också att det är mycket större sannolikhet att ett spektakulärt resultat, ett genombrott, publiceras än ett ickeresultat.

Det man alltså bör fråga sig när man som forskare, journalist eller nyhetskonsument hör om något överraskande forskningsresultat är därför ”är det troligt att jag skulle höra talas om den här studien om resultatet varit det motsatta?”

Om inte, är det mer troligt att resultatet beror på slumpen. Jag sökte på Dagens Nyheters hemsida på orden ”en studie” och hittade då direkt exempel på några uppseendeväckande studier. Jag har skrivit ut rubriken och därefter vänt på resultaten. Fundera på hur troligt det är att du skulle se en artikel med den senare titeln.


”Lättläsk kopplas till depression” – ”Lättläsk kopplas inte till depression”


”Stor studie: Kaffedrickare lever längre” – ”Stor studie: Kaffedrickare lever inte längre än andra”


”USA-studie: Lite vodka är inte fel när kreativiteten ska väckas” – ”USA-studie: Lite vodka är fel när kreativiteten ska väckas”


”Forskarstudie: Fruktätande elev presterar bättre” – ”Forskarstudie: Fruktätande elever presterar inte bättre än andra”


Inte lika troligt va? Jag säger inte att resultaten i de här studierna är fel, men risken är högre än om det handlat om forskningsfrågor där båda utfallen varit intressanta. Ta lättläskartikeln till exempel. Om man läser vidare på BBC om den ser man att forskarna inte har någon förklaring till varför det skulle finnas någon koppling mellan lightläsk och depression – ytterligare ett varningstecken.

Min gissning är att man prövat om det finns någon koppling mellan depression och en mängd olika drycker och maträtter och sedan skrivit om just det som blev statistiskt signifikant. Varför bara testa lightläsk om de inte har någon teori om varför det spelar roll? Och som sagt tidigare, prövar man 20 samband kommer ett att bli statistiskt signifikant, bara på grund av slumpen. Det är då vilseledande om man bara skriver om det resultatet, och ännu allvarligare om man kommer med rekommendationer som att man faktiskt ska dra ner på konsumtion av lightläsk för att undvika depression, som de här forskarna gör.

Så vad blir slutsatsen? Ta överraskande forskningsresultat från enskilda studier med en nypa salt. Om resultaten har återskapats i flera studier är det mer troligt att de stämmer. Och som forskare bör man undvika att göra statistiska undersökningar där bara det ena utfallet är intressant att rapportera om – som om Postkodlotteriet ökar stödet för regeringen!

15 thoughts on “Byrålådeeffekten: Varför överraskande forskningsresultat antagligen inte stämmer

    • Ha! Den artikeln (som alltså handlar om att det går bättre för den spanska regeringen på orter som vinner på jullotteriet) hade jag faktiskt sett någon gång men glömt bort. Tack! Det är ju ett skolexempel. Hur intressant hade nollresultatet blivit?

      I och för sig är mitt intryck att författarna är duktiga, de har gjort andra bra grejer. Och när jag skummar tabellerna så verkar det som att de backar ju upp med data från en enkät, även om det verkligen är precis att det resultatet blir signifikant.

      Å andra sidan har jag hört exempel på att det förekommer korruption i spanska lotterier – att politikers hembyar tenderar att vinna oftare än man skulle kunna tro. Och då är det ju till och med rimligt att rösta mer på regeringen för att man vinner! Men det är bara hörsägen.

  1. ”Så vad blir slutsatsen? Ta överraskande forskningsresultat från enskilda studier med en nypa salt. Om resultaten har återskapats i flera studier är det mer troligt att de stämmer.”

    Faller inte denna slutsats på den argumentation som föregår slutsatsen?

    ”Och som forskare bör man undvika att göra statistiska undersökningar där bara det ena utfallet är intressant att rapportera om – som om Postkodlotteriet ökar stödet för regeringen!”

    Detta känns som en – på någon odefinierad skala – ”rimligare” slutsats. Statistisk undersökning, aka sk kvantitativ metod, bygger på ett språk – matematik.

    Vad kan utgöra alternativ? Ett exempel är sk icke-statistisk forskning, aka sk kvalitativ metod. Det bygger också på språk – eller flera beroende på vilket språk du väljer för att presentera din forskning.

    Då blir slutsatsen att:

    ALLA forskare bör, oavsett val av metod och tillvägagångssätt, undvika att forska där bara det ena utfallet är intressant att rapportera om.

    • Det jag menade var att det är mycket mindre sannolikhet för att ett resultat som uppkommit bara av slump ska upprepas. Om vi till exempel antar att det inte finns något samband mellan lightläskdrickande och depression och gör en uppföljningsstudie så är sannolikheten att man hittar ett samband även där bara 5 %. Men visst, man kan ju göra 20 uppföljningsstudier och bara skriva om en… Men då handlar det ju om medvetet fusk.

      Jag håller med dig om att devisen borde gälla för alla. Men när det till exempel handlar om experimentell forskning är det ju i alla fall mycket lättare att upprepa studierna. Om man till exempel finner att en viss substans ökar tillväxten av något protein eller så så är det ju bara att göra om experimentet flera gånger för att se om man får samma resultat. Det brukar också vara ett krav i de absolut bästa tidskrifterna. Thomas Edison sägs ju ha gått igenom 800 material för glödtrådar i glödlampor i jakten på det rätta. Det är verkligen att tråla i data, men uppenbarligen fungerade det, eftersom han när han hittat rätt kunde upprepa experimenten.

      Värre är det om man utgår från observationsdata, som inte går att påverka, exempelvis graden av demokrati i världens länder. Där kan vi ju inte inhämta ny data – vi är fast med den vi har och det blir då mycket svårare att avgöra hur hållbart resultatet är.

      Men som sagt, det är ju aldrig fel att utgå från teoretiskt intressanta frågeställningar där båda utfallen är intressanta, oavsett metod!

      • Det är en enorm skillnad i att ”tråla efter data”/fiska efter data i de exempel du tar upp.

        I fråga om att som Edison hitta material som fungerar för en glödlampa är det både rimligt och ok.

        I fråga om att hitta substanser med effekt i människan (som tex vid läkemedelsutveckling) är rimligt på någon nivå och förhoppningsvis även ok (inte minst ut etisk synvinkel).

        I fråga om sk samhällsvetenskapliga studier som tex samband mellan light-läsk och depression eller postkodslotter och politiska val är det varken rimligt eller ok – och det gäller från flera aspekter sett.

        En spontan fråga att ställa sig är: Var ligger värdet av det du gör?

        En högst relevant del rör intressenter. Vem är intressent? Varför är intressenten intressent?

        Dock handlar det primärt om helheten och det sk angreppssättet. Där används ett språk för att, som du själv skriver, först hitta frågeställning och sedan besvara denna (på)hittade frågeställning.

        Kort sagt: Var ligger värdet av att studera dåtid för att försöka sig på den omöjliga uppgiften att förutsäga (och troligen även påverka och styra) framtida osäkerhet?

  2. Som den nationalekonom jag är så vill man gärna även påverka problemet med endogenitet i ett sammanhang som detta. Dvs att det kanske finns någon annan anledning till att vi finner ett samband mellan två variabler, men att vi inte observerar eller kontrollerar för detta. Exempelvis så kanske personer som dricker lightläsk också är lägre utbildade, vilket i sin tur gör att de har tråkigare arbetsuppgifter eller rentav är arbetslösa, och därmed även har större sannolikhet att bli deprimerade. I sådana fall skulle det vara den lägre utbildningsnivån som orsakar både lightläsk-drickandet och depressioner.

    Relaterar vi detta till din studie så vet vi ju att de som spelar på lotter generellt sett har lägre inkomster, och därmed borde vara mindre benägna att rösta på alliansen. Därför skulle det vara intressant att se vad som händer om du kontrollerar för just inkomst. Att ta hänsyn till saker som dessa är viktigt när man inte har möjlighet att genomföra ett experiment utan istället har registerdata eller liknande. Därför ska man generellt sett vara skeptisk när man läser resultat som dessa om light-läsken, utöver det faktum att det bara kan vara en slump.

  3. Varför studerar du signifikans i ett totalurval? Signifikanstester är ju bara relevant när du studerar ett mindre slumpmässigt urval av observationer dragna ur en större population?

    • Det har du rätt i. Likväl används signifikanstester flitigt inom samhällsvetenskap där datamaterialet inte är ett slumpmässigt urval, som vid studier av världens länder. Tanken är att det ska hjälpa till att avgöra vad som är starka samband. Resonemanget blir då att man tänker på den underliggande processen som ger upphov till data, och signifikansen visar hur sannolikt det är att man fått ett sådant här utfall givet att det i den underliggande processen inte finns något samband mellan de två undersökta variablerna.

      Det är ju dock inte korrekt. Det har bara blivit så att statistisk signifikans har blivit standard i den samhällsvetenskapliga (och mycket annan) statistisk forskning. Men det är många som är kritiska mot vad som ibland kallas ”The Cult of Statistical Significance.” Se till exempel http://www.amazon.com/Cult-Statistical-Significance-Economics-Cognition/dp/0472050079

      Så jag har inget annat svar än att jag använder statistisk signifikans på ett totalurval för att få hjälp att avgöra vad som är en intressant effekt i brist på andra referenspunkter, samt på grund av det inte helt korrekta resonemanget jag återgav ovan.

      • Det är ju fortfarande relevant att titta på standardfel även i en totalpopulation då det säger hur stor variansen är i förhållande till skillnaden (estimaten i en regression). En liten skillnad i förhållande till en stor varians säger att det inte är en relevant skillnad. Sen är besattheten av signifikansnivåer en annan fråga.

  4. Ping: Läsvärt vecka 11, 2013 – Ekonomistas

  5. Ping: Det här med forskning… | DogSense

  6. [Sen kommentar men hittade först nu er intressanta sida]. Det finns dock en helt motsatt effekt som kanske mest påverkar ”mainstreamforskare” och som kom upp på mitt gamla forskningsinstitut. I modern kvantitativ forskning kör man ofta mängder av olika modeller innan man bestämmer sig för vilken man ska välja. Och då finns det en risk att man granskar mer uppseendeväckande resultat noggrannare än de standardresultat som bara bekräftar andras forskning. En sorts föriktighetsprincip som skulle kunna leda till allt för liten falsifierning av den rådande sanningen.

    Så man bör nog skilja mellan den stora mängd av publicerad forskning där syftet är publicering mer än publicitet och den populärvetenskapliga delen som hamnar i kvällspressen där syftet just är publiciteten.

    • Det är helt sant, men menar du då inte att det leder till för litet bekräftande av andras resultat? Givet att du menade att det var en motsatt effekt.

      Men jag tror emellertid att fenomenet du beskriver snarast driver på byrålådeprincipen. Man får ett datamaterial, gör en massa körningar, och ser vilka som blir uppseendeväckande. De jobbar man vidare på, vilket leder till publicering av slumpmässiga resultat.

      Dock är det som du säger också ett problem att metodologin granskas hårdare när resultaten går emot vad vi trodde tidigare än när de inte gör det. Samma hård metodologiska granskning borde givetvis appliceras på allt.

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s