Af Phillip Steen Dyssegaard, stud.psych. og Anne Marie Kristensen, stud.psych.

Interview med Anders Petersen om replikationskrisen i psykologien

Umiddelbart kunne man tænke, at forførelse og statistik ikke har meget med hinanden at gøre. Men måske er den igangværende replikationskrise i psykologien et udtryk for, at psykologien har ladet sig forføre af signifikante p-værdier og opsigtsvækkende resultater? Indput mødte lektor Anders Petersen, der er fagkoordinator for fagene Statistik I og II, til en snak om replikationskrisen og om, hvordan man kan blive forført af sin egen forskning.

Hvad tænker du om replikationskrisen?

Det er bekymrende. Problematikken har jo nok altid været der, man er bare først rigtig blevet opmærksom på det nu. Problemet ligger meget i, at vi kun publicerer de positive fund. Det vil sige, at vi kan komme til at skævvride litteraturen, da vi aldrig får set den underliggende del af isbjerget, som er alle de ikke-signifikante resultater. Derudover kan der være noget problematisk i den måde, vi bruger statistik og særdeles p-værdier på. Man kan nemt komme til at lave p-hacking, hvor man ”fisker” efter at få en p-værdi, der kommer under signifikansgrænsen på 0,05. Og det er et problem, man skal tage ret seriøst, synes jeg. Hvis ikke man passer på, kan man let blive forført af sit eget data og sit eget forskningsspørgsmål, fordi man simpelthen kommer til at tro så meget på det, at man ubevidst driver sin analyse henimod noget, der passer med den hypotese, man har.

Kan der være en tendens til, at man bliver forført af det sensationelle, og at tidsskrifterne gerne vil udgive nogle overraskende resultater?

Ja, helt sikkert. Og der er løsningen jo simpelthen at replikere og eftervise resultaterne. Det er den bedste vej frem. Men replikation fylder ikke særligt meget i dag, da det kan være svært at publicere replikationsstudier, fordi wow-effekten er taget ud i og med, at andre allerede har undersøgt det – altså den her overraskelse man kan få, når man opdager noget helt nyt. Der findes tidsskrifter, som udgiver replikationsstudier, men der er en tendens til, at det er wow-effekt, der giver adgang til at udgive videnskabelige artikler, hvilket er ærgerligt. Det, man ofte gør i publikationer for at komme omkring det, er, at man laver flere studier, hvor det første studie er en replikation af noget af den forskning, der går forud for ens egen undersøgelse – evt. med et lille twist, så det ikke er helt magen til. Jeg synes, det er en god måde at få indbygget replikationen i litteraturen. Og så handler det grundlæggende om at blive mere opmærksom på, hvad det er for nogle problemstillinger, man stiller sig selv over for, når man skal behandle data.

Kan der være en wow-effekt ved ikke-signifikante resultater?

Der er problemet jo, at man ikke kan eftervise et ikke-signifikant resultat, sådan fungerer traditionel statistik (frekvensstatistik) ikke. Hvis man vil det, må man lave et andet forsøgsdesign, som tester den modsatte hypotese af det originale studie. Der er dog nogle nye statistiske metoder inden for det, der hedder bayesiansk statistisk, hvor man kan få evidens for en nul-hypotese og konkludere, om for eksempel to grupper er ens – det giver traditionel statistik nemlig ikke noget svar på. Den forholder sig kun til, om der er forskel på grupperne. På den anden side ved vi jo godt, at vi ikke kan undgå at lave fejl, når vi laver statistiske analyser – det er bygget ind i selve det statistiske værktøj, at der er en risiko for, at man eksempelvis konkluderer, at der er en forskel på to behandlingsgrupper i et klinisk studie, selv om der i virkeligheden ingen forskel er. Vi prøver at holde den risiko under de her magiske 5%, men risikoen er der, og den vil altid være der.

Nogle forskere har argumenteret for, at p < 0,05 er for ”let” at opnå, og at man derfor bør ændre standarden for, hvornår et resultat er statistisk signifikant til fx p < 0,005. Hvad tænker du om det forslag?

I så fald skal man være bevidst om, hvad det indebærer. Hvis man gør det sværere at opnå statistisk signifikans, vil der være mange ting, som vi ikke opdager. Så jeg vil sige, at i hvert fald når man laver eksplorativt arbejde, hvor man undersøger hypoteser, der ikke har været testet før, vil det være ærgerligt ikke at opdage en effekt, der rent faktisk er der. De to ting hænger uløseligt sammen, og det er jo netop det, man beskriver inden for statistik med begreberne om type I og type II-fejl. Så jeg ved ikke, om jeg nødvendigvis går ind for, at man gør det sværere at opnå statistisk signifikans ved at rykke grænseværdien. Egentlig bør man vurdere det ud fra, hvad det er, man ønsker at undersøge. Hvis det eksempelvis er et klinisk studie, hvor det er meget vigtigt, at man ikke fejlagtigt konkluderer, at der er en forskel på effekten af to behandlingsformer, hvor der faktisk ikke er det – så kunne man måske overveje at være mere striks med signifikans-kriteriet. Men så skal man være klar over, at man risikerer at overse nogle effekter, der rent faktisk er der. I praksis er det her kriterie på 5% og hele idéen om statistisk signifikans jo enormt indgroet i alles tankegang, både inden for psykologien og inden for sundhedsvidenskab mere generelt.

Nogle mener, at den måde p-værdier benyttes i moderne psykologisk forskning er problematisk, og at et af de grundlæggende problemer er, at psykologer (og andre forskere) har svært ved at forstå, hvad p-værdier egentlig er. Er du enig i, at brugen af p-værdier er problematisk?

Jeg tror, der er en del, der ikke forstår, hvad en p-værdi faktisk er, sådan helt nøjagtigt. Og det er bestemt heller ikke ligetil at forstå. Her kommer vigtigheden af god undervisning i statistik på psykologistudiet jo ind i billedet, så de studerende forstår, hvad statistikken egentlig er udtryk for i stedet for at bide sig fast i signifikanskriteriet på 5%. Altså at man får en underliggende forståelse for, hvad p-værdien kan fortælle os om det datamateriale, vi har indsamlet, og også hvad den ikke kan sige noget om. Der tror jeg, at god undervisning i statistik spiller en vigtig rolle.

Hvad gøres der i statistikundervisningen for at sikre, at de studerende får en god forståelse for p-værdier og de begrænsninger, der ligger i brugen af dem?

Der er noget konceptuel forståelse, man skal fange, når man skal lære de statistiske analysemetoder og følge med i den tankegang, de er udtryk for. Og det skal man arbejde med. Jeg siger ofte til de studerende, at det er en iterativ proces, når de skal lære statistik. Nogle enkelte få kan sætte sig ned og forstå hvad en p-værdi er, første gang de får det forklaret, men for langt de fleste tager det tid at opbygge et billede og en intuitiv forståelse af, hvad det er vi gør, når vi laver statistiske analyser. Heldigvis bygger alle de statistiske teknikker, vi benytter, på det samme grundlag, så der er god mulighed for at gentage de underliggende principper mange gange.

Har replikationskrisen givet anledning til at ændre noget i undervisningen i statistik på studiet?

Jeg bruger meget energi på at få de studerende til at forstå de fejl, vi kan begå - der snakker vi igen om type I og type II-fejl. Vi prøver at forklare, at det altid er en mulighed, at et resultat er fremkommet ved en tilfældighed. Når effekten er signifikant, og studiet er veludført, konkluderer vi, at der må være en effekt, men det er altid en mulighed, at det kunne være en tilfældighed. Det er noget, jeg godt kunne tænke mig at få indbygget mere i undervisningen. På sigt håber jeg, at vi kan få lavet noget lidt mere hands on, fx trække nogle kort, slå med nogle terninger og sådan noget, for at se den her tilfældighed, der ligger nedenunder, når man har med datamateriale at gøre. For jeg tror, at ved at få den forståelse bliver man mere tilbageholdende med at sætte alt ind på en bestemt tærskelværdi, såsom 0,05.

På sigt vil jeg også gerne introducere nogle af de alternative metoder i undervisningen. Fx taler vi ikke så meget om konfidensintervaller; det er noget, man godt kunne gøre mere. Konfidensintervaller har indbygget i sig, at de fortæller noget om effektens størrelse, som p-værdier ikke gør. P-værdien er sort/hvid: Enten er resultatet signifikant, eller også er det ikke. Men den siger ikke noget om effektens størrelse, og det jo noget, der er meget vigtigt, når vi taler om statistiske analyser. Det bliver ofte lidt glemt, men der er dog efterhånden en del tidsskrifter, som kræver, at man også rapporterer effektstørrelser af analyserne. Det kan selvfølgelig være interessant at finde ud af, at der er en effekt, men det er endnu vigtigere at finde ud af, hvor stor effekten er. Det kan godt være, vi finder signifikant forskel på to behandlinger, men hvis effektforskellen ikke er særligt stor, så kan det være ligegyldigt, om vi bruger den ene eller den anden behandling.

Man kunne også gå ind og kigge mere på den bayesianske statistik, som jeg nævnte før, og gå ind i diskussionen om, hvad det framework kan i forhold til det, vi traditionelt benytter. Men det kræver, at der er en anvendelse af det, så de studerende også kan se, at der er artikler derude, der benytter det. Det er en supertanker, der skal vendes. Det har været p-værdi-supertankeren, der har kørt for fuldt drøn derudad, og den har et inertimoment, som er virkelig svært at stoppe. Vi må se, hvad der sker. Der er mange fordele ved at gå over til bayesiansk statistik, men lige nu er vi bundet til p-værdierne, og så må vi jo gøre, hvad vi kan for at forstå, hvad de er et udtryk for og behandle dem på den rigtige måde.

Hvad tror du, replikationskrisen kommer til at betyde for psykologien på længere sigt?

Jeg tror helt sikkert, det har gjort, at man er mere på tæerne over for nye forskningsfund. Det kan jeg selv mærke. Jo større wow-effekt, der er, når jeg læser noget, jo mere på tæerne er jeg. Når det er sagt, så tror jeg virkelig ikke, at folk snyder med deres resultater, men det kan ske, at de har fundet noget, lidt ved en tilfældighed, som passer til en rigtig god historie. Og det giver en god mulighed for at få publiceret resultaterne i en high ranking journal. Jeg tror også, det har gjort noget for psykologien generelt i og med, at vi sidder her og snakker om det i dag. Det er virkelig kommet bredt ud, også i aviser og andre medier uden for videnskaben selv.

Grundlæggende tror jeg på replikation som vejen frem. Det er jo det, som hele videnskabens fundament er bygget op på; at vi laver studier og efterviser vores resultater og på den måde opbygger mere og mere evidens inden for et område. Men det kræver selvfølgelig, at vi rent faktisk får lavet de her replikationsstudier. Det er problematisk, hvis vi aldrig får lavet dem, og hvis de negative fund aldrig kommer frem. Så kommer vi let til at opbygge en falsk illusion om, at en bestemt gren af forskningen bevæger sig fremad, og der kan gå lang tid, før vi opdager, at det faktisk ikke holder. Og der er det igen denne her wow-effekt, der driver publikationsræset og som let kommer til at forføre os.

Er psykologien blevet forført af statistikken?

Interview med Anders Petersen om replikationskrisen i psykologien