Er forskningsfunnene pålitelige?

Burde du få det samme resultatet dersom du gjør det samme eksperimentet to ganger? Forskere har nylig forsøkt å gjenta 100 psykologieksperimenter, og resultatene er nedslående.

Det siste årene har det blitt stilt spørsmål ved påliteligheten til funnene fra psykologisk forskning. I 2011 publiserte en velrenommert forsker å ha funnet bevis for «prekognisjon», selv om det strider med fysikkens lover. I 2012 skrev Nobelprisvinner Kahneman et åpent brev der han stilte seg tvilende til mye av forskningen innen sosialpsykologi. Det har også vært tilfeller av regelrett juks i psykologisk forskning.

Slike hendelser har skapt mye oppmerksomhet rundt hva som kan gå galt i forskningsprosessen. Bevisst juks og svindel er nok sjeldent, men undersøkelser har vist at tvilsomme forskningspraksiser er relativt vanlige, og til en viss grad akseptert. Noe av dette går på selektiv rapportering, det vil si at forskeren er flinkere til å finne og publisere effekter som støtter hypotesen, mens studier som motsier den ikke blir publisert. Analysen kan også være selektiv, ved at en prøver ulike tilnærminger til data helt til en finner noe en ønsker å publisere. De publiserte artiklene kan også være for lite detaljerte om hvordan eksperimentet ble utført eller hva de nøyaktige resultatene var, slik at det er vanskelig for andre å etterprøve funnene.

«Reproduserbarhet», det at vi vil få det samme resultatet dersom vi gjør det samme eksperimentet på nytt (ofte kalt en «replikasjon»), er en forutsetning for vitenskapen. Det såkalte «reproduserbarhetsprosjektet» er et ambisiøst prosjekt som har som mål å replikere viktige studier som ble publisert mellom 2010 og 2012. Første steg i prosjektet har forsøkt å replikere 100 studier som ble publisert i tre ledende psykologitidsskrift. I så stor grad som mulig lignet replikasjonene på de opprinnelige eksperimentene, og ble gjennomført i samarbeid med de opprinnelige forskerne. Det er en prestasjon i seg selv å ha fått gjennomført prosjektet, som innebærer å koordinere innsatsen til 270 ulike forskere i ulike land. Forskere er vanligvis lite motivert for slike prosjekter, da det er lite anerkjennelse å hente i å replikere tidligere funn. Resultatene fra psykologidelen av reproduserbarhetsprosjektet ble publisert i det ledende tidsskriftet Science i slutten av august i år.

Resultatene var nedslående. Av de 100 studiene som ble forsøkt replikert, var det bare 36 av dem som fikk statistisk signifikante resultater (mot 97 av de opprinnelige studiene). I tillegg var størrelsen på effektene bare halvparten så sterke som effektene i de opprinnelige eksperimentene.

Noen forskere har reagert med mistro og mistenksomhet til prosjektet, og har ønsket å avkrefte budskapet om at psykologifaget er i krise. Det blir innvendt at uoverensstemmelsen kan skyldes at ukjente trekk ved det første studiet ikke var med i replikasjonen. Men om resultatet avhenger av disse trekkene, kan en i det minste si at beskrivelsen av det opprinnelige studiet ikke var god nok. Selv om de fleste forskere ønsker slik dobbeltsjekking velkommen, er det andre som har forsøkt å mistenkeliggjøre motivene til de som gjør replikasjoner, og mener de bare er bøller som ikke klarer å gjøre sine egne funn og derfor må rakke ned på andres forskning. I diskusjonene som har fulgt, har det også vist seg at både ledende forskere og tidsskriftsredaktører har en manglende forståelse for statistikk.

Mer nyanserte gjennomganger av prosjektet har pekt på at manglende replikasjon kan skyldes tilfeldigheter, feil i det opprinnelige studiet, feil i replikasjonen, eller ukjente forskjeller mellom studiene, som at andre typer personer var forskere eller deltagere i replikasjonen. En kan også si at selv om 36% repliserte funn høres lavt ut, er det uklart hvor høy andelen skulle det ha vært. Vi har ikke etablert hvor mange «falske positive» funn en burde forvente i vitenskapen. Men vi bør også anerkjenne at deler av psykologien har hatt en usunn forskningskultur. De 100 eksperimentene som ble forsøkt replisert var publisert i topptidsskrifter, og det er mulig at slike ambisiøse arenaer i større grad er utsatt for de tvilsomme forskningspraksisene nevnt tidligere.

Behovet for replikasjon av forskning gjelder nok ikke bare innenfor psykologien. Den neste delen av reproduserbarhetsprosjektet skal innen 2017 forsøke å replikere 50 biologiske kreftstudier. Selv om dette fagfeltet i større grad enn psykologien ser på seg selv som en etterrettelig «hard science», har tidligere forsøk tydet på at reproduserbarheten her kan være så lav som mellom 10% og 25%. Fra annen medisinsk forskning har en sett at da en finansieringskilde krevde at store studier på forhånd skulle varsle hvilke funn de forventet, falt andelen av positive resultater i behandling av hjerte- og karsykdommer fra 57% til 8%.

Veien videre for psykologi og andre fag er å jobbe for en mer stringent og etterrettelig forskningspraksis. En del av løsningen er at forskerne på forhånd bør offentliggjøre hva de har tenkt å gjøre og hva de forventer å finne. Forskningen bør i større grad gjøres i store prosjekter hvor ulike forskere bekrefter hverandres funn før de publiseres. Forskerne bør være åpnere om hvordan studien ble gjort og analysen ble gjennomført, og datamaterialet bør gjøres tilgjengelig slik at andre forskere kan gjøre sine egne analyser. En bør arbeide for at flere av de gjennomførte eksperimentene publiseres, også de som gjentar tidligere eksperimenter og de som ikke får de forventede resultatene. Men det første steget mot en løsning er å anerkjenne at vi har et problem med reproduserbarhet, og psykologien har definitivt nådd det steget.

Bjørn Sætrevik's research

Wednesday, 16 September 2015

Is the research reliable? (previously published as a newspaper feature in Norwegian)

Er forskningsfunnene pålitelige?

No comments: