Toistaako tiede itseään

Toistojen ja toistettavuuden merkitys on aivan perustavanlaatuista tieteelle. Yksittäisestä havainnosta ei yleensä voida sanoa mitään varmaa, muuta kuin että tuo kyseinen havainto on mahdollinen. Joskus sekin toki riittää: jos väitetään että hirvet eivät voi olla valkoisia, niin yhden valkoisen hirven havaitseminen riittää todistamaan väitteen vääräksi.

Yleensä luonnontieteissä tutkimuskysymykset eivät ole yllä mainitun kaltaisia vaan enemmänkin jotain kvantitatiivista eli määrällistä ilmiötä tutkivia. Esimerkiksi: kuinka suuri osa vehnän lehden pinnasta keskimäärin kuolee kolmessa viikossa, kun sille ruiskutetaan muutama miljoona itiötä? Tai: kuinka kauan sukeltajan toukalla kestää napata yksi siira akvaarion pohjalta eri saalistiheyksillä?

Tällaisten määrällisten ilmiöiden tutkimiseen yksittäishavainnot ovat erittäin huonoja. Ne antavat osviittaa siitä mitä voi tapahtua, esimerkiksi että 60% lehdestä voi kuolla, mutta eivät kerro mitään siitä onko kyseinen havainto tyypillinen ja kuinka paljon vaihtelua ilmiössä on. Käytännössä kaikessa luonnonkulussa on mukana satunnaista vaihtelua syistä emme täysin tunne. Siksi onkin tärkeää määrittää tuon vaihtelun suuruutta. Jos tutkija ruiskuttaa pellolle torjunta-ainetta ja havaitsee taudin vähenevän 30% verrattuna käsittelemättömään koealaan, on erittäin tärkeää tietää mitä tapahtuu kun sama toistetaan. Tuleeko seuraavista kokeista tulokseksi esimerkiksi 32%, 27% ja 35%, vai kenties 50%, 15% ja 0%. Ensimmäisessä tapauksessa voidaan jo kohtuullisen luottavaisesti olettaa että vaikutus on 30%:n luokkaa, kun taas jälkimmäisessä hajonta on suurta eikä mitään kovin varmaa voida sanoa.

Monet tilastolliset testit pyrkivät selvittämään onko kahden havaintoryhmän välillä eroa. Tässäkin toistojen määrä auttaa. Suuri määrä havaintoja auttaa selvittämään eri ryhmien keskimääräisiä mittaustuloksia ja niiden hajontaa. Mikäli mittaustulokset ovat keskimäärin vain hieman eroavat ja päällekäisiä arvoja on paljon, antaa suuri otoskoko kuitenkin mahdollisuuden havaita mahdollinen ero luotettavasti.

Toistoja voi olla hyvin monenlaisia. Mikäli tutkitaan jonkin mittausmenetelmän tarkkuutta, pyritään mittaamaan yksi ja sama kohde useaan kertaan. Tällöin oletetaan että mitattava kohde pysyy ennallaan ja mahdollinen hajonta tuloksissa kertoo mittaustavan epätarkkuudesta. Kun tutkitaan yksilöiden välisiä eroja, pyritään olosuhteet ja menetelmät pitämään mahdollisimman samanlaisina ja sitten oletetaan tuloksissa havaitun vaihtelun johtuvan kohdeyksilöistä. Tällaisilla toistoilla voidaan tutkia esimerkiksi populaatiotason vaihtelua. Mikäli tuloksia halutaan yleistää globaalisti, täytyy mittausjoukkoon sisällyttää yksilöitä kaikkialta maapallolta. Kokeeseen sisällytettyjen toistojen määrä ja laatu kertookin tulosten yleistettävyydestä. Voi olla, että jokin vehnälajike selviää yhden kesän ilman vakavampia tauteja, mutta mikäli sama lajike selviää terveenä myös eri paikkakunnilla ja vielä seuraavanakin kesänä, on tuloksen luotettavuus aivan eri luokkaa kuin yksittäiseen paikkaan ja aikaan sidotun havainnon.

Paitsi olosuhteet, mitattavat yksilöt ja menetelmät, myös mittaajat itse vaikuttavat tuloksiin. Yksittäinen tutkija saattaa tiedostamattaan kiinnittää huomionsa tiettyihin tutkijan oletuksia tukeviin havaintoihin. Myös subjektiiviset mittausmenetelmät jättävät tilaa tiedostamattomille virheille: minä saattaisin pellolla lajikkeita arvioidessani antaa lempilajikkeelleni paremmat pisteet vastustuskyvystä kuin naapurilajikkeelle, vaikka tautia olisi yhtä paljon molemmissa. Lääketieteessä käytetään mahdollisuuksien mukaan kaksoissokkokokeita, jossa sekä potilas että hänen hoitajansa ei tiedä minkälaista lääkettä potilas saa. Tällä vältetään sekä lumevaikutus (potilas tietää saavansa lääkettä ja siksi voi paremmin) että hoitajan välittämän tiedostamattoman informaation vaikutus. Kun tieto hoidon laadusta on vain hoitotilanteen ulkopuolisella tutkijalla, voidaan taata mahdollisimman samanlaiset menetelmät sekä tutkittavalle lääkkeelle että verrokille. Lisäksi moniin kokeellisiin töihin liittyy paljon erilaisia menetelmiä koeasetelman valmistelussa ja mittamisessa, ja pienet erot näiden toteuttamisessa saattavat olla merkittäviä kokeen onnistumiselle. Esimerkiksi perhosen toukkia tutkivan kollegani kokeessa erot pinsettien puristusotteen voimakkuudessa toukkia alustalta toiselle siirrettäessa saattaisi aiheuttaa hyvin eriäviä lopputuloksia toukkien selvitymistä mitattaessa.

”Lopullinen todiste” tieteellisen tuloksen pätevyydestä onkin se, että toinen tutkija edellisestä riippumatta päätyy samaan lopputulemaan. Yksi suurista huolista tiedemaailmassa on tällä hetkellä se, että tutkimusten toistamiseen ei saada riittävästi rahoitusta ja vanhoja tuloksia toistavia tutkimuksia pidetään vähempiarvoisina. Kun aina pitää vain tuottaa enemmän ja uutta, ei vanhoja tuloksia ehditä testata, eikä uusiakaan välttämättä tuottaa huolellisesti. Tämä voi pidemmän päälle pahimmillaan rapauttaa tieteellisen tiedon luotettavuutta ylipäänsä. Tieteen toistettavuuskriisistä voi lukea lisää vaikkapa wikipediasta englanniksi tai tästä lyhyestä blogista suomeksi. Toivoa sopii että tieteen perusrahoitusta lisätään ja tutkijoiden annetaan paneutua rauhassa sekä omiin uusiin tutkimuksiin että vanhojen testaamiseen ilman jatkuvaa painetta suoltaa ulos jotain uutta ja innovatiivista.

Vastaa