Proč jsou špatné experimenty v psychologii důležité

Deska upozorňující na místo, kde se odehrál dnes již slavný experiment • Zdroj: wikipedia.org

27. července 2018 · 12:30

Stanfordský vězeňský experiment je podvrh a výsledky marshmallow experimentu jsou špatně interpretované. Tyto dvě zprávy proletěly v nedávné době médii jakožto skandální odhalení. A ačkoli nad nimi mohlo spoustu lidí kroutit hlavou a ztrácet víru v objevy psychologie, měli bychom za ně být rádi a doufat, že jich bude přibývat.

Úspěšní lidé bonbony nejedí

Marshmallow experiment, součást většiny učebnic psychologie, funguje na velmi snadném principu – dítě je usazeno ke stolu s jedním bonbónem, dospělý účastník experimentu, který je ve stejné místnosti, mu řekne, že na chvíli odejde, a pokud dítě do doby jeho návratu bonbon nesní, dostane sladkostí více.

Pozorování dětí během čtvrt hodiny, kdy jsou ponechány na pospas sladkému pokušení, přináší mnoho poznatků pro sociální i osobnostní psychologii. Jedním z nejznámějších publikovaných závěrů experimentu je však následující srovnání: děti, které odolaly, bonbon nesnědly a vyčkaly návratu dospělého, byly v pozdějším věku v mnoha ohledech úspěšnější než děti, které nevydržely a bonbon snědly.

Jenže tyto výsledky už nejsou natolik jednoznačné: studie, která Marshmallow test zopakovala, zjistila, že rozdíly mezi dvěma typy dětí (odolá/neodolá) nebyly v budoucnu tak radikální. Nová studie totiž zahrnovala děti z různých socioekonomických prostředí a ukázala tak, že původní výsledky byly platné pro úzkou skupinu lidí, nikoli však pro celé společenské spektrum. A zde, v opakování dobře známé studie a prověření výsledků, vyvěrá na povrch problém současné psychologie i ostatních vědních oborů.

Magická p-hodnota

Celá věc je samozřejmě komplikovaná – jedno souvisí s druhým a druhé se třetím, proto není na škodu podívat se na celou problematiku do relativních detailů. Krize reproducibility (neboli replikační krize), se kterou se současná psychologie potýká, tkví v začarovaném kruhu publikování vědeckých studií v odborných časopisech.

Studium v USA: Peklo jménem GRE

Archiv

Publikování studií je pro vědce naprosto zásadní – zaprvé je podmínkou vědecké kariéry, zadruhé zvyšuje prestiž univerzitě (některé žebříčky porovnávající jednotlivé univerzity započítávají do hodnocení i množství publikovaných prací) a zatřetí samozřejmě přináší nové poznatky v oboru, které se díky odborným časopisům dostanou i mimo laboratoř.

Jedním z kritérií pro publikování studie je, aby její výsledky byly statisticky signifikantní, což se vyjadřuje tzv. p-hodnotou. Obecně platí, že pokud výsledky studie dosahují p-hodnoty menší než 0,05, pak lze říci, že jsou vzdálené nulové hypotéze, tedy že byl prokázán rozdíl mezi testovanou a kontrolní skupinou, a proto je zkoumaný efekt potvrzen.

V průběhu let se však stalo, že se p-hodnotě věnuje více pozornosti než další interpretaci dat, mimo jiné kvůli nepsanému pravidlu, že s p-hodnotou vyšší než 0,05 studie vlastně není publikovatelná. Kvůli dlouhodobému přeceňování p-hodnoty jako kritéria úspěšnosti studie a kvůli často špatné interpretaci této hodnoty vydala v roce 2016 American Statistical Association prohlášení o p-hodnotách a statistické signifikanci, aby vědecké obci připomněla význam těchto hodnot.

Vědečtí hackeři

Aby se u jednotlivých studií dosáhlo požadované p-hodnoty, dochází často k takzvanému p-hackingu, falšování p-hodnoty (nebo také tzv. data dredging, volně přeloženo jako „lovení dat“). Kýžené p-hodnoty pod 0,05 lze totiž docílit manipulací parametrů experimentu. Jakkoli se věda snaží být exaktní, stále spoléhá na člověka.

V tomto případě se ozývá faktor zvaný „researchers degree of freedom“ („výzkumníkovo volné pole působení“) – je totiž na vedoucím experimentu rozhodnout, v jaký moment se data přestanou sbírat, jaké statistické nástroje budou použity a jaké parametry se zvolí. Stejně tak může zvolit pro měření mnoho proměnných, čímž se zvyšuje šance na některé z nich prokázat souvislost. Nebo naopak testovanou skupinu specifikovat natolik přísnými parametry, že průkaznost původní hypotézy není nijak cenná.

Reálný příklad zmanipulovaného experimentu pak může vypadat takto: v experimentu jsou tři skupiny lidí, první dodržuje standardní stravovací návyky, druhé je řečeno, aby se stravovala podle nízkosacharidové diety, třetí skupina rovněž podstupuje nízkosacharidovou dietu, ale zároveň do svého jídelníčku zařadí jednu hořkou čokoládu denně. Po třech týdnech experimentu se ukáže, že účastníci v obou skupinách, kteří drželi nízkosacharidovou dietu, zhubli, avšak u těch, co si dopřávali čokoládu, se úbytek hmotnosti projevil rychleji. Výsledky experimentu byly převzaty do populárních časopisů a magazínů s titulky typu „Čokoláda denně vám pomůže zhubnout“.

Reportáž z Portugalska: Podpora vědy by mohla být Česku příkladem

Archiv

Na první pohled se nezdá, že by na experimentu bylo něco špatně, jenže v jeho popisu se uvádělo měření osmnácti různých hodnot pro každého účastníka experimentu (hmotnost, hladina cholesterolu, kvalita spánku atd.), čímž se zvyšovala šance, že alespoň na některou z hodnot bude mít dieta vliv. Pokud by se tedy neprokázalo, že dieta měla vliv na úbytek hmotnosti, určitě by se změna projevila na jiné z měřených hodnot. Problém shrnuje citace jednoho z výzkumníků Johna Bohannona: „Tady je malé vědecké tajemství – pokud měříte hodně různých věcí u malé skupiny lidí, skoro vždy dostanete statisticky signifikantní výsledek pro některou z hodnot.“ Příběh celého experimentu Bohannon popisuje zde.

Jsme jenom lidi

Nutno dodat, že manipulace s výsledky experimentů nemusí být záměrná. Kvůli myšlenkovým zkreslením mají lidé tendenci vidět věci jinak, než opravdu jsou. Výzkumníci tak mohou podlehnout „confirmation bias“ – poeticky řečeno „touze po potvrzení vlastních domněnek“. Už samotný fakt, že se výzkumníci snaží hypotézu potvrdit, či vyvrátit, je předurčuje snažit se v datech najít souvislosti. Opačný problém nastává, když data ukážou nečekané výsledky mezi dvěma skutečnostmi, které spolu nesouvisí, ale v rámci experimentu se pro ně najde vysvětlení. Tomuto zkreslení se říká „hindsight“ (volně přeloženo „vhled či nadhled“) – jakmile se ukáže nějaký jev, člověk má tendenci si říci „to bylo jasné“ a předchozí data interpretovat ve světle tohoto jevu.

Jádro pudla

Z předchozích odstavců vyplývá, že může dojít k situaci, kdy se publikují nepravdivé závěry studií. A opravdu k tomu dochází. V projektu Briana Noska, kdy se vybralo 98 psychologických experimentů a jejich postup byl zopakován, se u více než poloviny nepodařilo výsledky znovu prokázat. Jakmile je však studie publikována, není snadné její výsledky zpětně opravit či upřesnit, zejména v očích veřejnosti. Nejlepším příkladem budiž nejsledovanější TED talk vůbec, příspěvek psycholožky Amy Cuddy o tzv. power posture. Video, které má jen na Youtube přes 14 milionů zhlédnutí a které se snaží pomoci lidem se sebevědomím pomocí jisté specifické techniky, vychází z výsledků jedné studie. Tyto výsledky se však zpětně dosud neprokázaly.

Současná psychologie i ostatní vědní obory se nachází v tzv. replikační krizi (reproducibility crisis neboli replication crisis). Z 1 576 dotázaných vědců z různých oborů se na tom shodlo 90 % z nich. Jelikož jsou vědci závislí na publikování studií, nejsou motivováni k uskutečnění experimentů, které by nebyly publikovány ve vědeckých časopisech, komentují současný stav ve svých článcích Brian Nosek i Marcus Munafò. Takovými experimenty jsou třeba ty, které by zpětně potvrdily již potvrzené hypotézy – tedy replikace již provedených experimentů. Kontrola již sesbíraných dat je přitom naprosto zásadní, jak ukazují výše zmíněné příklady.

K řešení krize je krom financí potřeba i okamžitá kontrola výsledků, vzájemná zpětná vazba vědců (peer reviews), lepší osvěta a preregistrace studií. To vše zahrnuje koncept tzv. Open Science, kde se výsledky studií (jakkoli pozitivní či negativní) i studie teprve registrované volně sdílí. Preregistrací studie, kdy se přesně specifikuje metodologie i parametry experimentu, jež jsou volně přístupné, se zamezuje podobným situacím jako v případě experimentu s nízkosacharidovou dietou a čokoládou.

Perpetuum: Jak standardizované testy ničí vzdělávání

Archiv

Důležitost osvěty ohledně celé problematiky a benefity Open Science zdůrazňuje Manifesto for Open Science, vědecký článek vysvětlující veškeré souvislosti vydaný před třemi lety.

Jen houšť

Proto zjištění, že výsledky slavných experimentů nejsou stoprocentní, není žádnou tragédií. Je tomu naopak dobře a za každý další takový objev můžeme být jen rádi, protože zabraňuje stavět další hypotézy na falešně pozitivních předpokladech a v konečném důsledku i napomáhá snaze pochopit fungování člověka a společnosti. A tak – pokud se výsledky pokusu ukážou jako nepravdivé – není třeba ztrácet důvěru ve vědu, ba právě naopak.