Meta-analizy w psychologii mają problem. I nikt o tym nie mówi
Czytasz kolejne podsumowanie badań psychologicznych i myślisz: "No dobra, to już pewne". Meta-analiza 47 studiów, tysiące osób, jasny wniosek.
Tyle że jest haczyk.
Badacze z Frontiers in Psychology pokazali coś, co powinno zaniepokoić każdego, kto opiera swoje decyzje na "naukowych dowodach". Standardowa metoda agregowania wyników psychologicznych - ta sama, którą cytują autorzy bestsellerów i trenerzy rozwoju osobistego - ma fundamentalną wadę. I właśnie została nazwana po imieniu.
Meta-analiza to narzędzie statystyczne, które łączy wyniki wielu badań, żeby odpowiedzieć na jedno pytanie. Brzmi solidnie. Problem pojawia się, gdy próbujesz połączyć jabłka z gruszkami.
W psychologii efekty mierzy się na różnych skalach. Jeden badacz pyta o poziom szczęścia w skali 1-10. Drugi używa kwestionariusza z 50 pytaniami. Trzeci mierzy czas reakcji w milisekundach.
Wszystkie badają "szczęście", ale jednostki są inne.
Standardowe rozwiązanie? Standaryzacja przez d Cohena - przekształcenie wszystkich wyników na wspólną skalę. I tu zaczyna się problem.
Zobacz, co się dzieje. D Cohena dzieli różnicę między grupami przez odchylenie standardowe. Efekt zależy nie tylko od tego, jak duża jest różnica, ale też od tego, jak bardzo wyniki są rozrzucone. Dwa badania mogą pokazać identyczną różnicę w poziomie szczęścia - ale jedno da d=0.3, drugie d=0.8.
Dlaczego? Bo w jednym badaniu ludzie odpowiadali bardziej jednolicie.
Autorzy pokazują konkretny przykład. dwa badania nad tym samym zjawiskiem. Oba mierzą efekt interwencji psychologicznej. W obu średnia różnica między grupą eksperymentalną a kontrolną wynosi dokładnie 5 punktów.
Badanie A: odchylenie standardowe = 10. D Cohena = 0.5.
Badanie B: odchylenie standardowe = 20. D Cohena = 0.25.
Identyczny efekt w rzeczywistości. Dwukrotna różnica w meta-analizie.
I teraz próbujesz je uśrednić - co właściwie uśredniasz? Nie rzeczywisty efekt, ale jego stosunek do zmienności w próbie. To jak próbować porównać temperaturę w Warszawie i Nowym Jorku, ale zamiast stopni Celsjusza używać "jak bardzo dzisiaj jest cieplej niż wczoraj w stosunku do tego, jak bardzo pogoda tu zwykle się zmienia".
Techniczne? Tak. Istotne? Absolutnie.
Nie chodzi o to, że meta-analizy są bezwartościowe. Chodzi o to, że standardowa metoda może dawać błędne wnioski, gdy łączy badania z różnym poziomem zmienności.
Badacze proponują alternatywy - inne miary wielkości efektu, które nie są tak wrażliwe na różnice w odchyleniu standardowym między badaniami. Wymaga to zmiany w całym ekosystemie: jak publikuje się badania, jak je recenzuje, jak cytuje.
Dla ciebie, jako czytelnika podsumowań naukowych, to znaczy jedno: gdy widzisz "meta-analiza wykazała", zapytaj - jak różne były te badania? Czy mierzyły to samo w ten sam sposób? Czy może agregowano rzeczy, które nie powinny być agregowane?
Nie chodzi o cynizm. Chodzi o to, żeby nie traktować "naukowego konsensusu" jak Biblii. Nauka to proces, nie wyrocznia. A proces ma swoje ograniczenia. Właśnie jedno z nich zostało nazwane po imieniu.
Nie. Standardowa metoda (d Cohena) ma ograniczenia, gdy łączy badania o różnej zmienności. Nie wszystkie meta-analizy mają ten problem - zależy od tego, jak jednorodne są agregowane badania. Pytanie brzmi: czy autorzy to sprawdzili?
Badacze proponują inne miary wielkości efektu, mniej wrażliwe na różnice w odchyleniu standardowym - np. surowe różnice średnich lub miary oparte na percentylach. Problem? Nie są jeszcze standardem w publikacjach psychologicznych.
Szukaj informacji o heterogeniczności badań (I² statistic). Jeśli jest wysoka (>75%), to sygnał, że badania różnią się znacząco - i agregacja może być problematyczna. Sprawdź też, czy autorzy testowali wrażliwość wyników na różne metody analizy.
Nie. Każda dziedzina, która agreguje wyniki mierzone na różnych skalach, może mieć ten problem - medycyna, edukacja, ekonomia behawioralna. Psychologia jest po prostu szczególnie narażona, bo efekty są często mierzone subiektywnymi kwestionariuszami.
Nie wyrzucaj jej. Traktuj jako wskazówkę, nie pewnik. Jeśli efekt jest duży i powtarza się w wielu różnych badaniach - prawdopodobnie coś w tym jest. Jeśli jest mały i opiera się na bardzo różnorodnych studiach - zachowaj zdrowy sceptycyzm.