Czy kryzys wiarygodności w psychologii?

Jerzy Marian Brzeziński

Uniwersytet im. Adama Mickiewicza w Poznaniu, Wydział Psychologii i Kognitywistyki
https://orcid.org/0000-0003-1582-4013


Abstract

Wraz z opublikowaniem w prestiżowym Science głośnego w środowisku nie tylko psychologów, artykułu prezentującego wyniki – zakrojonych na dużą, międzynarodową skalę (w badaniach brało udział 125 badaczy) – replikacji badań empirycznych z obszaru psychologii (zob. Open Science Collaboration, 2015) znacząco wzrosło zainteresowanie globalnym wynikiem uzyskanym przez zespół B. Noseka. Okazało się bowiem, że o ile w 97% badań oryginalnych uzyskano wyniki istotne statystycznie (p < 0,05), o tyle w badaniach replikacyjnych było to tylko 36%. Ten wynik stał się, jak uważa autor niniejszego artykułu, podstawą nieuprawnionych uogólnień dotyczących słabości metodologicznej psychologii jako nauki empirycznej. Psychologia jest nauką empiryczną, ale ma też swoje osobliwości związane z jej przedmiotem i metodą (Orne, 1962, 1973; Rosenzweig, 1933; Rosenthal, 1966/2009). Nie jest też uprawiana w izolacji społecznej, kulturowej. Wreszcie podlega także ostrym nakazom/zakazom etycznym. Zaś psychologowie publikujący wyniki badań empirycznych, poddawanych analizom statystycznym, są ograniczani przez zwyczaje panujące w redakcjach czasopism naukowych (zresztą, nie tylko psychologicznych). Te są one zainteresowane drukowaniem wyłącznie prac przestawiających wyniki istotne statystycznie (co oznacza: „p < 0,05”!), a co prowadzi do powstawania tzw. efektu szuflady (file drawer effect, Rosenthal, 1979). Nie można też, co autor mocno podkreśla, ograniczać dyskusji tylko do spełniania, przez badania prowadzone przez psychologów, do zagadnień statystycznych (zwłaszcza problemu mocy statystycznej testu istotności – co stało się ostatnimi laty modne w badaniach psychologicznych. W tym artykule autor omawia, prezentując też własny punkt widzenia, następujące problemy: 1) osobliwości metodologiczne psychologii jako nauki empirycznej; 2) triada: istotność statystyczna (problematyczne kryterium „p < 0,05”), effect size, power of statistical test; 3) społeczno-kulturowy kontekst badań psychologicznych; 4) naruszanie reguł metodologicznych i etycznych przez badaczy-psychologów; 5) podejmowanie środków zaradczych i naprawczych.


Keywords:

nauka, intersubiektywność, stabilność, racjonalność, replikacje, badanie psychologiczne, statystyka, test statystyczny, przedział ufności, „p < 0,05”, moc testu statystycznego, wielkość efektu, data fishing, p-hacking, HARKing, oczekiwania interpersonalne, wskazówki sugerujące osobie badanej treść hipotezy badawczej (demand characteristic), efekt szuflady, wstępna rejestracja badań (pre-registration research)


Aguinis, H., Villamor, I., Ramani, R. S. (2021). MTurk Research: Review and Recommendations. Journal of Management, 47(4), 823–837.   Google Scholar

https://doi.org/10.1177/0149206320969787
Crossref   Google Scholar

Ajdukiewicz, K. (1949/2003). Zagadnienia i kierunki filozofii. Teoria poznania. Metafizyka. Czytelnik.   Google Scholar

Ajdukiewicz, K. (1957/2020). O wolności nauki. Nauka, 2, 7‒24. https://doi.org/10.24425/nauka.2020.132629
Crossref   Google Scholar

Ajdukiewicz, K. (1958). Zagadnienie racjonalności zawodnych sposobów wnioskowania. Studia Filozoficzne, 4, 14‒29.   Google Scholar

American Psychological Association. (2006/2016). Praktyka psychologiczna oparta na dowodach. Raport sporządzony przez Grupę Roboczą ds. praktyki opartej na dowodach, powołaną przez Zarząd Amerykańskiego Towarzystwa Psychologicznego, przeł. L. Kalita. W: L. Cierpiałkowska i H. Sęk (red.), Psychologia kliniczna (s. 739–758). Wydawnictwo Naukowe PWN.   Google Scholar

American Psychological Association. (2020). Publication manual of the American Psychological Association (wyd. 7): Author.   Google Scholar

American Psychological Association Presidential Task Force on Evidence-Based Practice. (2006). Evidence-based practice in psychology. American Psychologist, 61(4), 271‒285. https://doi.org/10.1037/0003-066X.61.4.271
Crossref   Google Scholar

American Psychological Association Publications and Communications Board Working Group on Journal Article Reporting Standards. (2008). Reporting standards for research in psychology. Why do we need them? What might they be?, 63(9), 839‒851.   Google Scholar

https://doi.org/10.1037/0003-066X.63.9.839
Crossref   Google Scholar

Blanck, P. D. (red.). (1993). Interpersonal expectations. Theory, research, and applications. Cambridge University Press.
Crossref   Google Scholar

Brzeziński, J. (2012). Badania eksperymentalne w psychologii i pedagogice (wyd. popr.). Wydawnictwo Naukowe Scholar.   Google Scholar

Brzeziński, J. (2016). Towards a comprehensive model of scientific research and professional practice in psychology. Current Issues in Personality Psychology, 4(1), 2‒10. https://doi.org/10.5114/cipp.2016.58442
Crossref   Google Scholar

Brzeziński, J. M. (2019). Metodologia badań psychologicznych. Wydanie nowe. Wydawnictwo Naukowe PWN.   Google Scholar

Brzeziński, J. M. (2023). Pytania do psychologów prowadzących badania naukowe. W: A. Jonkisz, J. Poznański SJ i J. Koszteyn (red.), Zrozumieć nasze postrzeganie i pojmowanie człowieka i świata. Profesorowi Józefowi Bremerowi SJ z okazji 70-lecia urodzin (s. 289‒311). Wydawnictwo Naukowe Akademii Ignatianum.   Google Scholar

Brzeziński, J. M., Oleś, P. K. (2021). O psychologii i psychologach. Między uniwersytetem a praktyką społeczną. Wydawnictwo Naukowe PWN.   Google Scholar

Brzeziński, J., Siuta, J. (red.). (2006). Metodologiczne i statystyczne problemy psychologii. Wydawnictwo Naukowe UAM.   Google Scholar

Brzeziński, J., Stachowski, R. (1981/1984). Zastosowanie analizy wariancji w eksperymentalnych badaniach psychologicznych. Państwowe Wydawnictwo Naukowe.   Google Scholar

Buchanan, E., Scofield, J. E. (2018). Methods to detect low quality data and its implication for psychological research. Behavior Research Methods, 50(3), 2586‒2596. https://doi.org/10.3758/s13428-018-1035-6
Crossref   Google Scholar

Budzicz, Ł. (2015). Dyskusja „po Stapelu”. Wokół rzetelności badań i publikacji w psychologii. Roczniki Psychologiczne, 18(1), 9‒24.
Crossref   Google Scholar

Buhrmester, M. D., Talaifar, S., Gosling, S. D. (2018). An evaluation of Amazon’s Mechanical Turk, its rapid rise, and its effective use. Perspectives on Psychological Science, 13(2), 149–154. https://doi.org/10.1177/1745691617706516
Crossref   Google Scholar

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (wyd. 2). L. Erlbaum.   Google Scholar

Cohen, J. (1990/2006). O tym, czego się nauczyłem (jak dotąd), tłum. R. Polczyk. W: J. Brzeziński i J. Siuta (red.), Metodologiczne i statystyczne problemy psychologii (s. 75‒99). Zysk i S-ka Wydawnictwo.   Google Scholar

Cohen, J. (1994/2006). Ziemia jest okrągła (p < 0,05), przeł. R. Polczyk. W: J. Brzeziński i J. Siuta (red.), Metodologiczne i staty¬styczne problemy psychologii (s. 100‒118). Zysk i S-ka Wydawnictwo.   Google Scholar

Edwards, A. L. (1950/1960/1968/1972). Experimental design in psychological research. Holy, Rinehart and Winston.   Google Scholar

Fisher, R. A. (1925/1938). Statistical methods for research workers (wyd. 7. zm. i rozszerz.). Oliver & Boyd.   Google Scholar

Fisher, R. A. (1935/1971). The design of experiment (wyd. 8). Oliver & Boyd.   Google Scholar

Grissom, R. J., Kim, J. J. (2005). Effect sizes for research. A broad practical approach. The Psychology Press, Taylor and Francis Group.   Google Scholar

Grissom, R. J., Kim, J. J. (2011). Effect sizes for research. Univariate and multivariate applications (wyd. 2). Routledge, Taylor and Francis Group.   Google Scholar

Harlow, L. L., Mulaik, S. A., Steiger, J. H. (red.). (1997). What if there were no significance tests? L. Erlbaum.   Google Scholar

Hays, W. L. (1973). Statistics for the social sciences (wyd. 2). Holt, Rinehart and Winston [wyd. 1, 1963: Statistics for psychologists; ostatnie, wyd. 5: Statistics ukazało się w 1994 r.].   Google Scholar

Henkel, E., Morrison, D. E. (red.). (1970). The significance test controversy: A reader. Butterworths.   Google Scholar

Keith, M. G., Tay, L., Harms, P.D. (2017). Systems perspective of Amazon Mechanical Turk for organizational research: Review and recommendations. Frontiers in Psychology, 8, 1359. https://doi.org/10.3389/fpsyg.2017.01359
Crossref   Google Scholar

King, B. M., Minium, E. W. (2003/2022). Statystyka dla psychologów i pedagogów, przeł. M. Zakrzewska. Wydawnictwo Naukowe PWN.   Google Scholar

Kirk, R. E. (1968/1982/1995). Experimental design: Procedures for the behavioral sciences (wyd. 3). Brooks/Cole.   Google Scholar

Kirk, R. E. (2012). Experimental design: Procedures for the behavioral sciences (wyd. 4). Sage.
Crossref   Google Scholar

Labowitz, S. (1970). Criteria for selecting a significance level: A note on the sacredness of .05. W: E. Henkel i D. E. Morrison, (red.), The significance test controversy: A reader (s. 166‒171). Butterworths.
Crossref   Google Scholar

Larsen, R. J. (2005). Saul Rosenzweig (1907‒2004). American Psychologist, 60(3), 259. https://doi.org/10.1037/0003-066X.60.3.259
Crossref   Google Scholar

Loftus, G. (1996). Psychology will be a much better science when we change the way we analyze data. Current Directions in Psychological Science, 5, 161–171.
Crossref   Google Scholar

Loftus, G. R. (2002). Analysis, interpretation, and visual presentation of experimental data. W: H. Pashler i J. Wixted (red.), Stevens' handbook of experimental psychology: Methodology in experimental psychology (s. 339–390). John Wiley & Sons, Inc. https://doi.org/10.1002/0471214426.pas0409
Crossref   Google Scholar

Miller, A. G. (red.). (1972). The social psychology of psychological research. The Free Press.   Google Scholar

Neuliep, J. W. (red.). (1991). Replication research in the social sciences. Sage.   Google Scholar

Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251). https://www.researchgate.net/publication/281286234_Estimating_the_reproducibility_of_psychological_science
Crossref   Google Scholar

Orne, M. T. (1962/1991). Eksperyment psychologiczny z punktu widzenia psychologii społecznej ze szczególnym uwzględnieniem wpływu zmiennych sugerujących hipotezę i ich implikacji, przeł. J. Siuta. W: J. Brzeziński i J. Siuta (red.), Społeczny kontekst badań psychologicznych i pedagogicznych. Wybór tekstów (s. 15‒32). Wydawnictwo Naukowe UAM.   Google Scholar

Orne, M. T. (1973/1993). Komunikowanie się w sytuacji eksperymentalnej: dlaczego jest ono istotne, jak jest oceniane i jakie ma znaczenie dla trafności ekologicznej, przeł. J. Siuta i K. Tatarczuch. W: J. Brzeziński (red.), Psychologiczne i psychometryczne problemy diagnostyki psychologicznej (s. 31‒68). Wydawnictwo Naukowe UAM.   Google Scholar

Popper, K. (1974/1977). Logika odkrycia naukowego, przeł. U. Niklas. Państwowe Wydawnictwo Naukowe.   Google Scholar

Reichenbach, H. (1938/1989). Trzy zadania epistemolo¬gii [przeł. W. Sady: §1: The three tasks of epistemo¬logy. W: H. Reichenbach, Experience and prediction (s. 3‒16). University of Chicago Press]. Studia Filozoficzne, 7‒8, 205‒212.   Google Scholar

Rosenthal, R. (1966/2009). Experimenter effects in behavioral research. Appleton-Century-Crofts. W: Artifacts in behavioral research: Robert Rosenthal and Ralph L. Rosnow's classic books (s. 287‒666). Oxford University Press.
Crossref   Google Scholar

Rosenthal, R. (1979). The “file drawer problem” and tolerance for null results. Psychological Bulletin, 86(3), 838‒641.
Crossref   Google Scholar

Rosenthal, R., Rosnow, R. L., Rubin, D. B. (2000). Contrasts and effect sizes in behavioral research: A correlational approach. Cambridge University Press.
Crossref   Google Scholar

Rosenzweig, S. (1933). The experimental situation as a psychological problem. Psychological Review, 40, 337–354.
Crossref   Google Scholar

Saad, D. (2021). Nowe narzędzia i techniki zwiększające trafność badań internetowych. com.press, 4(1), 106–121. https://journals.ptks.pl/compress/article/view/248/163 https://doi.org/10.51480/compress.2021.4-1.248
Crossref   Google Scholar

Schneider, W. J., McGrew, K. S. (2012). The Cattell-Horn-Carroll model of Intelligence. W: D. P. Flanagan i P. L. Harrison (red.), Contemporary intellectual assessment: Theories, tests, and issues (s. 99‒144). The Guilford Press.   Google Scholar

Schwarzer, G. (2022). General Package for Meta-Analysis. Version 6.0-0. https://cran.r-project.org/web/packages/meta/meta.pdf   Google Scholar

Skipper, Jr., Guenther, A. L., Nass, G. (1967/1970). The sacredness of .05: A note concerning the uses of statistical levels of significance in social science. W: R. E. Henkel i D. E. Morrison (red.), The significance test controversy. A reader (s. 155‒160). Butterworths.
Crossref   Google Scholar

Sosnowski, T., Jarmakowska-Kostrzanowska, L. (2020). Do czego potrzebna jest moc statystyczna? W: M. Trojan i M. Gut (red.), Nowe technologie i metody w psychologii (s. 449‒470). Liberi Libri. https://doi.org/10.47943/lib.9788363487430.rozdzial21
Crossref   Google Scholar

Trusz, S. (2013). Efekty oczekiwań interpersonalnych. Wybór tekstów. Wydawnictwo Naukowe Scholar.   Google Scholar

Tukey, J. B. (1977). Exploratory data analysis. Addison-Wesley.   Google Scholar

Webb, M. A., Tangney, J. P. (2022). Too Good to Be True: Bots and Bad Data From Mechanical Turk. Perspectives on Psychological Science. https://www.gwern.net/docs/psychology/2022-webb.pdf https://doi.org/10.1177/17456916221120027
Crossref   Google Scholar

Wilkinson, L., Task Force on Statistical Inference American Psychological Association, Science Directorate. (1999). Statistical methods in psychology journals: Guidelines and explanations. American Psychologist, 54, 594–604. https://doi.org/10.1037/0003-066X.54.8.594
Crossref   Google Scholar

Winer, B. J. (1962/1971). Statistical principles in experimental design. McGraw-Hill.
Crossref   Google Scholar

Winer, B. J., Brown, D. R., Michels, K. M. (1991). Statistical principles in experimental design (wyd. 3). McGraw-Hill.   Google Scholar

Wolski, P. (2016a). Istotność statystyczna I. Nieodrobiona lekcja. Rocznik Kognitywistyczny, 9, 27–35. https://doi.org/10.4467/20843895RK.16.003.5471   Google Scholar

Wolski, P. (2016b). Istotność statystyczna II. Pułapki interpretacyjne. Rocznik Kognitywistyczny, 9, 59–70. https://doi.org/10.4467/20843895RK.16.006.6412
Crossref   Google Scholar

Wolski, P. (2016c). Istotność statystyczna III. Od rytuału do myślenia statystycznego. Rocznik Kognitywistyczny, 9, 71–85. https://doi.org/10.4467/20843895RK.16.007.6413
Crossref   Google Scholar


Published
2023-10-26

Cited by

Brzeziński, J. M. (2023). Czy kryzys wiarygodności w psychologii?. The Review of Psychology, 66(1), 27–47. https://doi.org/10.31648/przegldpsychologiczny.9456

Jerzy Marian Brzeziński 
Uniwersytet im. Adama Mickiewicza w Poznaniu, Wydział Psychologii i Kognitywistyki
https://orcid.org/0000-0003-1582-4013