Im Jahr 2005 veröffentlichte der Stanford-Medizinprofessor John Ioannidis ein Paper, das über Fachgrenzen hinweg relevant wurde. [1] Es ging um die Frage, mit welcher Wahrscheinlichkeit publizierte Forschungsergebnisse tatsächlich stimmen. Die Analysen ergaben kein gutes Bild: Bei den meisten Studiendesigns war es wahrscheinlicher, dass ein Ergebnis in Wahrheit falsch statt richtig ist.
Faktorzoo
Die Studie bezog sich auf die Medizin, doch in vielen Fächern sind die Methoden ähnlich: Wissenschaftler verwenden Hypothesentests, um ihre Ergebnisse auf statistische Signifikanz zu überprüfen. Entscheidend ist dabei das gewählte Signifikanzniveau (p-Wert) von meist 5 Prozent.
Das eigentliche Problem entsteht aber erst in der Art und Weise, wie damit umgegangen wird bzw. welche Interessen das Ganze beeinflussen. Der bekannte US-Kapitalmarktforscher Campbell Harvey veröffentlichte dazu kürzlich sein Paper „The Pitfalls of Asset Management Research“. [2]
Er schreibt, dass die Kapitalmarkttheorie inzwischen über 400 Faktoren kennt, um den Querschnitt der erwarteten Renditen zu erklären. Das ist ganz offensichtlich etwas zu viel des Guten und wird deshalb auch als „Faktorzoo“ bezeichnet. Trotzdem sind diese Faktoren aber laut der Studien, in denen sie vorgestellt wurden, fast alle statistisch signifikant.
Falsche Anreize
Wie konnte es dazu kommen? Das Paper beschreibt dazu eine dysfunktionale Kette, die zu falschen Anreizen und verzerrten Forschungsergebnissen führt:
● Wissenschaftler müssen Veröffentlichungen vorweisen, um befördert bzw. überhaupt fest angestellt zu werden und mehr Geld zu bekommen
● Positive, statistisch signifikante Ergebnisse bringen den jeweiligen Journals viel mehr Zitate ein (darüber konkurrieren sie untereinander) und haben deshalb einen höheren Stellenwert
● Negative bzw. nicht signifikante Ergebnisse lassen sich kaum noch erfolgreich publizieren
Wissenschaftler haben also einen Anreiz, umfangreiches Data Mining zu betreiben, um möglichst „gute“ Ergebnisse zu erzielen. Zudem können sie die statistische Signifikanz auf verschiedene Art und Weise erhöhen: Durch gezielte Wahl des verwendeten Regressionsmodells, eine Selektion bestimmter Variablen, speziell gewählte Datenzeiträume, den Ausschluss von Ausreißern oder die (unnötige) Transformation von Variablen.
p-Hacking
Diese Praktiken fallen unter den Begriff „p-Hacking“ und gelten als Fehlverhalten der Forscher. Doch das Ganze kommt nur selten ans Licht. Denn im Nachhinein ist dieses Vorgehen für den Betrachter kaum noch zu erkennen. Zum Beispiel, wenn von 100 untersuchten Variablen am Ende nur über die eine berichtet wird, die – wahrscheinlich rein zufällig – funktioniert hat.
Etwa die Hälfte der empirischen Forschungsergebnisse im Finanzbereich sind wahrscheinlich falsch. (Campbell Harvey)
Schon im Jahr 2015 war Harvey Co-Autor eines Papers, in dem die gängige Praxis kritisiert wurde. Die Forscher führten damals einen neuen Rahmen für Mehrfachtests ein. Demnach sollten neue Faktoren eine viel höhere Hürde nehmen, um als signifikant zu gelten (t-Wert über 3). Doch diese Erkenntnis setzt sich aufgrund des Anreizproblems nur langsam durch.
Für Untersuchungen aus der Kapitalmarktpraxis ist Campbell Harvey etwas optimistischer. Denn Asset Manager haben eine andere Anreizstruktur: Sie möchten Gebühren erzielen, die meist auch von der erzielten Performance abhängen, und müssenihre Reputation wahren. Deshalb ist zu vermuten, dass hier zumindest die skurrilsten Rückrechnungen vorab ausgesiebt werden.
Trotzdem ist eine gewisse Skepsis angebracht. Denn nicht jedes Unternehmen verfügt über eine gute Research-Kultur, um falsche Anreize für Data Mining und p-Hacking zu vermeiden. Und auch mit immer neuen Anlageprodukten lässt sich Geld verdienen, wenn die schlechten Performer regelmäßig ausgetauscht werden und in Vergessenheit geraten.
Ausblick
Anleger sollten grundsätzlich skeptisch sein, sowohl was akademische Studienergebnisse als auch Research aus der Praxis angeht. Campbell Harvey gibt dazu noch ein paar Tipps:
● Wenn Ihnen eine neue Strategie vorgestellt wird, fragen Sie, ob Aufzeichnungen über alle getesteten Variablen geführt wurden
● Achten Sie auf mögliche Ex-post-Theorien, die erst nach Kenntnis der Ergebnisse erstellt wurden
● Vergewissern Sie sich, dass der Ansatz auf einer soliden wirtschaftlichen Grundlage basiert
● Stellen Sie strategische Fragen wie „Haben Sie X ausprobiert?“; lautet die Antwort „Ja, und es hat nicht funktioniert“, aber wurde X zuvor nicht erwähnt, ist das ein Warnsignal
Fazit
Falsche Anreize verzerren die Ergebnisse sowohl der akademischen als auch der praktischen Finanzmarktforschung. Geht man wie Campbell Harvey davon aus, dass etwa die Hälfte der empirischen Ergebnisse wahrscheinlich falsch sind, ist es nicht übertrieben, dies als größtes Problem der Finanzmarktforschung zu bezeichnen.
Quellen:
[1] Ioannidis, J. (2005), Why Most Published Research Findings Are False, PLoS Medicine Vol. 2, Nr. 8, e124
[2] Harvey, C. (2022), The Pitfalls of Asset Management Research, Duke University
[3] Harvey, C. / Liu, Y. / Zhu, H. (2016), …and the Cross-Section of Expected Returns, Review of Financial Studies Vol. 29, Nr. 1, S. 5-68
Interessante Erkenntnis! Wenn ich mal hier und da Paper lesen fallen mir (leider) meist auch sofort methodische Fehler/Schwächen auf und das als quasi Laie.
Danke! Und selbst dann, wenn etwas wirklich korrekt untersucht und „signifikant“ ist, muss es deshalb noch nicht relevant für die Praxis sein…