Dienstag, 22. April 2008

Wieviel Jahre Temperaturdaten machen einen Trend?

Ich hatte schon mehrmals im Blog auf das Problem hingewiesen, daß man keine Aussage über den Temperaturtrend machen kann, wenn man zu wenige Daten nimmt. 6 oder 10 Jahre reichen nicht, um einen Trend statistisch signifikant zu bestimmen, weil das Rauschen auf dem Trend zu groß ist. Erläutert wurde das hier (Angebliche Abkühlung seit 1998), hier und hier (klimatologische sinnvolle Zeiträume umfassen 30 Jahre).
Nachfolgend stelle ich ein Diagramm ein, auf dem ich das ganze statistisch untermauere. Ich habe mir die jährlich gemittelten Temperaturanomalien (Land - See) vom Hadley Centre genommen (HADCRUT3) und für Zeiträume mit Ende 2007 für eine wachsende Zahl von Jahren Steigung und Korrelation (Pearsons Korrelationskoeffizient quadriert R²) bestimmt. Natürlich sehen wir über 6 und 7 Jahre negative Steigungen. Aber sind die signifikant? Das Problem gehe ich an, indem ich mir die F-Statistik anschaue. Ich bestimme aus R² für eine lineare Regression F=(R²/(n-1))/((1-R²)/(n-p)); n Zahl der Jahre, p =1. Dieser Wert F muß den F-Test übersteigen, um eine signifikante Korrelation anzuzeigen (das heißt, die Hypothese R²=0 zu widerlegen). Wie man sieht, geschieht das erst bei mindestens 23 Jahren. Alle anderen zuvor bestimmten Korrelation waren auf einem 97,5%-Niveau nicht signifikant.


Es gibt eine weitere Möglichkeit, den Punkt zu verdeutlichen, daß 6 Jahre kein sinnvoller Zeitraum ist, sich den Klimatrend anzuschauen. Man kann nämlich auch das Konfidenzintervall der linearen Regression (siehe Abschnitt "Prognose") einzeichnen. Das Ergebnis zeige ich hier:

Wie man leicht sieht, kann man zwischen den beiden äußeren Linien, dem Konfidenzbereich, beliebig Geraden legen, auch mit positiver Steigung. Aus 6 Jahren Daten kann man keinen statistisch signifikanten Trend ableiten. Und dabei habe ich mit Absicht die einfachsten statistischen Mittel eingesetzt. Berücksichtigt man noch Feinheiten, etwa die in den Daten steckende Autokorrelationen, verringert man noch die Freiheitsgrade im Datensatz und weitet dadurch Fehlerbereiche aus bzw. erhöht die Grenzen beim F-Test. Und wenn man monatliche Daten nimmt, erhöht man das Rauschen im Datensatz, was Trends noch weniger signifikant macht. Es ist ein Spiel gegen die Statistik, die diejenigen, die aus zu wenig Daten einen Trend ableiten wollen, nie gewinnen können.

Keine Kommentare: