Auf der Suche nach dem verlorenen Effekt #6

— Die Pointe, als Analogie —

Zunächst die Direktverbindung: der CLSIZE-Effekt steigt in den Zug ein und kommt bei COMPREAD an. Dann die Umleitung. Die hat einerseits funktioniert, denn auf der Direktverbindung kommt der CLSIZE-Effekt jetzt nicht mehr an. Dafür kommt ein Effekt über die Umleitung an. ABER: der ankommende Effekt ist nicht der CLSIZE-Effekt; der Effekt, der bei COMPREAD aussteigt, ist nicht bei CLSIZE eingestiegen – sondern bei ANXTEST. Im Bilde der Analogie ist es jedoch unmöglich, dass ein Effekt einfach am Bahnhof stehen bleibt und nicht in den Zug einsteigt. Wer am Bahnhof steht, fährt auch mit. Damit haben wir also eine widersprüchliche Situation.

Die Pointe ist: wir haben es hier nicht mit einer widersprüchlichen – und damit unmöglichen – Situation zu tun, sondern ganz simpel mit zwei verschiedenen Situationen. In dem Moment, als wir die Umleitung gebaut haben, ist der CLSIZE-Effekt gar nicht erst zum Bahnhof gekommen; er ist zu Hause geblieben.

 

— Die Pointe, etwas technischer —

Es wurden zwei verschiedene Modelle geschätzt – und zwar zunächst (1) ohne ANXTEST, dann (2) mit indirektem CLSIZE-Effect via ANXTEST. Diese unterschiedlichen Modellspezifikationen haben jedoch einen Einfluss hinsichtlich der jeweiligen Datenbasis. So konnten im Modell (1) ohne ANXTEST n=4156 Schüler aus m=200 Schulen untersucht werden, währen die Datenbasis im Modell (2) mit indirektem CLSIZE-Effekt via ANXTEST lediglich n=4052 Schüler aus 189 ist.

Dieser Unterschied der beiden Modelle hinsichtlich ihrer jeweiligen Datenbasis ist offenbar nicht trivial: wird Modell (1) mit der Datenbasis von Modell (2) geschätzt, ist der (direkte) Effekt von CLSIZE nicht mehr signifikant (b1=0.4081, p=0.561).

Dass in Modell (2) weniger Fälle analysierbar sind, ist eine Folge der Berücksichtigung von ANXTEST. Die entsprechenden Fälle fehlen in Modell (2), weil es für sie keine gültigen ANXTEST-Werte gibt.

Darüber hinaus lässt sich feststellen, dass die durchschnittliche Klassengröße von Schulen, bei deren Schülern keine gültigen ANXTEST-Werte vorliegen, geringer ist (Mclsize=22.31) als von Schulen mit gültigen ANXTEST-Werten bei den Schülern (Mclsize=25.49) (T=149.011, df=104366.7, p<0.0001). Ebenso unterscheidet sich die Lesekompetenz: sie ist bei Schülern mit gültigen ANXTEST-Werten größer (Mcompread=519.7514) als bei Schülern ohne gültige ANXTEST-Werte (Mcompread=444.2565) (T=252.525, df=741870, p<0.0001). Das sind starke Indizien dafür, dass die fehlenden Werte bei ANXTEST nicht zufällig auftreten – und so systematische Verzerrungen bei den betroffenen Schätzern verursachen können.

 

— Was haben wir gelernt? —

  1. Traue keinem Modellvergleich, wenn sich neben den Prädiktoren auch die Datenbasis unterscheidet. Sollten verschiedene Modelle gegenübergestellt werden, dann schau auf die Fallzahl n. Ist n nicht gleich, dann könnte ein Replikation interessant sein, welche die jeweiligen Modelle auf Basis der gleichen Datenbasis schätzt.
  2. Eine Analyse der missing values kann einen erheblichen Mehrwert erbringen. Evtl. müssen Schritte unternommen werden, um Verzerrungen zu minimieren.
Werbeanzeigen
Dieser Beitrag wurde unter Allgemein veröffentlicht. Setze ein Lesezeichen auf den Permalink.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.