Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Tagung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
Sitzungsübersicht
Sitzung
M14‒H06: From tools to theories: Wie nehmen statistische Modelle Einfluss auf unseren Erkenntnisgewinnn?
Zeit:
Mittwoch, 25.03.2020:
14:30 - 16:15

Ort: H06

Präsentationen

From tools to theories: Wie nehmen statistische Modelle Einfluss auf unseren Erkenntnisgewinn?

Chair(s): Sophie Stallasch (Universität Potsdam, Deutschland), Lena Keller (Universität Potsdam, Deutschland / Freie Universität Berlin, Deutschland), Martin Brunner (Universität Potsdam, Deutschland)

DiskutantIn(nen): Johannes Hartig (DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, Frankfurt a. M., Deutschland)

Wissenschaftliche Erkenntnisse über Lehr-Lern-Prozesse und Bildungsergebnisse tragen substantiell dazu bei Bildung zu gestalten. So werden auf dieser Basis der Status quo oder Problemlagen im Bildungssystem erfasst, es können Interventionen geplant und durchgeführt sowie Perspektiven und Szenarien für gelingende Bildungsprozesse bewertet werden (z.B. Bromme, Prenzel, & Jäger, 2014). Im besten Fall münden die Ergebnisse der empirischen Bildungsforschung also in evidenzbasierten Entscheidungen in der Bildungspolitik und -praxis (Kultusministerkonferenz, 2015; Slavin, 2002). Dabei hängen die Befunde selbst sowie ihre Belastbarkeit und Aussagekraft auch von den gewählten Forschungsmethoden ab (Bromme et al., 2014).

Dieser Zusammenhang wird sehr eindrücklich in einer Allegorie von Eddington (1939; siehe Cacioppo & Bernston, 1994) dargestellt: Ein Wissenschaftler versucht die Größe der Fische im Meer zu bestimmen, indem er ein Fangnetz mit 5 cm weiten Maschen auswirft. Nach umfangreichem Fischen findet der Wissenschaftler keine Fische, die kleiner als 5 cm sind und schlussfolgert, dass es diese auch nicht gebe. Diese Allegorie zeigt auf, wie die Wahl unserer „methodischen Werkzeuge“ die empirische Befundlage und damit auch unsere Schlussfolgerungen beeinflussen kann. Das vorliegende Symposium diskutiert und illustriert anhand von vier Beispielstudien aus der Bildungsforschung wie statistische Modellierungsstrategien – also unsere methodischen „Fischernetze“ – Auswirkungen auf Forschungsergebnisse, Theorien und deren praktische Bedeutung haben können.

Der Beitrag von Keller et al. untersucht die Form des funktionalen Zusammenhangs zwischen Leistung und korrespondierenden Selbstkonzepten. Üblicherweise wird dieser Zusammenhang als linear modelliert. Mithilfe polynomialer Regressionen und Interrupted Regressions wird gezeigt, dass der Zusammenhang in Mathematik und im verbalen Bereich in der Sekundarstufe (und teilweise auch in der Primarstufe) besser mit nicht-linearen Modellen approximiert werden kann. Es werden repräsentative Daten dreier Large-Scale-Assessments (TIMSS, PIRLS, PISA) aus 13 Ländern genutzt.

Der Beitrag von Stallasch et al. beschäftigt sich mit cluster-randomisierten Studien, die mit dem Ziel geplant werden, verlässliches und (ökologisch-)valides Wissen zur Effektivität und Skalierbarkeit von Interventionen zur Kompetenzförderung zu schaffen. Es wird der Frage nachgegangen, wie sehr die Belastbarkeit der Ergebnisse solcher Interventionsstudien von methodischen Entscheidungen, konkret von der Wahl des Zeitabstandes und der inhaltlichen Passung zwischen Prätest und Kriterium, abhängt. Hierzu wird auf repräsentative Längsschnittdaten der Primar- und Sekundarstufe des Nationalen Bildungspanels (NEPS; Startkohorten 2 und 3) zurückgegriffen.

Der Beitrag von Nagy et al. analysiert, wie der Einfluss der Bearbeitungspersistenz auf die Schätzung des Zusammenhangs zwischen Kompetenz und Kovariaten in Leistungstests erfasst und kontrolliert werden kann. Dieser wird in gängigen Auswertungsverfahren meist vernachlässigt. Hierzu werden zwei verschiedene komplexere Item-Response-Modelle, das neu entwickelte C-HYBRID-Modell und das IRT-IPE-Modell, gegenübergestellt. In diesen werden Kovariatenbeziehungen der Kompetenz und Persistenz (unterschiedlich) modelliert. Die Ergebnisse werden schließlich mit denen des konventionellen, einfacheren 2PL-Modells verglichen. Es werden Lesetestdaten von Fünftklässlerinnen und Fünftklässlern aus Haupt- und Realschulen in Baden-Württemberg und Sachsen (TRAIN-Studie) verwendet.

Der Beitrag von Rieger et al. konzentriert sich auf die Anwendung von Marginal Structural Models zur Schätzung zeitlich variierender kausaler Effekte. Diese stellen eine Alternative zu konventionellen längsschnittlichen Cross-Lagged-Panel-Analysen dar. Dabei wird untersucht, wie die Auswahl unterschiedlicher Kovariatensets die Gewichtbildung und Effektschätzung in diesen Modellen beeinflusst. Die Auswirkungen auf die Studienergebnisse und auf die damit verbundenen kausalen Schlüsse werden am Beispiel des Einflusses der Lesehäufigkeit auf das Leseverständnis in der 5. bis 8. Klasse anhand von Längsschnittdaten aus Haupt- und Realschulen in Baden-Württemberg und Sachsen (TRAIN-Studie) illustriert.

 

Beiträge des Symposiums

 

Alles linear? Eine Untersuchung des funktionalen Zusammenhangs zwischen Leistung und akademischem Selbstkonzept im Rahmen einer integrativen Datenanalyse

Lena Keller1, Franzis Preckel2, Martin Brunner3
1Universität Potsdam, Deutschland / Freie Universität Berlin, Deutschland, 2Universität Trier, Deutschland, 3Universität Potsdam, Deutschland

Theoretischer Hintergrund: Leistung und akademische Selbstkonzepte sind bei Schülerinnen und Schülern (SuS) stark assoziiert. Empirische Studien und Theorien über den Zusammenhang zwischen Leistung und Selbstkonzept (wie z.B. das Internal/External Frame of Reference Model; Marsh, 1986) gehen meist (implizit) von einer linearen Beziehung zwischen den Konstrukten aus. Diese Annahme zum funktionalen Zusammenhang wurde jedoch bislang in empirischen Analysen kaum in Frage gestellt, obwohl die Ergebnisse einiger weniger Studien auf nicht-lineare Zusammenhänge hinweisen (Marsh, 2004; Möller & Pohlmann, 2010; Schurtz, Pfost, & Artelt, 2014). Dabei ist es aus theoretischer Sicht plausibel, dass die Beziehung zwischen Leistung und Selbstkonzept nicht über das gesamte Leistungskontinuum linear ist, da leistungsschwächere SuS bei der Bewertung ihrer eigenen Leistungen dazu neigen, selbstwertschützende Strategien anzuwenden um ein positives akademisches Selbstkonzept aufrechtzuerhalten (Alicke & Sedikides, 2009; Gramzow, Elliot, Asher, & McGregor, 2003). Da Selbstevaluationen und die Anwendung selbstwertschützender Strategien altersabhängig sind (Harter, 2012; Marsh, 1989), sind auch entwicklungsbedingte Unterschiede in der Form des funktionalen Zusammenhangs nicht auszuschließen.

Fragestellung: Im vorliegenden Beitrag soll im Rahmen einer integrativen Datenanalyse die Annahme der Linearität des Zusammenhangs von Leistung und akademischen Selbstkonzepten systematisch überprüft werden, und zwar in unterschiedlichen Domänen (Mathematik, verbaler Bereich), Altersgruppen (Primar- und Sekundarstufe) und 13 verschiedenen Ländern.

Methode: Basierend auf repräsentativen Daten dreier Large-Scale-Assessments (TIMSS, PIRLS und PISA; N = 470,804) wurden nicht-lineare Zusammenhangsmuster mithilfe quadratischer Regressionen sowie Interrupted Regressions (Simonsohn, 2018) in 13 Ländern bei SuS der Primarstufe (4. Klasse) und Sekundarstufe (8. Klasse, 15-Jährige) untersucht. Für die Analysen wurden diejenigen Länder ausgewählt, die sowohl an PISA 2000 als auch an TIMSS/PIRLS 2011 teilnahmen. In diesen Zyklen wurden Selbstkonzepte in beiden Domänen (Mathematik, verbaler Bereich) jeweils bei denselben SuS erhoben. Dies hat den Vorteil, dass die Zusammenhangsmuster in PISA bzw. TIMSS/PIRLS nur von der jeweiligen Domäne beeinflusst wurden, da andere konfundierende, personenbezogene Faktoren (z.B. SES, kognitive Fähigkeit, Kohortenzugehörigkeit) kontrolliert werden. Da die Ergebnisse einer einzelnen Studie durch Design, Stichprobe, sowie Messung und Quantifizierung der Konstrukte der Studie beeinflusst werden, wurde eine koordinierte Analyse durchgeführt, um die Robustheit und Generalisierbarkeit der Ergebnisse über mehrere Datensätze hinweg zu beurteilen (Hofer & Piccinin, 2009). In einer koordinierten Analyse, einer Form der integrativen Datenanalyse, wird zunächst das gleiche Analyseprotokoll auf unterschiedliche Datensätze angewendet. Danach werden die Ergebnisse mithilfe metaanalytischer Methoden zusammengefasst (Curran, & Hussong, 2009). Als zusätzliche Datensätze wurden TIMSS 2015, PIRLS 2016 sowie PISA 2003 und 2012 aufgenommen. Die Mathematik- und Leseleistung der SuS wurde mit Leistungstests erfasst. Die domänenspezifischen Selbstkonzepte wurden mit Selbstberichtskalen erhoben. Die Analysen wurden mit der Statistiksoftware R und den R-Paketen „BIFIEsurvey“, „mgcv” und „survey” durchgeführt. Fehlende Werte wurden mithilfe genesteter multipler Imputation mit dem R-Paket „miceadds“ imputiert.

Ergebnisse: Die Ergebnisse zeigen, dass nicht-lineare Zusammenhänge zwischen Leistung und korrespondierenden Selbstkonzepten in Mathematik und im verbalen Bereich bei SuS der Sekundarstufe vorlagen. Dabei deuten die Ergebnisse der quadratischen Regressionen und der Interrupted Regressions darauf hin, dass der Zusammenhang für leistungsschwächere SuS schwächer war als für leistungsstärkere SuS. Bei 15-Jährigen ging der Zusammenhang zwischen mathematischer Leistung und mathematischem Selbstkonzept für leistungsschwächere SuS sogar gegen Null, während er für leistungsstärkere SuS positiv war. Die positiven quadratischen Beziehungen in Mathematik konnten über drei (PISA 2000, 2003 und 2012) und zwei (TIMSS 2011 und 2015) Zyklen repliziert werden, was die Robustheit der Ergebnisse untermauert. Nicht-lineare Zusammenhänge zeigten sich auch für jüngere SuS, jedoch war die Befundlage für diese Altersgruppe über Länder und Analysemethoden hinweg heterogener.

Diskussion: Der Beitrag zeigt eindrücklich, dass vermeintlich etabliertes empirisches Wissen (hier: der funktionale Zusammenhang zwischen Leistung und Selbstkonzepten) von der verwendeten Methode (hier: lineares vs. nicht-lineares Modell) abhängig ist. Die Verwendung alternativer Methoden ist damit eine wichtige Voraussetzung für die Entwicklung empirisch abgesicherten Wissens.

 

Wie stark hängt die Belastbarkeit der Befunde cluster-randomisierter Interventionsstudien zur Kompetenzförderung vom Zeitabstand und der Domänenpassung von Prätests ab?

Sophie Stallasch1, Oliver Lüdtke2, Cordula Artelt3, Martin Brunner1
1Universität Potsdam, Deutschland, 2Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik, Kiel, Deutschland / Zentrum für internationale Bildungsvergleichsstudien, München, Deutschland, 3Leibniz-Institut für Bildungsverläufe, Bamberg, Deutschland / Universität Bamberg, Deutschland

Theoretischer Hintergrund: Cluster-randomisierte Large-Scale-Studien (in welchen z.B. ganze Schulen zufällig den experimentellen Bedingungen zugewiesen werden) sind unverzichtbare Werkzeuge, um die Wirksamkeit von Interventionen zur Kompetenzförderung in ökologisch-validen Settings im großen Maßstab zu prüfen (Spybrook, Shi, & Kelcey, 2016). Ein wesentlicher Faktor für die Belastbarkeit dieser Studien ist ihre Designsensitivität. Diese lässt sich über die Minimum Detectable Effect Size (MDES; Bloom, 1995) quantifizieren, die den kleinstmöglichen standardisierten Mittelwertunterschied zwischen Interventions- und Kontrollgruppe erfasst, der bei gegebener Stichprobengröße mit hinreichender statistischer Power abgesichert werden kann (Power = .80, α= .05, zweiseitiger Test). Angestrebt wird typischerweise MDES ≤ .25 (Hill, Bloom, Black, & Lipsey, 2008). Eine der effizientesten Strategien zur Verbesserung der Designsensitivität ist die statistische Kontrolle von Prätestwerten, wodurch das „Signal-Rauschen-Verhältnis“ des Interventionseffekts deutlich optimiert werden kann (Konstantopoulos, 2012; Raudenbush, Martínez, & Spybrook, 2007). In der Praxis sind cluster-randomisierte Studien oftmals über mehrere Jahre implementiert und untersuchen mehrere Kompetenzdomänen. Inwiefern die Designsensitivität in Abhängigkeit des Zeitabstandes (z.B. Prätest vor 2 vs. 4 Jahren) oder der inhaltlichen Passung zwischen Prätest und Kriterium (z.B. Kriterium: Mathematik; Prätest: Mathematik vs. Lesen) variiert wurde bislang nur für die USA und überwiegend anhand von Zwei-Ebenen-Designs (Schülerinnen und Schüler [SuS] in Schulen) untersucht (z.B. Bloom, Richburg-Hayes, & Black, 2007).

Studienziel: Die Studie analysiert erstmals für den deutschen Bildungskontext auf Basis von Drei-Ebenen-Designs (SuS in Klassen in Schulen) die Auswirkungen (a) des Zeitabstandes und (b) der Domänenpassung zwischen Prätest und Kriterium auf die Designsensitivität, um die Belastbarkeit der Befunde cluster-randomisierter Studien abzuschätzen.

Methode: Die Analysen basierten auf bundesweit repräsentativen Längsschnittdaten von SuS der Startkohorten 2 (Kindergarten bis 4. Klasse; Primarstufe) und 3 (5. bis 9. Klasse, Sekundarstufe) des Nationalen Bildungspanels (NEPS; Blossfeld, Roßbach, & von Maurice, 2011). Die Stichprobengrößen variierten in Abhängigkeit des Kriteriums zwischen N = 4651 SuS (J = 627 Klassen, K = 239 Schulen; 9. Klasse) und N = 5554 (J = 888, K = 354; 3. Klasse). Als Kriterien wurden Kompetenzen in Mathematik (4. Klasse), Naturwissenschaften und Wortschatz (3. Klasse) für die Primarstufe sowie Mathematik, Lesen und Orthografie (9. Klasse) für die Sekundarstufe untersucht. Prätests lagen mit 1- bis 5-jährigem Zeitabstand vor. Über die Spezifikation von 47 Drei-Ebenen-Latent-(Covariate-)Modellen (Lüdtke et al., 2008) wurden Varianzkomponenten für die verschiedenen Kombinationen aus Prätest-Kriterium-Zeitabstand und Kompetenzdomäne geschätzt. Diese Varianzkomponenten wurden dann genutzt, um die Designsensitivität (MDES) beispielhaft für eine cluster-randomisierte Studie mit N = 1800 SuS (n = 20 SuS pro Klasse, j = 3 Klassen pro Schule, K = 30) zu illustrieren.

Ergebnisse: Für die Beispielstudie betrug die mittlere MDES in der Primarstufe .27 für einen 2-jährigen und .33 für einen 4-jährigen Zeitabstand zwischen domänenäquivalenten Prätests und Kriterien. Sofern Kriterien und Prätests verschiedenen Domänen angehörten, resultierten noch geringere Designsensitivitäten mit durchschnittlichen Werten von MDES = .30/.34 für das jeweils kürzeste/längste Prätest-Kriterium-Zeitintervall (1 bis 5 Jahre). In der Sekundarstufe blieb die MDES mit zunehmendem Zeitabstand zwischen Prätests und Kriterien im Mittel weitgehend stabil und stets kleiner als .25. Bei inhaltlicher Passung war die Designsensitivität etwas höher (Prätests vor 2/4 Jahren: mittlere MDES = .18/.21) als bei fehlender Passung (Prätests vor 2/4 Jahren: mittlere MDES = .24/.24). Dieses Befundmuster war auch nach kovarianzanalytischer Adjustierung um mittlere Kompetenzunterschiede zwischen Schulformen zu beobachten.

Diskussion: Insgesamt illustrieren die vorliegenden Ergebnisse, dass methodische Entscheidungen zur Wahl des Zeitabstands als auch zur inhaltlichen Passung von Prätestkovariaten die Belastbarkeit von cluster-randomisierten Interventionsstudien zur Kompetenzförderung (bemessen an deren Designsensitivität) in unterschiedlichem Maße beeinflussen können. Der Beitrag liefert damit praktisch-relevante Anhaltspunkte, um die Stichprobenplanung solcher Studien im deutschen Schulsystem zu unterstützen.

 

Evaluation von Korrelaten der Testleistung bei variierendem Testengagement: Anwendung von IRT-Modellen der Testbearbeitungspersistenz am Beispiel eines Lesetests

Gabriel Nagy1, Benjamin Nagengast2, Alexander Robitzsch1
1Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik, Kiel, Deutschland, 2Eberhard Karls Universität Tübingen, Deutschland

Theoretischer Hintergrund: Ein Ziel von Schulleistungsstudien ist die Bestimmung von Zusammenhängen zwischen Kompetenzen und Kovariaten. Die verwendeten Auswertungsverfahren basieren auf der impliziten Annahme, dass die Kompetenztests mit einem hohen Engagement bearbeitet werden. Diese Annahme steht im Widerspruch zu Befunden, die belegen, dass viele Personen eine geringe Testbearbeitungspersistenz aufweisen. So zeigt die Forschung zu Itempositionseffekten, dass die Wahrscheinlichkeit korrekter Antworten über den Verlauf der Testsitzung abnimmt (Debeer & Janssen, 2013) und die Forschung zum vorschnellen Antwortverhalten liefert Hinweise dafür, dass die Prävalenz des Rateverhaltens über den Testverlauf ansteigt (Wise, Pastor & Kong, 2009). Gängige Auswertungsverfahren vermengen Kompetenz und Persistenz. Somit stellt sich die Frage nach Möglichkeiten zur Abschätzung der Zusammenhänge von Kompetenz und Persistenz mit Kovariaten.

Studienziel: Im vorliegenden Beitrag werden Verfahren der Item Response Theorie (IRT) zur Erfassung und Kontrolle der Bearbeitungspersistenz vorgestellt. Die Ansätze werden um Kovariaten erweitert, sodass Kovariatenbeziehungen der Kompetenz und der Persistenz geschätzt werden können. Der erste Ansatz basiert auf der Modellierung variabler Itempositionseffekte (IRT-IPE-Modell; Debeer & Janssen, 2013), während das zweite Verfahren individuelle Unterschiede in den Übergangspunkten von engagierten zu nichtengagierten (Rateverhalten) Antwortprozessen schätzt (C-HYBRID-Modell; Nagy & Robitzsch, 2019). Die Modelle unterscheiden sich in der Spezifikation der Bearbeitungspersistenz und können somit zu unterschiedlichen Befunden führen.

Methode: Die Modelle werden anhand einer Stichprobe von Schülerinnen und Schülern der 5. Klasse, die im Rahmen der TRAIN-Studie erhoben wurden, veranschaulicht (N = 2774). Grundlage der Auswertungen bildete ein Leseverständnistest, der mit Maßen der Lesegeschwindigkeit in Verbindung gebracht wurde. Lesegeschwindigkeit lässt sich als eine Ressource verstehen, die gleichermaßen relevant für den Kompetenzerwerb und das situative Leseverhalten (Persistenz) ist. Von daher wurde erwartet, dass Lesegeschwindigkeit in den betrachteten Modellen mit der Kompetenz- und der Persistenzvariable assoziiert ist. Aufgrund der unterschiedlichen Spezifikation der Persistenzvariable erschienen graduelle Unterschiede in den Ergebnissen plausibel.

Ergebnisse: Als Ausgangspunkt wurde ein zweiparametrisches IRT-Modell (2PL) geschätzt. Gemessen am BIC-Index wies das 2PL-Modell die ungünstige Datenanpassung auf (BIC = 96725.0). In diesem Modell wurde die Korrelation zwischen Leseverständnis und Lesegeschwindigkeit auf r = .34 geschätzt. Das IRT-IPE-Modell erreichte eine günstigere Datenanpassung (BIC = 96516.1). Die Kompetenzkorrelation verringerte sich auf r = .28, während die Korrelation zwischen Lesegeschwindigkeit und Persistenz auf r = .14 geschätzt wurde. Im IRT-IPE-Modell betrug die Korrelation zwischen Kompetenz und Persistenz r = -.22. Das C-HYBRID-Modell wies die günstigste Datenanpassung auf (BIC = 96473.1), wobei die Kompetenzkorrelation gegenüber dem 2PL-Modell nahezu unverändert blieb (r = .32) und die Korrelation zwischen Lesegeschwindigkeit und Persistenz höher als im IRT-IPE-Modell geschätzt wurde (r = .33). Das C-HYBRID-Modell indizierte eine positive Kompetenz-Persistenz-Korrelation (r = .53).

Diskussion: Die Befunde liefern erneut Belege für die Existenz individueller Unterschiede in der Persistenz der Testbearbeitung. Die komplexen IRT-Modelle führten aber zu graduell unterschiedlichen Schlussfolgerungen. Dieser Befund verdeutlicht die Bedeutung einer theoretisch fundierten Spezifikation der Bearbeitungspersistenz. Vor diesem Hintergrund gilt festzuhalten, dass die Befunde des C-HYBRID-Modells eine höhere Übereinstimmung mit Befunden zum Rateverhalten in Leistungstests aufwiesen (Wiese et al., 2009). Die Integration des IRT-IPE- und des C-HYBRID-Modells zu einem übergreifenden Modell wird diskutiert.

 

Die Schätzung von zeitlich variierenden kausalen Effekten mit Längsschnittdaten: Wie stark beeinflusst die Kovariatenauswahl die Ergebnisse von Marginal Structural Models?

Sven Rieger1, Oliver Lüdtke2, Ulrich Trautwein1, Benjamin Nagengast1
1Eberhard Karls Universität Tübingen, Deutschland, 2Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik, Kiel, Deutschland / Zentrum für internationale Bildungsvergleichsstudien, München, Deutschland

Theoretischer Hintergrund: Marginal Structural Models sind eine Klasse statistischer Modelle, die zur Schätzung von zeitlich variierenden kausalen Effekten in längsschnittlich angelegten Studien verwendet werden (Robins, Hernán, & Brumback, 2000). In einem mehrschrittigen Verfahren werden zunächst sogenannte Inverse Probability Treatment Weights geschätzt, welche anschließend bei der Effektschätzung modellbasiert berücksichtigt werden. Bei der Generierung der Gewichte sollen Kovariaten berücksichtigt werden, die sowohl mit der Zielvariable als auch mit der Treatment-Variable zusammenhängen (VanderWeele, 2019). Um die Strong Ignorability-Annahme zu rechtfertigen (Rosenbaum & Rubin, 1983), wird hierbei generell eine inklusive Kovariatenauswahl vorgeschlagen, in der auch nicht-lineare Effekte von Kovariaten berücksichtigt werden. Die inklusive Strategie der Berücksichtigung von Kovariaten ist allerdings mit dem Problem verbunden, dass bei einer großen Anzahl von Kovariaten (relativ zur Stichprobengröße) die Schätzung der Gewichte instabil werden kann.

Fragestellung: In der vorliegenden Untersuchung sollen folgende Fragen beantwortet werden: (1) Inwiefern wirkt sich die Auswahl verschiedener Kovariaten (z.B. nur Prätestvariablen, Prätestvariablen und zeitlich-invariante Kontrollvariablen, Prätestvariablen, zeitlich-invariante und zeitlich-abhängige Kontrollvariablen) auf die Gewichtbildung und deren Eigenschaften (z.B. Streuung und Kurtosis) aus? (2) Daran anknüpfend: Inwiefern wirken sich unterschiedliche Verfahren (z.B. unterschiedliche Algorithmen) und Vorgehensweisen (z.B. Aufnahme von nicht-linearen Effekten) zur Bestimmung der Gewichte auf die Effekt- bzw. Standardfehlerschätzung der Modelle aus? Diese Fragen sollen anhand einer Fragestellung aus der Leseforschung (der Einfluss der Lesehäufigkeit auf das Leseverständnis) betrachtet werden.

Methode: Die Daten für die vorliegende Untersuchung stammen aus der Studie „Tradition und Innovation: Entwicklungsverläufe an Haupt- und Realschulen in Baden-Württemberg und Mittelschulen in Sachsen“ (TRAIN; Jonkmann, Rose, & Trautwein, 2013).

Stichprobe. Genutzt wurden Daten der fünften bis achten Klassenstufe (136 Klassen). Es wurde sich auf die Startkohorte der 5. Klassenstufe beschränkt (N = 2.894 Schülerinnen und Schüler).

Instrumente. Die Lesehäufigkeit wurde mit einem Item gemessen („Wie oft liest du in deiner Freizeit einfach aus Spaß?“). Folgenden Antwortmöglichkeiten waren vorgegeben: 1 = nie, 2 = bis zu 30 Minuten täglich, 3 = 30 bis 60 Minuten, 4 = 1 bis 2 Stunden, 5 = mehr als 2 Stunden täglich. Die Erfassung des Leseverständnisses erfolgte anhand eines rotierten Matrix- bzw. Itemblockdesigns mit 60 bis 87 Items pro Messzeitpunkt. Der Leistungstest wurde anhand von Modellen aus der Item-Response-Theorie skaliert und es wurden Weighted Maximum Likelihood Estimates (WLEs; Warm, 1989) als Personenparameterschätzer generiert. WLE-Reliabilitäten reichten von .72 bis .80. Für die Gewichtbildung wurden folgende Kovariaten (zusätzlich zu den Prätestmessungen von Lesehäufigkeit und Leseverständnis) verwendet: Geschlecht, Migrationshintergrund, sozioökonomischer Hintergrund, Bücher im Haushalt, Schulform, Lese-Rechtschreib-Schwäche, Noten in Deutsch und Mathematik, Lesefreude, Leseschwierigkeiten, Selbstkonzept, Interesse, Anstrengungsbereitschaft in Deutsch, verbale kognitive Fähigkeit.

Statistische Analyse. Die Gewichte wurden mit verschiedenen Verfahren (z.B. Propensity Score Weighting, [Non-Parametric] Covariate Balancing Propensity Score Methodology) gebildet, welche in dem R-Paket „WeightIt“ (Greifer, 2019) implementiert sind. Die Effekte der Lesehäufigkeit auf das Leseverständnis wurden anhand generalisierter linearer Modelle (svyglm-Funktion aus dem R-Paket „survey“; Lumley, 2017) geschätzt. Diese Modelle ermöglichen die simultane Berücksichtig von Gewichten und die Korrektur der Standardfehler (Schülerinnen und Schüler genestet in Klassen). Fehlende Werte wurden zuvor durch das Verfahren der Multiplen Imputation in Mplus geschätzt (Enders, 2010).

Ergebnisse: Die Eigenschaften der Gewichte sowie die Effekt- bzw. Standardfehlerschätzung der Regressionsmodelle variieren in Abhängigkeit der unterschiedlichen Sets an Kovariaten (Anzahl und Inklusion von nicht-linearen Effekten). Die Ergebnismuster umspannen sowohl positiv signifikante Effekte der Lesehäufigkeit auf das Leseverständnis als auch Nulleffekte.

Diskussion: Die Ergebnisse werden kritisch diskutiert und werden mit Blick auf aktuelle Themen wie Open Science, Questionable Research Practices und Researcher Degrees of Freedom betrachtet. Es lässt sich zusammenfassend festhalten, dass die Kovariatenauswahl maßgeblich die Studienergebnisse und somit auch die jeweils gezogenen Schlussfolgerungen beeinflussen (können).