Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Tagung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
 
Sitzungsübersicht
Sitzung
F9‒H02: Herausforderungen bei der Messung der Wirkungen von Unterricht
Zeit:
Freitag, 27.03.2020:
9:00 - 10:45

Ort: H02

Präsentationen

Herausforderungen bei der Messung der Wirkungen von Unterricht

Chair(s): Carmen Köhler (DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation), Alexander Naumann (DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation)

DiskutantIn(nen): Wolfgang Wagner (Eberhard Karls Universität Tübingen)

Ein zentrales Interesse in der Unterrichtsforschung besteht darin, die Wirkungen von Unterricht auf die Leistungsentwicklung und die motivationale Entwicklung von Schülerinnen und Schülern zu überprüfen. Wirkungen des Unterrichts zu identifizieren ist unter anderem eine methodisch hoch anspruchsvolle Herausforderung, da Unterricht ein komplexes System ist, in dem mehrere Komponenten ineinandergreifen, und auf verschiedenen Ebenen bestimmte Voraussetzungen für eine valide WIrksamkeitsprüfung gegeben sein müssen. Hierzu gehören (a) eine reliable und valide Messung sowie Modellierung relevanter Unterrichtsmerkmale, (b) die angemessene Erfassung und Modellierung wesentlicher Leistungs- und Lernergebnisse der Schülerinnen und Schüler sowie (c) ein angemessenes Analysemodell zur Bestimmung des Effektes der Wirkung von Unterricht auf die Leistungs- und Lernergebnisse. Im Symposium liegen die Fokusse auf diesen verschiedenen, und doch miteinander verknüpften, methodischen Herausforderungen.

Der erste Beitrag beschäftigt sich mit der Erfassung von Prozessen im Unterricht, also der Messung relevanter Unterrichtsmerkmale. Im Spezifischen wird geprüft, ob die kognitive Aktivierung, welche eine der drei Basisdimensionen guten Unterrichts darstellt, mithilfe von Merkmalen des Unterrichtsangebots bzw. dessen Nutzung erfassbar ist. Im Beitrag wird berichtet, wie die Skala mithilfe von hierarchischen Faktorenanalysen gebildet und anschließend auf Zuverlässigkeit und Konstruktvalidität geprüft wurde.

Im zweiten Beitrag liegt der Fokus weiterhin auf der Messung der Unterrichtsmerkmale. Im Zentrum steht hier die Modellierung der Urteilsakkuratheit von Lehrpersonen. Es wird ein Bayesianisches multivariates Mehrebenenmodell vorgeschlagen und angewendet, um die Akkuratheit diagnostischer Urteile von Lehrpersonen in verschiedenen Kompetenzbereichen gleichzeitig abzubilden. Im Beitrag wird dabei untersucht, wie konsistent die Urteilsakkuratheit über die verschiedenen Kompetenzbereiche hinweg ausgeprägt ist.

Der dritte Beitrag prüft, ob nichtkognitive Lernergebnisse auf eine Art und Weise gemessen werden, dass sie überhaupt Wirkungen von Unterricht erfassen können, also sensitiv gegenüber Unterrichtseffekten sind. Im Gegensatz zu Leistungstests wird die Instruktionssensitivität der Instrumente zur Erfassung nichtkognitiver Lernergebnisse bislang wenig untersucht. Entsprechend zielt der Beitrag darauf ab, das Konzept der Instruktionssensitivität auf nichtkognitive Lernergebnisse zu erweitern und die Implikationen für die Unterrichtseffektivitätsforschung zu diskutieren.

Im letzten Beitrag steht die Schätzung des Effektes von Unterricht im Fokus. Es wird aufgezeigt, unter welchen Bedingungen zwei gängige Analysemodelle—der Change-Score und ANCOVA Ansatz—bei Schätzung des Effektes von Unterricht übereinstimmen und wann sie zu verzerrten Schätzungen führen.

Alle Beiträge werden abschließend von Wolfgang Wagner im Hinblick auf zukunftsträchtige Ansätze und notwendige Weiterentwicklungen diskutiert.

 

Beiträge des Symposiums

 

Lässt sich das Potenzial zur kognitiven Aktivierung im Unterricht über Unterrichtsmaterialien erfassen?

Benjamin Herbert
DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation

In der Unterrichtsforschung werden verschiedene Datenquellen für die Auswertung der Unterrichtsqualität genutzt, wobei jede Quelle mit unterschiedlichen Vor- und Nachteilen verbunden ist (Waldis, Grob, Pauli & Reusser, 2010; Praetorius, Pauli, Reusser, Rakoczy & Klieme, 2014). Die Analyse gefilmter Unterrichtsstunden durch externe Beobachter*innen gilt durch ihre hohe Objektivität und die Möglichkeit, einen methodisch-didaktisch geschulten Blick zu gewährleisten, als Königsweg zur Erfassung von Unterrichtsmerkmalen (Helmke, 2014). Sie ist jedoch mit einem direkten Eingriff in den Unterricht sowie hohen Kosten und zeitlichem Aufwand verbunden. Eine bislang kaum genutzte Alternative besteht in der Analyse von Unterrichtsmaterialien. Diese verbindet ökonomische Vorteile mit der hohen Objektivität, die mit der Auswertung durch externe Beobachter*innen einhergeht.

Da Unterrichtsmaterialien nur die Angebotsseite von Unterricht abbilden, sind sie als Indikator für diejenigen Unterrichtsqualitätsmerkmale geeignet, die nicht ausschließlich auf Schüler*innen-Lehrer*innen-Interaktionen beruhen. Hierunter fällt beispielweise die kognitive Aktivierung, die eine der drei Basisdimensionen guten Unterrichts darstellt und darauf abzielt, ob Schüler*innen zu komplexen Denkprozessen und einer vertieften Auseinandersetzung mit dem Unterrichtsgegenstand angeregt werden (Klieme et al., 2001; Klieme & Rakoczy, 2008; Praetorius et al., 2018). Da sich die tatsächliche kognitive Aktivierung der Schüler*innen nur schwer an deren Verhalten erkennen lässt (Mayer, 2004; Renkl, 2011), wird häufig über Merkmale des Unterrichts und/oder dessen Nutzung durch die Lernenden stellvertretend das Potenzial zur kognitiven Aktivierung erfasst (Kunter & Voss, 2011; Lipowsky, 2015; Kunter & Trautwein, 2013).

Trotz ihrer Eignung wurden Unterrichtsmaterialien im Mathematikunterricht in Deutschland bislang nur in der COACTIV Studie herangezogen (Jordan et al., 2006; Baumert et al., 2010). Nach über fünfzehn Jahren ist mit der Leibniz Videostudie erstmals eine weitere Studie durchgeführt worden, die eine Auswertung von Unterrichtsmaterialien in Bezug auf das Potenzial zur kognitiven Aktivierung ermöglicht. In dieser wurden unterschiedliche Aspekte von kognitiver Aktivierung über Unterrichtsmaterialien erfasst, wobei einzelne Items in angepasster Form von COACTIV übernommen wurden. Zudem wurde ein innovatives Ratingverfahren durchgeführt: Alle Unterrichtsmaterialien einer Stunde (z.B. Ablaufpläne, visuelle Materialien, Lehrbuchseiten oder Aufgabenblätter) wurden als gemeinsames Set stellvertretend für die Unterrichtsstunde ausgewertet. Der Beitrag befasst sich daher mit der Forschungsfrage, ob sich das Potenzial einer Unterrichtsstunde zur kognitiven Aktivierung über die Unterrichtsmaterialien der Stunde erfassen lässt.

Es wird in einem analytischen Dreischritt vorgegangen. Zunächst wird eine Skala zum Potenzial der kognitiven Aktivierung entwickelt. Dazu werden neun theoriegeleitet ausgewählte Items, die verschiedene Aspekte von kognitiver Aktivierung abdecken, strukturanalytisch untersucht. Als Datengrundlage dienen 187 Unterrichtsstunden. Die Skala wird über eine hierarchische konfirmatorische Faktorenanalyse gebildet, wodurch die Ratingstruktur – alle Unterrichtsstunden wurden durch zwei unabhängige Rater*innen ausgewertet – und das ordinale Skalenniveau der Daten berücksichtigt werden. Die entwickelte Skala setzt sich aus sieben Items zusammen und weist gute Fit-Werte auf (χ²(70) = 145.32, p = .00, TLI = .969, CFI = .976, RMSEA = .076). Alle Faktorladungen liegen zwischen 0.32 und 0.86.

In einem zweiten Schritt wird über eine Abhängigkeitsstudie untersucht, wie zuverlässig die Skala von den Rater*innen erfasst werden kann. Datengrundlage ist eine Teilstichprobe aus 20 Unterrichtsstunden, deren Unterrichtsmaterialien jeweils von sechs Rater*innen ausgewertet wurden. Es zeigt sich, dass bereits bei der Auswertung durch eine/n Rater*in der G Koeffizient einen Wert von 0.7 übersteigt, der in anderen Studien der Unterrichtsforschung als Referenzwert für eine akzeptable Zuverlässigkeit verwendet wird (Praetorius et al., 2014).

Abschließend wird die Konstruktvalidität der entwickelten Skala getestet. Für etwa die Hälfte der ausgewerteten Unterrichtsstunden wurde die kognitive Aktivierung auch über Videoratings erfasst. Die Skalen der beiden Erhebungsinstrumente werden latent modelliert und miteinander korreliert (χ²(62) = 125.41, p = .00, RMSEA = .072, TLI = .920, CFI = .936). Die hierarchische Struktur der Daten wird aufgrund der geringeren Stichprobengröße nicht berücksichtigt. Es liegt eine signifikante mittlere Korrelation vor (r = .39, p = 0.00), was auf eine akzeptable Konstruktvalidität der entwickelten Skala hindeutet.

 

Zur Modellierung der Urteilsakkuratheit in multiplen Kompetenzbereichen und deren Beziehungen

Dimitra Kolovou1, Alexander Naumann2, Jan Hochweber1, Anna-Katharina Praetorius3
1Pädagogische Hochschule St.Gallen (PHSG), 2DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, 3Universität Zürich

Theoretischer Hintergrund

In zahlreichen Studien steht die Akkuratheit des Lehrerurteils bezüglich der Schülerleistung als Indikator diagnostischer Kompetenz im Fokus. Dabei werden jedoch oft einzelne Akkuratheitsmasse bezogen auf einen einzigen Kompetenzbereich verwendet, um Aussagen über die Akkuratheit von Lehrpersonen innerhalb eines Fachs zu treffen (siehe Gabriele et al., 2016; Lorenz & Artelt, 2009). Implizit wird damit davon ausgegangen, dass es sich bei der Urteilsakkuratheit um eine globale Fähigkeit von Lehrpersonen handelt und Resultate daher auf Urteile in verschiedenen Kompetenzbereichen verallgemeinert werden können (Herppich et al., 2017). Allerdings wurden bislang die Beziehungen zwischen der Urteilskkuratheit von Lehrpersonen über Kompetenzbereiche hinweg kaum untersucht (siehe jedoch Lorenz & Artelt, 2009).

In den sehr wenigen bisherigen Studien zu diesem Thema wurde die Urteilsakkuratheit über die lehrer- oder klassenweise berechnete Korrelation zwischen den im Test ermittelten und den von den Lehrpersonen beurteilten Schülerleistungen abgebildet (vgl. Lorenz & Artelt, 2009). Dabei wird die hierarchische Datenstruktur nur indirekt berücksichtigt. Zudem sind die so ermittelten Akkuratheitskennwerte zweifach messfehlerbehaftet, da die manifesten Schülertestwerte und die manifesten Lehrerurteile in die Analysen eingehen. Dies könnte zu einer Unterschätzung der empirischen Zusammenhänge der Urteilsakkuratheit in den jeweiligen Kompetenzbereichen führen.

Ziel des Beitrags ist es daher, zu untersuchen, inwiefern sich die Urteilsakkuratheit in multiplen Kompetenzbereichen und die Beziehungen zwischen diesen mithilfe von Mehrebenenmodellen mit latenten Variablen analysieren lassen, um einen adäquateren Umgang einerseits mit der hierarchischen Datenstruktur und anderseits mit dem Messfehler zu ermöglichen.

Methode

Die Analysen erfolgen mit Daten von 55 Deutschlehrpersonen aus der deutschsprachigen Schweiz, welche die Leistungen der von ihnen unterrichteten Schülerinnen und Schüler der Jahrgangstufe 7 beurteilten (N = 1255). Die Lehrpersonen wurden gebeten, für jeden Schüler Urteile zum individuellen Leistungsstand in den Kompetenzbereichen „Lesen“, „Hören“, und „Sprache(n) im Fokus“ abzugeben. Das Rating erfolgte auf einer zehnstufigen Skala von „leistungsschwach“ (1) bis „leistungsstark“ (10). Zu den eingeschätzten Schülern lagen auch Daten aus objektiven, lehrplankonformen Kompetenztests vor.

Für die simultane Analyse der Urteilsakkuratheit in multiplen Bereichen wurde ein einzelnes multivariates Mehrebenenmodell mit variierenden Koeffizienten („random intercepts and random slopes“) spezifiziert. Dabei stellt die Regressionskonstante (bei entsprechender Zentrierung) das erwartete Urteil für Schüler mit durchschnittlicher Leistung dar, während die Regressionssteigung darstellt, wie gut Lehrerurteile durch die Testergebnisse der Schüler vorhergesagt werden können, was als Maß für die Urteilsgenauigkeit der Lehrpersonen aufgefasst werden kann. Die Schülertestwerte (zentriert um den Gruppenmittelwert), geschätzt aus einem mehrdimensionalen Mehrebenen-IRT-Modell (ML-MIRT), wurden in jedem Kompetenzbereich als latenter Prädiktor (siehe Lüdtke et al., 2011) spezifiziert. Die latenten Korrelationen der Slopes über die Kompetenzbereiche hinweg liefern Informationen darüber, inwieweit die Urteilsakkuratheit der Lehrpersonen in den Kompetenzbereichen konsistent ist oder nicht. Alle Analysen wurden im Bayes-Framework in JAGS (Plummer, 2016) mittels Markov-Chain Monte Carlo (MCMC) durchgeführt.

Ergebnisse

Die mittleren Effekte der Schülertestwerte verweisen auf einen positiven Zusammenhang zwischen dem Schülertestwert und dem Lehrerurteil in allen Kompetenzbereichen. Sie variieren je nach Kompetenzbereich zwischen β = .71 (95% Bayesianisches Kredibilitätsintervall [BCI]: .59; .84; Sprache(n) im Fokus) und β = .91 (95% BCI: .76; .84; Hören). Die latenten Korrelationen über die Kompetenzbereiche zwischen der ermittelten Urteilsakkuratheit liegen zwischen r = .68 (95% BCI: .50; .84) und r = .78 (95% BCI: .65; .89).

Entsprechend kann – trotz eines substantiellen Zusammenhangs – nur mit gewissen Einschränkungen von der Akkuratheit in einem Kompetenzbereich auf diejenige im anderen Kompetenzbereich geschlossen werden. Dies steht im Einklang mit einigen vorherigen Studien (vgl. z.B. Lorenz & Artelt, 2009), welche manifeste Korrelationen über die Kompetenzbereiche untersuchten. Das eingesetzte Verfahren erweitert bisherige Ansätze (vgl. Karst et al., 2017; Meissel et al., 2017) und bietet einen angemesseneren Ansatz für die Modellierung der Urteilsakkuratheit in multiplen Kompetenzbereichen und deren Beziehungen auf latenter Ebene.

 

Instruktionssensitivität von Maßen nichtkognitiver Lernergebnisse

Alexander Naumann1, Burkhard Gniewosz2, Jan Hochweber3, Johannes Hartig1
1DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, 2Paris Lodron Universität Salzburg, 3Pädagogische Hochschule St.Gallen (PHSG)

Schülerleistung in curriculums- oder standardbasierten Tests dient regelmäßig als ein Kriterium für Aussagen über die Effektivität von Unterricht (z.B. Klieme, 2018; Kultusministerkonferenz, 2006; Marsh et al., 2012). Gültige Aussagen über die Unterrichtseffektivität auf Basis der Schülerleistung erfordert Leistungstests, die Wirkungen des Unterrichts erfassen können, also instruktionssensitiv (Polikoff, 2010) sind. Entsprechend wird heutzutage die Instruktionssensitivität (InSe) von Leistungstests regelmäßig untersucht (z.B. Grossman, Cohen, Ronfeldt, & Brown, 2014; Naumann, Rieser, Musow, Hochweber, & Hartig, 2019; Polikoff, 2016). Unterricht hat jedoch vielfältige Erträge, die nicht nur kognitive Fähigkeiten der Schülerinnen und Schüler, sondern auch nichtkognitive Lernergebnisse umfassen (Seidel & Shavelson, 2007). In den letzten Jahren finden diese nichtkognitiven Lernergebnisse wie Motivation oder Interesse zunehmend als Kriterien für Aussagen über die Unterrichtseffektivität Beachtung (z.B. Capella, Aber, & Kim, 2016). Jedoch wird auf Maße für solche nichtkognitiven Lernergebnisse das Konzept von InSe bisher nicht angewendet, so dass die Frage offen bleibt, inwieweit entsprechende Instrumente überhaupt dazu in der Lage sind, Wirkungen des Unterrichts zu erfassen. Ziel unseres Beitrags ist es daher, (a) das Konzept von InSe auf Maße nichtkognitiver Lernergebnisse zu erweitern und (b) exemplarisch die InSe ausgewählter Maße für motivational-affektive Konstrukte zu untersuchen und mit Leistungstestdaten zu vergleichen.

Maße für nichtkognitive Lernergebnisse werden in der Regel als Selbstberichte in Fragebögen mittels Likert-Items erhoben. Wir modellieren die InSe von Likert-Items, indem wir ein längsschnittliches Mehrebenen-IRT-Modell (LMLIRT; Naumann, Hartig, & Hochweber, 2017) zur Messung der InSe von dichotomen Items adaptieren. Im LMLIRT-Modell werden klassenspezifische Veränderungen der Itemschwierigkeit über Messzeitpunkte als Grundlage zur Beurteilung von zwei Facetten von InSe geschätzt: a) globale Sensitivität, die sich auf die mittlere Veränderung der klassenspezifischen Itemschwierigkeit zwischen den Messzeitpunkten bezieht, und b) differentielle Sensitivität, die sich auf die Streuung der Itemschwierigkeitsveränderung über Klassen bezieht. Wir übertragen diesen Ansatz auf das generalisierte Partial Credit Model (GPCM; Muraki, 1992) unter Verwendung der sogenannten erweiterten Parametrisierung (Penfield, Myers, & Wolfe, 2008). In der erweiterten Parametrisierung des GPCM werden als Schwierigkeitsparameter jedes K-stufigen Items ein Lokationsparameter sowie K-1 Schwellenparameter geschätzt. Da die einzelnen Antwortkategorien innerhalb von Likert-Items keine spezifische Information über ein mehr oder weniger hinaus tragen, modellieren wir klassenspezifische Lokationsparameter als Grundlage für die InSe von Likert-Items. Likert-Items können dann als a) insensitiv angesehen werden, wenn die mittlere Veränderung der Lokation nahe Null ist und nicht zwischen Klassen streut, b) global sensitiv, wenn sich die mittlere Lokation zwischen Messzeitpunkten verändert, c) differentiell sensitiv, wenn die Lokationsveränderung zwischen Klassen streut, und d) global und differentiell sensitiv, wenn sowohl b als auch c zutreffen.

Wir wenden diese Konzeptualisierung von InSe auf Items zur Erfassung motivational-affektiver Lernergebnisse an, die im IGEL-Projekt (Decristan et al., 2015) als Kriterien für Aussagen über die Effektivität einer quasi-experimentellen Unterrichtsintervention dienten. Der Datensatz umfasst Schülerantworten von 980 Drittklässlerinnen und Drittklässlern in 54 Klassen an hessischen Grundschulen. Exemplarisch analysieren wir Items zu intrinsischer Motivation, Selbstwirksamkeitserwartung sowie fachspezifischem Interesse. Alle Items zeigten einen guten Fit zum GPCM. Keines der Items war insensitiv. Insgesamt war die Sensitivität im Vergleich zu Leistungstestitems niedrig, jedoch mehrheitlich statistisch bedeutsam.

Neben Schülerleistung dienen Maße für nichtkognitive Lernergebnisse heutzutage häufig als Kriterien zur Beurteilung der Unterrichtseffektivität. Ähnlich wie bei Schülerleistung erfordert dieses Vorgehen empirische Evidenz dafür, inwieweit die verwendeten Instrumente sensitiv für Unterricht sind. Bisher ist dies wenig untersucht. Vor dem Hintergrund, dass ökologisch valide Studien (z.B. Yin et al., 2008) regelmäßig keine Wirkungen von Unterricht auf nichtkognitive Lernergebnisse finden, bleibt somit die Frage offen, ob der Unterricht nicht effektiv oder die Instrumente nicht sensitiv waren. Unser Beitrag schärft das Bewusstsein für dieses Thema und zeigt eine Methode, die InSe von Likert-Items zu messen. Wir hoffen, dass unsere Arbeit so dazu beiträgt, die Validität von Aussagen über Unterricht zu verbessern.

 

Detektion von Unterrichtseffekten – Entscheidung zwischen dem kovarianzanalytischen Ansatz und dem Change-Score-Ansatz in Paneldaten mit zwei Messzeitpunkten

Carmen Köhler, Johannes Hartig
DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation

Theoretischer Hintergrund

In der Unterrichtsforschung liegt ein Schwerpunkt auf der Identifizierung von Lehrerverhalten, das relevante Lernergebnisse auf Seiten der Schüler positiv beeinflusst. Modelle zur Messung solcher Unterrichtseffekte sind komplex, da (a) die nicht beobachtbare Konstrukte von Interesse meist mit mehreren Indikatoren gemessen werden, (b) Forschungsfragen auf Klassenebene die Anwendung von mehrstufigen Modellen erfordern und (c) die relevanten Lernergebnisse mindestens zu zwei Zeitpunkten erfasst werden sollten um feststellen zu können, ob sich Klassen hinsichtlich verschiedener Unterrichtsformen unterschiedlich entwickeln. Zwei prominente mehrstufige Modelle, welche bei der empirischen Analyse solcher Forschungsfragen häufig zur Anwendung kommen sind (1) kovarianzanalytische Ansätze, bei denen die Effekte der Prädiktoren auf das Lernergebnis zum zweiten Messzeitpunkt bei gleichzeitiger Kontrolle des ersten Messzeitpunktes erfolgt (durch die Hinzunahme als Prädiktor), und (2) latente Change-Score-Modelle, bei denen die Differenz des Lernergebnisses zwischen den beiden Messzeitpunkten als zusätzliche latente Variable modelliert wird und die Effekte von Prädiktoren auf diese Differenzvariable geschätzt werden. Beide Ansätze wurden für Anwendungen ohne mehrstufige Datenstruktur ausführlich diskutiert (Allison, 1990; Holland & Rubin, 1982; Lord, 1963; McArdle, 2009).

Fragestellung

In diesem Beitrag wenden wir die Ansätze auf den Bereich der Unterrichtsforschung an und zeigen auf, unter welchen Umständen welches Modell besser zur Messung des Unterrichtseffekts geeignet ist, und welche Schlussfolgerungen sie jeweils erlauben.

Methode

Der Beitrag fokussiert auf mehrstufige Daten mit zwei Messzeitpunkten und einem Prädiktor und entspricht somit einer Datenstruktur, die häufig in der Bildungs- und Unterrichtsforschung zur Analyse von Unterrichtseffekten auf Klassen- oder Schulebene verwendet wird. Mit Hilfe eines theoretischen datengenerierenden Modells identifizieren wir relevante Parameter, welche die Schätzung des Unterrichtseffekts beeinflussen. Durch Variation dieser relevanten Parameter untersuchen wir ihren Einfluss auf den geschätzten Unterrichtseffekt für jeweils den kovarianzanalytischen als auch den Change-Score- Ansatz. Dementsprechend können wir zeigen, unter welchen Annahmen bezüglich der relevanten datengenerierenden Parameter der Unterrichtseffekt ohne Bias geschätzt wird.

Ergebnisse

Die Ergebnisse zeigen, dass in realistischen Szenarien der Unterrichtsforschung kein Ansatz eine unverzerrte Schätzung des Unterrichtseffekts liefert. Unter bestimmten Annahmen zeigen entweder einer oder beide Ansätze unverzerrte Effekte. Forscher sollten daher für jede Konstellation an untersuchten Variablen separat erwägen, welche Annahmen gelten und mit welchem Ansatz sie unverzerrte Unterrichtseffekte erhalten. Anhand empirischer Beispiele aus der Unterrichtsforschung veranschaulichen wir Unterschiede zwischen den geschätzten Unterrichtseffekten. Basierend auf den Annahmen über die relevanten Parameter diskutieren wir für jedes der Beispiele, welches Modell besser geeignet ist. Die Ergebnisse aus dem Beitrag und die empirischen Illustrationen sollen Bildungs- und Unterrichtsforscher bei der Entscheidung über ihr Analysemodell unterstützen